「Advanced Reasoning Benchmark(ARB)に会いましょう:大規模な言語モデルを評価するための新しいベンチマーク」

Let's meet Advanced Reasoning Benchmark (ARB) A new benchmark for evaluating large language models.

自然言語処理は近年、特に洗練された言語モデルの作成によって大きく進化しています。翻訳や推論を含むほとんどの自然言語タスクで、GPT 3.5、GPT 4、BERT、PaLMなどの有名なモデルの性能が著しく向上しています。これらのAIの分野での進展を評価するために、いくつかのベンチマークが使用されています。ベンチマークは、言語モデルの能力をテストするために作成された標準化されたタスクの集合です。

最初のいくつかの言語理解ベンチマークであるGLUEとSuperGLUEベンチマークを考慮すると、BERTやGPT-2などのモデルはより難解でした。これらのベンチマークを超えるように言語モデルが進化しているため、モデルの開発とベンチマークの難易度の間で競争が発生しています。モデルを大きくし、大規模なデータセットでトレーニングすることが性能向上のカギです。LLM(言語モデル)は、知識と数量的推論の能力を測定するさまざまなベンチマークで優れたパフォーマンスを示していますが、これらのモデルが現在の基準で高得点を取ると、これらのベンチマークはモデルの能力を評価するためにはもはや有用ではないことが明らかです。

これらの制限に対処するため、研究者チームはARB(Advanced Reasoning Benchmark)という新しいユニークなベンチマークを提案しました。ARBは数学、物理学、生物学、化学、法律など、さまざまな主題領域でより難解な問題を伝えるために作成されています。ARBは、以前のベンチマークとは異なり、複雑な推論問題に焦点を当ててLLMのパフォーマンスを向上させることを目指しています。チームはまた、ARBの一部として、洗練された象徴的思考と深い専門知識を要する数学と物理学の問題のセットを導入しました。これらの問題は非常に困難であり、現在のLLMの範囲外です。

チームは、GPT-4やClaudeなどの新しいモデルをARBベンチマークで評価しました。これらのモデルは、ARBに含まれるより困難なタスクにおいて50%未満のスコアで対応することが困難であることを示す結果が示されています。チームはまた、評価プロセスを改善するための評価基準に基づいた評価アプローチを示しました。この戦略を使用することで、GPT-4はARBの問題を解決しようとする際に自身の中間推論プロセスを評価することができます。これにより、レビュープロセスの範囲が広がり、モデルの問題解決戦略が明らかになります。

ARBの象徴的なサブセットは人間のレビューも受けています。人間の注釈者は問題を解決し、独自の評価を提供するように求められました。人間の評価者とGPT-4の評価基準に基づいた評価スコアとの間には有望な一致があり、モデルの自己評価が人間の判断と合理的に一致していることを示しています。数百の専門的な推論を必要とする問題があり、これまでにLLMが通常苦労してきた量的分野で、新しいデータセットは以前のベンチマークを大幅に上回っています。

過去のベンチマークの多肢選択問題とは異なり、多くの問題は短答えや自由回答の形式で構成されており、LLMの評価がより困難になります。専門レベルの推論タスクと現実的な問題形式の組み合わせにより、モデルが複雑な現実世界の問題を処理する能力をより正確に評価することが可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ONNXモデル | オープンニューラルネットワークエクスチェンジ

はじめに ONNX(Open Neural Network Exchange)は、深層学習モデルの表現を容易にする標準化されたフォーマットとして広く認...

データサイエンス

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に...

人工知能

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモ...

機械学習

「大規模なモデルの時代のプログラマー」

大規模モデルは開発者のプロセスを完全に変えましたこれを読んだ後、AIGCが開発効率を向上させる方法について、まったく新し...

機械学習

「検索増強生成によるAIの幻覚の軽減」

「この新しく考案された技術は、独自のデータをプロンプトに追加することで、LLM(Language Model)の知識を増やす可能性を示...

データサイエンス

ChatGPTのコードインタプリター:知っておくべきすべてのこと

OpenAIは、興奮をもって発表を行っており、最新の発表はChatGPT Plusのユーザーを喜ばせることでしょう。数ヶ月の期待を経て...