「Advanced Reasoning Benchmark(ARB)に会いましょう:大規模な言語モデルを評価するための新しいベンチマーク」
Let's meet Advanced Reasoning Benchmark (ARB) A new benchmark for evaluating large language models.
自然言語処理は近年、特に洗練された言語モデルの作成によって大きく進化しています。翻訳や推論を含むほとんどの自然言語タスクで、GPT 3.5、GPT 4、BERT、PaLMなどの有名なモデルの性能が著しく向上しています。これらのAIの分野での進展を評価するために、いくつかのベンチマークが使用されています。ベンチマークは、言語モデルの能力をテストするために作成された標準化されたタスクの集合です。
最初のいくつかの言語理解ベンチマークであるGLUEとSuperGLUEベンチマークを考慮すると、BERTやGPT-2などのモデルはより難解でした。これらのベンチマークを超えるように言語モデルが進化しているため、モデルの開発とベンチマークの難易度の間で競争が発生しています。モデルを大きくし、大規模なデータセットでトレーニングすることが性能向上のカギです。LLM(言語モデル)は、知識と数量的推論の能力を測定するさまざまなベンチマークで優れたパフォーマンスを示していますが、これらのモデルが現在の基準で高得点を取ると、これらのベンチマークはモデルの能力を評価するためにはもはや有用ではないことが明らかです。
これらの制限に対処するため、研究者チームはARB(Advanced Reasoning Benchmark)という新しいユニークなベンチマークを提案しました。ARBは数学、物理学、生物学、化学、法律など、さまざまな主題領域でより難解な問題を伝えるために作成されています。ARBは、以前のベンチマークとは異なり、複雑な推論問題に焦点を当ててLLMのパフォーマンスを向上させることを目指しています。チームはまた、ARBの一部として、洗練された象徴的思考と深い専門知識を要する数学と物理学の問題のセットを導入しました。これらの問題は非常に困難であり、現在のLLMの範囲外です。
- 「FACTOOLにご紹介いたします:大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実エラーを検出するためのタスクとドメインに依存しないフレームワーク」
- LGBMClassifier 入門ガイド
- 「MLOpsの全機械学習ライフサイクルをカバーする:論文要約」
チームは、GPT-4やClaudeなどの新しいモデルをARBベンチマークで評価しました。これらのモデルは、ARBに含まれるより困難なタスクにおいて50%未満のスコアで対応することが困難であることを示す結果が示されています。チームはまた、評価プロセスを改善するための評価基準に基づいた評価アプローチを示しました。この戦略を使用することで、GPT-4はARBの問題を解決しようとする際に自身の中間推論プロセスを評価することができます。これにより、レビュープロセスの範囲が広がり、モデルの問題解決戦略が明らかになります。
ARBの象徴的なサブセットは人間のレビューも受けています。人間の注釈者は問題を解決し、独自の評価を提供するように求められました。人間の評価者とGPT-4の評価基準に基づいた評価スコアとの間には有望な一致があり、モデルの自己評価が人間の判断と合理的に一致していることを示しています。数百の専門的な推論を必要とする問題があり、これまでにLLMが通常苦労してきた量的分野で、新しいデータセットは以前のベンチマークを大幅に上回っています。
過去のベンチマークの多肢選択問題とは異なり、多くの問題は短答えや自由回答の形式で構成されており、LLMの評価がより困難になります。専門レベルの推論タスクと現実的な問題形式の組み合わせにより、モデルが複雑な現実世界の問題を処理する能力をより正確に評価することが可能になります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles