「Advanced Reasoning Benchmark(ARB)に会いましょう:大規模な言語モデルを評価するための新しいベンチマーク」

Let's meet Advanced Reasoning Benchmark (ARB) A new benchmark for evaluating large language models.

自然言語処理は近年、特に洗練された言語モデルの作成によって大きく進化しています。翻訳や推論を含むほとんどの自然言語タスクで、GPT 3.5、GPT 4、BERT、PaLMなどの有名なモデルの性能が著しく向上しています。これらのAIの分野での進展を評価するために、いくつかのベンチマークが使用されています。ベンチマークは、言語モデルの能力をテストするために作成された標準化されたタスクの集合です。

最初のいくつかの言語理解ベンチマークであるGLUEとSuperGLUEベンチマークを考慮すると、BERTやGPT-2などのモデルはより難解でした。これらのベンチマークを超えるように言語モデルが進化しているため、モデルの開発とベンチマークの難易度の間で競争が発生しています。モデルを大きくし、大規模なデータセットでトレーニングすることが性能向上のカギです。LLM(言語モデル)は、知識と数量的推論の能力を測定するさまざまなベンチマークで優れたパフォーマンスを示していますが、これらのモデルが現在の基準で高得点を取ると、これらのベンチマークはモデルの能力を評価するためにはもはや有用ではないことが明らかです。

これらの制限に対処するため、研究者チームはARB(Advanced Reasoning Benchmark)という新しいユニークなベンチマークを提案しました。ARBは数学、物理学、生物学、化学、法律など、さまざまな主題領域でより難解な問題を伝えるために作成されています。ARBは、以前のベンチマークとは異なり、複雑な推論問題に焦点を当ててLLMのパフォーマンスを向上させることを目指しています。チームはまた、ARBの一部として、洗練された象徴的思考と深い専門知識を要する数学と物理学の問題のセットを導入しました。これらの問題は非常に困難であり、現在のLLMの範囲外です。

チームは、GPT-4やClaudeなどの新しいモデルをARBベンチマークで評価しました。これらのモデルは、ARBに含まれるより困難なタスクにおいて50%未満のスコアで対応することが困難であることを示す結果が示されています。チームはまた、評価プロセスを改善するための評価基準に基づいた評価アプローチを示しました。この戦略を使用することで、GPT-4はARBの問題を解決しようとする際に自身の中間推論プロセスを評価することができます。これにより、レビュープロセスの範囲が広がり、モデルの問題解決戦略が明らかになります。

ARBの象徴的なサブセットは人間のレビューも受けています。人間の注釈者は問題を解決し、独自の評価を提供するように求められました。人間の評価者とGPT-4の評価基準に基づいた評価スコアとの間には有望な一致があり、モデルの自己評価が人間の判断と合理的に一致していることを示しています。数百の専門的な推論を必要とする問題があり、これまでにLLMが通常苦労してきた量的分野で、新しいデータセットは以前のベンチマークを大幅に上回っています。

過去のベンチマークの多肢選択問題とは異なり、多くの問題は短答えや自由回答の形式で構成されており、LLMの評価がより困難になります。専門レベルの推論タスクと現実的な問題形式の組み合わせにより、モデルが複雑な現実世界の問題を処理する能力をより正確に評価することが可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...

AIニュース

Android 14:より多様なカスタマイズ、制御、アクセシビリティ機能

「Android 14は個人的で保護的な機能を備え、ユーザーを最優先し、彼らの個性を祝福するためのものです」

AIニュース

Googleは、AIを搭載したブラウザベースの開発者の楽園である「Project IDX」を発表しました

AIのイノベーションを推進し、その限界を打ち破るために、Googleは最新プロジェクト「Project IDX」を発表しました。この野心...

機械学習

AIの変革の道:OpenAIのGPT-4を通してのオデッセイ

ソフトウェア開発者は、OpenAIのGPT-4を使用して複数のアプリケーションを生成し、時間の節約、コストの削減、パーソナライズ...

AIニュース

AIが想像を絶する抗体を作成します:LabGeniusの医療工学への新しいアプローチ

南ロンドンの中心部で、かつてのビスケット工場が革新の最先端拠点に変わりました。ここでは、ロボティクス、AI、DNAシーケン...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...