「Advanced Reasoning Benchmark(ARB)に会いましょう:大規模な言語モデルを評価するための新しいベンチマーク」

Let's meet Advanced Reasoning Benchmark (ARB) A new benchmark for evaluating large language models.

自然言語処理は近年、特に洗練された言語モデルの作成によって大きく進化しています。翻訳や推論を含むほとんどの自然言語タスクで、GPT 3.5、GPT 4、BERT、PaLMなどの有名なモデルの性能が著しく向上しています。これらのAIの分野での進展を評価するために、いくつかのベンチマークが使用されています。ベンチマークは、言語モデルの能力をテストするために作成された標準化されたタスクの集合です。

最初のいくつかの言語理解ベンチマークであるGLUEとSuperGLUEベンチマークを考慮すると、BERTやGPT-2などのモデルはより難解でした。これらのベンチマークを超えるように言語モデルが進化しているため、モデルの開発とベンチマークの難易度の間で競争が発生しています。モデルを大きくし、大規模なデータセットでトレーニングすることが性能向上のカギです。LLM(言語モデル)は、知識と数量的推論の能力を測定するさまざまなベンチマークで優れたパフォーマンスを示していますが、これらのモデルが現在の基準で高得点を取ると、これらのベンチマークはモデルの能力を評価するためにはもはや有用ではないことが明らかです。

これらの制限に対処するため、研究者チームはARB(Advanced Reasoning Benchmark)という新しいユニークなベンチマークを提案しました。ARBは数学、物理学、生物学、化学、法律など、さまざまな主題領域でより難解な問題を伝えるために作成されています。ARBは、以前のベンチマークとは異なり、複雑な推論問題に焦点を当ててLLMのパフォーマンスを向上させることを目指しています。チームはまた、ARBの一部として、洗練された象徴的思考と深い専門知識を要する数学と物理学の問題のセットを導入しました。これらの問題は非常に困難であり、現在のLLMの範囲外です。

チームは、GPT-4やClaudeなどの新しいモデルをARBベンチマークで評価しました。これらのモデルは、ARBに含まれるより困難なタスクにおいて50%未満のスコアで対応することが困難であることを示す結果が示されています。チームはまた、評価プロセスを改善するための評価基準に基づいた評価アプローチを示しました。この戦略を使用することで、GPT-4はARBの問題を解決しようとする際に自身の中間推論プロセスを評価することができます。これにより、レビュープロセスの範囲が広がり、モデルの問題解決戦略が明らかになります。

ARBの象徴的なサブセットは人間のレビューも受けています。人間の注釈者は問題を解決し、独自の評価を提供するように求められました。人間の評価者とGPT-4の評価基準に基づいた評価スコアとの間には有望な一致があり、モデルの自己評価が人間の判断と合理的に一致していることを示しています。数百の専門的な推論を必要とする問題があり、これまでにLLMが通常苦労してきた量的分野で、新しいデータセットは以前のベンチマークを大幅に上回っています。

過去のベンチマークの多肢選択問題とは異なり、多くの問題は短答えや自由回答の形式で構成されており、LLMの評価がより困難になります。専門レベルの推論タスクと現実的な問題形式の組み合わせにより、モデルが複雑な現実世界の問題を処理する能力をより正確に評価することが可能になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Midjourneyを使ってYouTubeのサムネイルを作る方法(販売可能なもの)」

無料でMidjourneyを使って、高品質なYouTubeのサムネイル(オンラインで販売可能)を作成することができます

データサイエンス

「機械学習におけるデータの重要性:AI革命の推進力」

マシンラーニングの進歩やAI革命を促進する上でデータの重要な役割を探求し、その意義を明らかにします

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

コンピュータサイエンス

ジェイソン・アーボン:「百万年後、超パワフルなコンピュータは我々の時代のテスターたちを称えるでしょう」

「Jason Arbonと一緒に、テストにおけるAIの使用、いくぶん不公平なマニュアルQA vs. 自動化QAの闘い、新しいテクノロジーの...

データサイエンス

AIがセキュリティを向上させる方法

AIはマルウェアの検出、サイバー脅威の特定と対応、機密データの保護、そして重要なインフラストラクチャのセキュリティ向上...

データサイエンス

Graph RAG LLMによるナレッジグラフのパワーを解き放つ

この記事では、Graph RAGとは何か、そしてLLMsと組み合わせてどのように知識グラフを強化し、より包括的な文脈理解を提供する...