「大規模な言語モデルの公正な評価に向けて」
「大規模な言語モデルの公正な評価に取り組む方法」
ベンチマークの漏洩とデータの汚染がLLMsの評価に影響を与える方法
「私たちの新しいLLMはすべてのベンチマークでGPTを打ち負かします!」
このような大胆な主張を聞くことがますます一般化しているのは、LLMsのハイプが非常に大きいからです。毎週新しいモデルが登場し、現在はまだ最も強力なLLMであるGPT-4と競い合おうとしています。
ベンチマークは大型言語モデルの進歩を評価する上で重要な部分です。
MMLUやHellaSwagといったベンチマークは、推論能力や理解力などの言語モデルを評価するための基準です。得点は進歩の一瞬を示し、最新の最先端の結果がブレークスルーとして受け入れられます。LLMsは通常、ゼロショットの設定で評価され、テストセットへの明示的なトレーニングなしで一般的な能力を測定します。
この記事では、ベンチマークの結果を操作するのがどれほど簡単かを示し、評価の誠実さを維持するための提案を行います。
ベンチマークの問題点
しばしば、ベンチマークは現実のシナリオでの有用性を反映していません。Googleの最新モデルであるジェミニウルトラは、MMLUで90.04%のスコアを獲得します。これは印象的な得点ですが、評価方法の詳細をよく見ると、CoT@32(32つのサンプルを使用した思考の連鎖)です。つまり、90%の正確さを得るためには32回のプロンプトが必要です!私たちのほとんどは、チャットボットと対話する際に最初の試みで正確な回答を期待しています。
残念ながら、この問題はLLMsの評価の氷山の一部に過ぎません。
機械学習において、モデルのパフォーマンスは通常、トレーニング時に使用されなかったテストデータで測定されます。一般に、このプロセスによってモデルが新しいデータにどのように一般化するかのバイアスのない推定が可能となります。
ベンチマークの漏洩とデータの汚染は、懸念すべき問題を指す2つの用語です:テストデータがどのような方法でLLMsの事前トレーニングデータに漏れ込むことで、性能が過大評価されることです。これにより、LLMs間の比較が公平ではなくなります…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles