「LLMを評価するためのより良い方法」
「LLMを評価するための洗練された方法について」
LLM評価の紹介
LLM(大規模言語モデル)の開発における最近の進歩は、従来の機械学習手法を用いて対処されていた多様なNLPタスクでの使用を一般化しました。大規模言語モデルは、分類、要約、情報検索、コンテンツ作成、質問応答、会話の維持など、さまざまな言語問題を単一のモデルで解決することができます。しかし、これらの異なるタスク全体で優れたパフォーマンスを発揮しているかどうかはどのように判断すればよいのでしょうか?
LLMの台頭により、評価の信頼性に未解決の問題が浮き彫りになりました。評価を難しくする要素は、非常に異なるタスクに使用されていることと、各ユースケースにおける優れた回答の明確な定義がないことです。
- 「AIとともに観測性の潜在能力を解き放つ」
- チャレンジを受け入れました:アニメーターのワード・ナイシュタット氏が、今週の「NVIDIA Studio」でロボット革命を驚異的なスピードでリード
- 「最高のデジタルコンテンツ戦略(アレックス・ホルモジとエド・マイレットによるアドバイス)」
本記事では、現在のLLMの評価手法についての議論を行い、既存の評価手法を改善する人間の評価を活用した新しいLLMランキングを紹介します。
現在の手法とランキング
最初の一般的な評価手法は、モデルをいくつかの厳選されたデータセットで実行し、そのパフォーマンスを評価することです。 HuggingFaceは、オープンなLLMモデルを使用して、AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQAの4つのよく知られたデータセットで評価されるOpen LLM Leaderboardを作成しました。これは自動評価に相当し、モデルが特定の質問に対して事実を正しく取得できるかどうかをチェックします。
以下はMMLUデータセットの例の質問です。
科目:医学部
質問:クレアチンサプリメントの予想される副作用は何ですか?
- A) 筋力低下
- B) 体重の増加
- C) 筋痙攣
- D) 電解質の喪失
回答:(B)
このタイプの質問に対するモデルのスコアリングは重要なメトリックであり、事実確認に適していますが、モデルの生成機能をテストすることはありません。これは、LLMの最も重要な特徴の1つである自由なテキストの生成能力の評価方法としてはおそらく最大の欠点です。
モデルの適切な評価には、通常人間の評価が必要であるというコミュニティ内での合意が形成されつつあります。これは通常、異なるモデルからの応答を比較することによって行われます。上記の例のように、アノテーターがどの応答がより優れているかを決定し、時にはプロンプトの完成度の品質の違いを数値化します。LMSYS Orgは、この種の人間の評価を使用し、17つの異なるモデルを比較し、各モデルのEloレーティングを報告するランキングを作成しました。
人間の評価は規模拡大が困難な場合があるため、評価プロセスの規模と速度を向上させる試みが行われており、それが興味深いプロジェクトであるAlpacaEvalというプロジェクトにつながりました。ここでは、各モデルがGPT-4によって提供されるベースライン(text-davinci-003)と比較され、人間の評価はGPT-4の判断に置き換えられます。これは確かに素早くスケーラブルですが、スコアリングにおいてモデルに対して信頼できるでしょうか?モデルの偏りには注意する必要があります。実際、このプロジェクトはGPT-4がより長い回答に偏る可能性があることを示しています。
AIコミュニティは、簡単で公平かつスケーラブルなアプローチを求めて、LLMの評価方法を進化させ続けています。最新の開発は、Tolokaチームによる新しいランキングです。
人間を用いたLLM評価-新しいアプローチ
新しいボードは、モデルの応答を実世界のユーザープロンプトで比較し、このInstructGPTの論文で説明されるように、有用なNLPタスクに分類されます。また、各モデルの全体的な勝率も、すべてのカテゴリで表示されます。
このプロジェクトで使用されている評価は、AlpacaEvalと同様です。リーダーボード上のスコアは、対応するモデルの勝率を、Guanaco 13Bモデルと比較して示しており、Guanaco 13Bはベースラインとして使用されています。Guanaco 13Bの選択は、AlpacaEvalメソッドの改良であり、ベースラインとして旧式のtext-davinci-003モデルを使用しているAlpacaEvalメソッドよりも優れています。
実際の評価は、専門の人間のアノテーターによって、一連の実世界のプロンプトに対して行われます。各プロンプトに対して、アノテーターには2つの補完が与えられ、どちらが好ましいかを尋ねられます。方法に関する詳細はこちらで確認できます。
この種の人間による評価は、他のどの自動評価方法よりも有用であり、LMSYSリーダーボードで使用されている人間による評価を改善するはずです。LMSYSメソッドのデメリットは、リンクを持っている人なら誰でも評価に参加できることであり、この方法で収集されたデータの品質についての深刻な疑問を引き起こします。専門のアノテーターチームは、信頼性のある結果を得るためのより良い可能性を持ちます。また、Tolokaではデータ品質を確保するために追加の品質管理技術を適用しています。
サマリー
この記事では、LLMの評価における有望な新しいソリューションであるTolokaリーダーボードを紹介しました。この手法は革新的であり、既存の手法の利点を組み合わせ、タスク固有の細分化を加え、信頼性のある人間の注釈技術を使用してモデルを比較します。
ボードを探索し、ご意見や改善の提案をお寄せください。
[Magdalena Konkiewicz](https://www.aboutdatablog.com/about)は、Tolokaのデータエヴァンジェリストであり、高速かつスケーラブルなAI開発を支援するグローバル企業です。彼女はエジンバラ大学で人工知能の修士号を取得し、ヨーロッパとアメリカの企業でNLPエンジニア、開発者、データサイエンティストとして働いてきました。また、データサイエンティストの教育や指導にも携わっており、データサイエンスや機械学習の出版物に定期的に貢献しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles