このAI論文は、オープンエンドのシナリオでの大規模言語モデルのスケーラブルな評価のための新しいアプローチ、JudgeLMを紹介しています

JudgeLM:オープンエンドのシナリオにおける大規模言語モデルのスケーラブルな評価のための新たなアプローチを紹介するAI論文

最近、大規模な言語モデル(LLM)は、優れた命令の従順さと幅広いオープンエンドシナリオの処理能力により、注目を浴びています。研究者は命令の微調整を通じて、FlanT5、OPT、LLaMA、およびPythiaなどのオープンソースのLLMに基づいてこれらのモデルを人間の好みと調整するための多くの技術を提供しています。調整されたLLMは、人間の命令の理解力が向上し、より論理的な応答を生成します。しかし、オープンエンドのシナリオでのLLMの能力は、現在のベンチマークと従来の測定によって十分に評価される必要があります。

したがって、オープンエンドの活動でのLLMの評価を徹底的に評価する新しいベンチマーク手法が必要です。同時の研究では、LLMのパフォーマンスを決定するための異なる手法を調査しています。アリーナ形式の手法は、クラウドソーシングプラットフォームを利用して匿名化されたLLMの競争結果を取得します。人間の評価は信頼性がありますが、コストがかかり、多くの努力が必要です。一部の手法ではGPT-4を仲裁者として使用しますが、これらの手法には可変APIモデルのシフトと可能なデータの開示への支援が必要であり、裁判官の繰り返し可能性が危険にさらされる可能性があります。PandaLMは、回答評価に使用されるオープンソースのLLMを改善することを目指しています。

図1(a):JudgeLMのデータ生成パイプライン。105Kのシードタスクが最初に質問として収集されます。その後、11つのLLMから回答を取得し、回答セットから2つをランダムに選択します。最後に、タスク、サンプル回答ペア、および必要に応じてGPT-4への応答を入力します。これにより、裁判官インストラクターのスコアと綿密な理由が生成されます。

ただし、精緻なモデルの有用性は、モデルのサイズ、トレーニングデータの品質、および固有のLLMバイアスから生じる制約により弱体化します。北京人工知能研究院と華中科技大学の研究者は、本研究で最適化されたオープンソースのLLMを使用してLLMを評価することを提案しており、スケーラブルな裁判官(JudgeLM)として十分な合意に達する裁判官としての機能を持つLLMを組み合わせます。彼らの手法では、裁判官モデルのトレーニングと評価に役立つ高品質のデータセットを組み合わせ、スケーラブルな裁判官を使用してオープンエンドの割り当てで評価します。彼らは、オープンソースのLLMを彼らのフレームワーク内で裁判官として使用するために改変し、モデルのサイズ(7Bから33B)とトレーニングデータのボリューム(3.5Kから100K)の観点でどれだけスケールするかを調査します。

図1(b):JudgeLMの異なる特徴と微調整の例。スケーラブルな裁判官としてのLLMのパフォーマンスを向上させるために、裁判官のサンプルを使用します。また、形式バイアス、知識バイアス、および位置バイアスを克服するために、LLMをウェイトジャッジとして微調整するために参照ドロップ、参照サポート、およびスワップ増強も提案されます。

図1aに示すように、彼らのデータセットは105Kのシード質問、LLM回答ペア、および教師裁判官で構成されています。各シードチャレンジについて、生徒は参考回答で1つと参考回答なしで1つの意思決定を行いました。このデータセットの分割では、トレーニング用に100Kのシード質問を確保し(PandaLMよりも大きい×2倍)、残りの質問を検証用に確保し(PandaLMよりも29倍大きい)、LLMを裁判官として使用する際には、位置バイアス(特定の状況での応答を好む)、知識バイアス(事前トレーニングされた情報に対する過度の依存)、および形式バイアス(特定のプロンプト形式の下でのみ最適なパフォーマンス)などのバイアスが必ず導入されます。

彼らはそれらに対処する方法を提供しています。さらに、図1bに示されるように、彼らのJudgeLMシステムには、マルチターンの会話、単一の応答の評価、およびマルチモーダルモデルに加えて複数の回答の判断など、拡張された機能があります。アリーナ形式のアプローチと比較して、彼らのものは迅速かつコストパフォーマンスの高い解決策です。例えば、JudgeLM-7Bは3分で5000の応答ペアを評価することができ、たった8つのA100 GPUだけが必要です。JudgeLMは、クローズドソースのLLMジャッジよりもプライバシー保護と繰り返し可能性を提供します。彼らの方法では、同時にオープンソースのLLMジャッジと比較して、LLMの微調整のスケーリング能力とバイアスを調査しています。

さらに、彼らが提示するデータセットは最も包括的で優れており、将来のモデル分析の研究に大いに役立ちます。以下に彼らの主要な貢献を簡単に説明します:

• 彼らはJudgeLMを提案しており、オープンエンドのシナリオでLLMを評価するために設計されたスケーラブルな言語モデルジャッジです。

• 彼らは、多様なシードタスク、LLMが生成した回答、およびGPT-4からの詳細な判断を組み込んだ高品質で大規模なデータセットを導入し、LLMの評価に関する将来の研究のための基盤を築きました。これには人間との合意を超える90%以上の合意があります。さらに、JudgeLMは長時間のジョブを処理するための幅広い機能を備えています。

• 彼らはLLMの中に存在するバイアス、ジャッジの微調整を調査し、いくつかの解決策を提示しています。彼らの技術は、様々なシナリオでのモデルの一貫性を大幅に向上させ、JudgeLMの信頼性と適応性を高めます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「アジャイルな製品開発のためのAI主導のデジタル戦略」

この記事は、AIを主導するデジタル戦略とアジャイルソフトウェア開発手法の交差点を探求し、製品開発ライフサイクルの改善を...

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

AIニュース

既存のLLMプロジェクトをLangChainを使用するように適応する

おめでとうございます!素晴らしいLLMの概念証明が完成しましたね自信を持って世界に披露できます!もしかしたら、OpenAIライ...

人工知能

新しい方法:AIによって地図がより没入感あるものになる

AIの進歩により、マップで経路を理解する新しい方法がありますさらに、開発者向けの新しい没入型ツールもあります

データサイエンス

「Apple M1とM2のパフォーマンス- SSLモデルのトレーニングにおいて」

新しいAppleチップを使用してMLモデルをトレーニングするためのベンチマークの数はまだ少ないですさらに、ほとんどの結果は、...

人工知能

「チャットボットとAIアシスタントの構築」

この記事は、自然言語処理(NLP)とチャットボットフレームワークの総合ガイドを紹介します詳しくは、学んでください!