LMSYS-Chat-1Mとは、25の最新のLLM(Large Language Models)を使用して作成された、100万件の実世界の会話を含む大規模データセットです

LMSYS-Chat-1Mとは、25種類の最新のLLM(Large Language Models)を利用して作成された、100万件の実世界の会話を含む大規模データセットです

大規模言語モデル(LLM)は、仮想アシスタントからコード生成まで、さまざまなAIアプリケーションに不可欠な存在となっています。ユーザーは、異なる目的に応じて特定のクエリや質問形式を使用してLLMと関わる際に、その行動を適応させます。これらのパターンを研究することで、さまざまなLLMへのユーザーの期待や信頼についての洞察を得ることができます。さらに、単純な事実から複雑な文脈を持つクエリまでの質問の範囲を理解することで、LLMのサービス向上、誤用の防止、AIの安全性の向上に役立つでしょう。以下のように言えます:

  • 大規模言語モデルサービスの運営コストが高いため、多くの組織にとって実際のユーザーの質問データを収集することは財務的に難しいです。
  • 実際のユーザーの質問データを持っている企業は、競争上の優位性を明らかにする懸念やデータプライバシーの維持を望むため、それらを共有することにためらっています。
  • オープンな言語モデルとのユーザーの対話を促すことは難しい課題です。なぜなら、これらのモデルは主要企業が開発したモデルほどの性能を発揮しないからです。
  • オープンなモデルとのユーザーの関与の困難さから、調査目的のためにこれらのモデルとの実際のユーザーの対話を正確に反映した大規模データセットを編成することは困難です。

このギャップに対応するために、本研究では「LMSYS-Chat-1M」という革新的な大規模な実世界データセットを紹介しています。このデータセットは、大規模言語モデル(LLM)とユーザー間の実際の対話の広範なコレクションから慎重に収集されました。これらの対話は、オープンソースと独自のモデルの両方を含む25の人気のあるLLMへのアクセスを提供する無料のオンラインLLMサービスをホスティングすることで、5か月間にわたって収集されました。このサービスには、数千時間にわたるA100の計算リソースが必要でした。

ユーザーの関与を維持するために、著者らは「チャットボットアリーナ」と呼ばれる競争的な要素を実装し、人気のLLMのランキングとリーダーボードを定期的に更新することでユーザーにサービスの利用を促しました。その結果、LMSYS-Chat-1Mには100万以上のユーザー対話が含まれており、さまざまな言語とトピックをカバーしています。ユーザーは、データ収集ウェブサイトの「利用規約」セクションを通じて、このデータセットに対する使用の承諾を提供しました。

このデータセットは、VicunaのデモとChatbot Arenaのウェブサイトから2023年4月から8月までに収集されました。このウェブサイトは、ユーザーに3つのチャットインターフェースオプションを提供しています:単一モデルチャット、チャットボット同士が戦うチャットボットアリーナ、および2つのチャットボットを横に並べて比較できるチャットボットアリーナ。このプラットフォームは完全に無料であり、ユーザーには補償も料金も課されません。

この論文では、LMSYS-Chat-1Mを4つの異なるユースケースでの潜在的な応用を探求しています。LMSYS-Chat-1Mは、GPT-4と同等のパフォーマンスを発揮する強力なコンテンツモデレータとして小規模な言語モデルを効果的に微調整できることを示しています。さらに、一部の提供されたモデルにセーフティメカニズムがあるにもかかわらず、LMSYS-Chat-1Mには主要な言語モデルのセーフガードを挑戦できる対話が含まれており、モデルの堅牢性と安全性の研究のための新たなベンチマークとなります。

さらに、このデータセットには、指示微調整に適したユーザーと言語モデルの質の高い対話も含まれています。これらの対話の一部を使用することで、Llama-2モデルは特定のベンチマークにおいてVicunaやLlama2 Chatと同等のパフォーマンスレベルを達成できることを著者らは示しています。最後に、LMSYS-Chat-1Mの幅広いトピックとタスクのカバレッジは、言語モデルのための新しいベンチマーク質問の生成において貴重なリソースとなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more