LMSYS ORG プレゼント チャットボット・アリーナ:匿名でランダムなバトルを行うクラウドソーシング型 LLM ベンチマーク・プラットフォーム

LMSYS ORG presents Chatbot Arena a cloud-sourcing type LLM benchmark platform for anonymous random battles.

多くのオープンソースプロジェクトは、特定のタスクを実行するためにトレーニングできる包括的な言語モデルを開発しています。これらのモデルは、ユーザーからの質問やコマンドに有用な応答を提供することができます。注目すべき例には、LLaMAベースのアルパカとビクーナ、およびPythiaベースのOpenAssistantとDollyがあります。

毎週新しいモデルがリリースされているにもかかわらず、コミュニティはまだ適切にベンチマークを行うことに苦労しています。LLMアシスタントの関心事はしばしば曖昧なため、回答の品質を自動的に評価できるベンチマークシステムを作成することは困難です。ここでは、対称比較に基づいたスケーラブルで増分的かつ独自のベンチマークシステムが理想的です。

現在のLLMベンチマークシステムのうち、これらの要件をすべて満たすものはほとんどありません。HELMやlm-evaluation-harnessなどの従来のLLMベンチマークフレームワークは、研究基準のタスクに対する複数のメトリック測定を提供します。ただし、対称比較に基づいていないため、自由形式の質問を適切に評価することはありません。

LMSYS ORGは、オープンでスケーラブルかつアクセス可能な大規模なモデルとシステムを開発する組織です。彼らの新しい取り組みであるChatbot Arenaは、匿名でランダムなバトルが行われるクラウドソーシングのLLMベンチマークプラットフォームを提供しています。チェスや他の競技ゲームと同様に、Chatbot ArenaではEloレーティングシステムが採用されています。Eloレーティングシステムは、前述の望ましい品質を提供する可能性があります。

彼らは1週間前にアリーナをオープンし、多くの有名なオープンソースLLMと共に情報を収集し始めました。LLMの実世界の応用例は、クラウドソーシングのデータ収集方法で確認することができます。ユーザーはアリーナで同時に2つの匿名モデルとチャットしながら、それらを比較対照することができます。

マルチモデルサービングシステムであるFastChatは、https://arena.lmsys.orgでアリーナをホストしています。アリーナに入場すると、匿名の2つのモデルとの会話に直面します。ユーザーが両方のモデルからコメントを受け取ると、会話を続けるか、どちらが好きかを投票することができます。投票が行われると、モデルの正体が明らかになります。ユーザーは同じ2つの匿名モデルと会話を続けたり、2つの新しいモデルとの新たなバトルを開始したりすることができます。システムはすべてのユーザーアクティビティを記録します。分析で投票が見えなくなるまで、モデル名は隠されます。アリーナがオープンしてから1週間で、約7,000件の合法的な匿名投票が集計されました。

将来的には、より多様なモデルを収容し、さまざまなタスクに対して詳細なランクを提供するために、改良されたサンプリングアルゴリズム、トーナメント手順、およびサービングシステムを実装したいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AI開発でこれらのミスを com しないでください」

「品質の高いAIデプロイメントを開発するには、準備が全体の90%を占めます以下に、最高のAIモデルを開発するために注意すべ...

機械学習

Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット

人工知能と機械学習は、過去数年間で驚異的な生産性の向上を示しています。機械学習は、すべてのプライバシーと機密性の手段...

データサイエンス

ジェネラティブAIを通じた感情分析のマスタリング

イントロダクション センチメント分析は、企業が顧客のフィードバックを理解し対応する方法を革新しました。顧客のセンチメン...

機械学習

セールスフォース・アインシュタイン:あなたは顧客との関係を築きます、AIがそれらを自動的に維持する手助けをします

「顧客関係管理(CRM)」は、現在のハイパーコネクテッドで競争の激しい商業環境において、組織の成功を促進するために極めて...

機械学習

AIキャリアのトレンド:人工知能の世界で注目されているものは何ですか?

急速に成長しているAI分野でのキャリアをお探しですか?エキサイティングな機会を提供するAIキャリアのトップ6つを発見してく...

AIニュース

「AIにおけるアメリカのリーダシップの確かな基盤を築く方法」

Googleが報告書を共有します:AIにおけるアメリカのリーダーシップのための安全な基盤の構築' (Google ga hōkokusho wo kyōyū...