LMSYS ORG プレゼント チャットボット・アリーナ:匿名でランダムなバトルを行うクラウドソーシング型 LLM ベンチマーク・プラットフォーム

LMSYS ORG presents Chatbot Arena a cloud-sourcing type LLM benchmark platform for anonymous random battles.

多くのオープンソースプロジェクトは、特定のタスクを実行するためにトレーニングできる包括的な言語モデルを開発しています。これらのモデルは、ユーザーからの質問やコマンドに有用な応答を提供することができます。注目すべき例には、LLaMAベースのアルパカとビクーナ、およびPythiaベースのOpenAssistantとDollyがあります。

毎週新しいモデルがリリースされているにもかかわらず、コミュニティはまだ適切にベンチマークを行うことに苦労しています。LLMアシスタントの関心事はしばしば曖昧なため、回答の品質を自動的に評価できるベンチマークシステムを作成することは困難です。ここでは、対称比較に基づいたスケーラブルで増分的かつ独自のベンチマークシステムが理想的です。

現在のLLMベンチマークシステムのうち、これらの要件をすべて満たすものはほとんどありません。HELMやlm-evaluation-harnessなどの従来のLLMベンチマークフレームワークは、研究基準のタスクに対する複数のメトリック測定を提供します。ただし、対称比較に基づいていないため、自由形式の質問を適切に評価することはありません。

LMSYS ORGは、オープンでスケーラブルかつアクセス可能な大規模なモデルとシステムを開発する組織です。彼らの新しい取り組みであるChatbot Arenaは、匿名でランダムなバトルが行われるクラウドソーシングのLLMベンチマークプラットフォームを提供しています。チェスや他の競技ゲームと同様に、Chatbot ArenaではEloレーティングシステムが採用されています。Eloレーティングシステムは、前述の望ましい品質を提供する可能性があります。

彼らは1週間前にアリーナをオープンし、多くの有名なオープンソースLLMと共に情報を収集し始めました。LLMの実世界の応用例は、クラウドソーシングのデータ収集方法で確認することができます。ユーザーはアリーナで同時に2つの匿名モデルとチャットしながら、それらを比較対照することができます。

マルチモデルサービングシステムであるFastChatは、https://arena.lmsys.orgでアリーナをホストしています。アリーナに入場すると、匿名の2つのモデルとの会話に直面します。ユーザーが両方のモデルからコメントを受け取ると、会話を続けるか、どちらが好きかを投票することができます。投票が行われると、モデルの正体が明らかになります。ユーザーは同じ2つの匿名モデルと会話を続けたり、2つの新しいモデルとの新たなバトルを開始したりすることができます。システムはすべてのユーザーアクティビティを記録します。分析で投票が見えなくなるまで、モデル名は隠されます。アリーナがオープンしてから1週間で、約7,000件の合法的な匿名投票が集計されました。

将来的には、より多様なモデルを収容し、さまざまなタスクに対して詳細なランクを提供するために、改良されたサンプリングアルゴリズム、トーナメント手順、およびサービングシステムを実装したいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「UnbodyとAppsmithを使って、10分でGoogle Meet AIアシスタントアプリを作る方法」

「ほぼコードなしで、Google Meetのビデオ録画を処理し、メモを作成し、アクションアイテムをキャプチャするAIのミーティング...

機械学習

「自己改善のための生成AIと強化学習の統合」

イントロダクション 人工知能の進化する領域において、二つの主要な要素が刷新を果たしました:生成型AIと強化学習。これらの...

データサイエンス

倉庫業務の変革:AIと自動化の力を活用する

グローバルな供給チェーンの進化に伴い、顧客の要求に応える倉庫の役割がますます重要になってきています

データサイエンス

「Langchainとは何ですか?そして、大規模言語モデルとは何ですか?」

この包括的な記事では、LangChainとLarge Language Modelsの両方を探求します両方を理解するために、簡単なチュートリアルを...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...

AIニュース

「マイクロソフト、Windows上でのCortanaの終了を発表」

マイクロソフトは重要な動きとして、WindowsでのCortanaのサポート終了を宣言しました。この発表は、Windows Centralによって...