最大のLLMベンチマーキングスイート:MEGAVERSE

「究極のLLMベンチマーキングスイート:MEGAVERSE」

ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。

マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。

要約:

LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。

マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。

これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。

論文からのその他の重要な結果:

ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4(OpenAI、2023)は、SOTAのファインチューニングされた言語モデルであるTULRv6(Patra et al.、2023)のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。

論文は新たなSOTA LLMを5つベンチマーク化しています:

  • PaLM2(Google、2023)
  • Llama2(3つのバリアント)(Touvron et al.、2023)および
  • LLaVA-v1.5(Liu et al.、2023a)
  • GPT4
  • GPT-3.5-Turbo

マルチモーダル

  • LLaVA-v1.5モデル(Liu et al.、2023a)
  • 2つの新しいマルチリンガルなマルチモーダルデータセット

以前に開発されたベンチマーク

BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています

言語モデルの包括的評価(HELM)Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック(例:精度、キャリブレーション、有害性など)を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。

BUFFET(Asai et al.、2023)は、15のデータセットにわたって54の言語を含んでいます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

キャルレールの最高製品責任者、ライアン・ジョンソンへのインタビューシリーズ

ライアンは、初期のスタートアップからフォーチュン100の組織まで、多様なテクノロジーと製品開発のリーダーシップ経験を15年...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...