最大のLLMベンチマーキングスイート:MEGAVERSE

「究極のLLMベンチマーキングスイート:MEGAVERSE」

ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。

マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。

要約:

LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。

マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。

これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。

論文からのその他の重要な結果:

ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4(OpenAI、2023)は、SOTAのファインチューニングされた言語モデルであるTULRv6(Patra et al.、2023)のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。

論文は新たなSOTA LLMを5つベンチマーク化しています:

  • PaLM2(Google、2023)
  • Llama2(3つのバリアント)(Touvron et al.、2023)および
  • LLaVA-v1.5(Liu et al.、2023a)
  • GPT4
  • GPT-3.5-Turbo

マルチモーダル

  • LLaVA-v1.5モデル(Liu et al.、2023a)
  • 2つの新しいマルチリンガルなマルチモーダルデータセット

以前に開発されたベンチマーク

BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています

言語モデルの包括的評価(HELM)Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック(例:精度、キャリブレーション、有害性など)を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。

BUFFET(Asai et al.、2023)は、15のデータセットにわたって54の言語を含んでいます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

人工知能

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

クリス・サレンズはCentralReachの最高経営責任者であり、同社を率いて、自閉症や関連する障害を持つ人々のために優れたクラ...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...