最大のLLMベンチマーキングスイート:MEGAVERSE

「究極のLLMベンチマーキングスイート:MEGAVERSE」

ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。

マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。

要約:

LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。

マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。

これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。

論文からのその他の重要な結果:

ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4(OpenAI、2023)は、SOTAのファインチューニングされた言語モデルであるTULRv6(Patra et al.、2023)のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。

論文は新たなSOTA LLMを5つベンチマーク化しています:

  • PaLM2(Google、2023)
  • Llama2(3つのバリアント)(Touvron et al.、2023)および
  • LLaVA-v1.5(Liu et al.、2023a)
  • GPT4
  • GPT-3.5-Turbo

マルチモーダル

  • LLaVA-v1.5モデル(Liu et al.、2023a)
  • 2つの新しいマルチリンガルなマルチモーダルデータセット

以前に開発されたベンチマーク

BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています

言語モデルの包括的評価(HELM)Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック(例:精度、キャリブレーション、有害性など)を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。

BUFFET(Asai et al.、2023)は、15のデータセットにわたって54の言語を含んでいます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...