最大のLLMベンチマーキングスイート:MEGAVERSE

「究極のLLMベンチマーキングスイート:MEGAVERSE」

ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。

マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。

要約:

LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。

マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。

これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。

論文からのその他の重要な結果:

ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4(OpenAI、2023)は、SOTAのファインチューニングされた言語モデルであるTULRv6(Patra et al.、2023)のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。

論文は新たなSOTA LLMを5つベンチマーク化しています:

  • PaLM2(Google、2023)
  • Llama2(3つのバリアント)(Touvron et al.、2023)および
  • LLaVA-v1.5(Liu et al.、2023a)
  • GPT4
  • GPT-3.5-Turbo

マルチモーダル

  • LLaVA-v1.5モデル(Liu et al.、2023a)
  • 2つの新しいマルチリンガルなマルチモーダルデータセット

以前に開発されたベンチマーク

BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています

言語モデルの包括的評価(HELM)Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック(例:精度、キャリブレーション、有害性など)を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。

BUFFET(Asai et al.、2023)は、15のデータセットにわたって54の言語を含んでいます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...