最大のLLMベンチマーキングスイート：MEGAVERSE

「究極のLLMベンチマーキングスイート：MEGAVERSE」

ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。

マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。

要約:

LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。

マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。

これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。

論文へのリンク:

論文からのその他の重要な結果:

ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4（OpenAI、2023）は、SOTAのファインチューニングされた言語モデルであるTULRv6（Patra et al.、2023）のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。

論文は新たなSOTA LLMを5つベンチマーク化しています：

PaLM2（Google、2023）
Llama2（3つのバリアント）（Touvron et al.、2023）および
LLaVA-v1.5（Liu et al.、2023a）
GPT4
GPT-3.5-Turbo

マルチモーダル

LLaVA-v1.5モデル（Liu et al.、2023a）
2つの新しいマルチリンガルなマルチモーダルデータセット

以前に開発されたベンチマーク

BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています

言語モデルの包括的評価（HELM）Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック（例：精度、キャリブレーション、有害性など）を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。

BUFFET（Asai et al.、2023）は、15のデータセットにわたって54の言語を含んでいます

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

最大のLLMベンチマーキングスイート：MEGAVERSE

要約:

論文へのリンク:

論文からのその他の重要な結果:

論文は新たなSOTA LLMを5つベンチマーク化しています：

マルチモーダル

以前に開発されたベンチマーク

Was this article helpful?

「クレジットカードの不履行データセットのバイアスの検証と検出」

「人間の境界を超えたもの：スーパーインテリジェンスの台頭」

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」