最大のLLMベンチマーキングスイート:MEGAVERSE
「究極のLLMベンチマーキングスイート:MEGAVERSE」
ベンチマーキングは現在、81の言語と2つの多様なデータセットに広がっています。
マイクロソフトのスナヤナ・シタラムによって公開された研究の簡単なレビュー。
要約:
LLMがより高度かつ包括的になるにつれて、評価フレームワークもそれらのパフォーマンス評価能力に追いつく必要があります。複数のモダリティ、言語、評価方法の変動に対応する必要があります。
マイクロソフトは最新のベンチマーキングスイート「MEGAVERSE」を公開しました。
- 3Dアーティストのヌルハン・イスマイルは、Adobe After EffectsとBlenderを使用して、イソメトリックな革新を「NVIDIA Studio」にもたらす
- 「2分以内で最初のカスタムGPTを構築しましょう」
- 「SSCCコンプライアンスによるトレース能力基準への適合方法」
これには22のデータセット、81の言語、2つの多様なデータセットが含まれています。
論文へのリンク:
論文からのその他の重要な結果:
ベンチマーキングテストは英語のために開発されています。最も評価したモデルであるGPT4(OpenAI、2023)は、SOTAのファインチューニングされた言語モデルであるTULRv6(Patra et al.、2023)のパフォーマンスに追いつくことがありますが、ほとんどの場合でまだそのパフォーマンスを上回ることはありません。GPT4は非ラテン文字のスクリプトや低資源言語では性能が低下します。
論文は新たなSOTA LLMを5つベンチマーク化しています:
- PaLM2(Google、2023)
- Llama2(3つのバリアント)(Touvron et al.、2023)および
- LLaVA-v1.5(Liu et al.、2023a)
- GPT4
- GPT-3.5-Turbo
マルチモーダル
- LLaVA-v1.5モデル(Liu et al.、2023a)
- 2つの新しいマルチリンガルなマルチモーダルデータセット
以前に開発されたベンチマーク
BIG-bench Srivastava et al. (2023)には204のタスクがあり、複数の言語のテストが含まれています
言語モデルの包括的評価(HELM)Liang et al. (2022)は、タスク、ドメイン、言語、およびメトリック(例:精度、キャリブレーション、有害性など)を含み、42のシナリオと7つのメトリックで30の言語モデルを取り上げています。
BUFFET(Asai et al.、2023)は、15のデータセットにわたって54の言語を含んでいます
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles