「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

『MMMUに出会ってみよう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークが人工知能の一般的な発展への道筋を示す』

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さまざまなタスクに対応しています。 FLAN-T5、Vicuna、LLaVAなどのモデルは、指示に従う能力を向上させます。 Flamingo、OpenFlamingo、Otter、MetaVLのような他のモデルは、文脈を持った学習を探求します。 VQAのようなベンチマークは認識に焦点を当てますが、MMMは大学レベルの問題における専門家レベルの知識と緻密な推論を要求することで際立っています。包括的な知識カバレッジ、さまざまな画像形式、および既存のベンチマークとは異なる主題特化の推論に対する独自の強調点といった特徴があります。

MMMベンチマークは、IN.AI Research、ウォータールー大学、オハイオ州立大学、インディペンデント、カーネギーメロン大学、ビクトリア大学、プリンストン大学などの様々な組織の研究者によって提案され、さまざまな学問をカバーする大学レベルの問題が含まれています。専門家レベルの認識と推論を重視したこのベンチマークは、現行のモデルにとって大きな課題を提示します。

この研究では、人間の能力を超えるExpert AGIに向けた進歩を評価するためのベンチマークの必要性が強調されています。MMLUやAGIEvalなどの現行の基準はテキストに焦点を当てており、より多様なモーダルな課題が必要です。大規模なマルチモーダルモデル(LMMs)は有望でありますが、既存のベンチマークには専門家レベルのドメイン知識が必要です。MMMベンチマークはこのギャップを埋めるために導入され、複雑な大学レベルの問題に多様な画像形式と交差するテキストを特徴としています。これはLMMsにとって高度なAI能力を目指す難しい評価を要求し、専門家レベルの認識と推論を提供します。

Expert AGI評価のために設計されたMMMベンチマークは、6つの学問と30の科目にわたる11.5Kの大学レベルの問題で構成されています。データ収集は、視覚入力に基づいてトピックを選択し、学生のアノテータを参加させてマルチモーダルな質問を収集し、品質管理を実施することによって行われます。LLMsやLMMsを含む複数のモデルは、MMMベンチマークでゼロショットの設定で評価され、微調整やフューショットデモなしで正確な回答を生成する能力がテストされます。

MMMベンチマークは、GPT-4Vが55.7%の精度しか達成できないため、モデルにとって困難です。専門家レベルの認識と推論の要求により、LLMsやLMMsにとって厳しい評価となります。エラー分析により、視覚的な認識、知識表現、推論、およびマルチモーダル理解の課題が明らかになり、さらなる研究の領域が示唆されます。30種類の多様な画像形式で大学レベルの知識をカバーするMMMベンチマークは、基礎モデルの精度と専門分野での適用性を高めるためにドメイン固有の知識をトレーニングデータセットに豊かにすることの重要性を強調しています。

まとめると、MMMベンチマークの作成はExpert AGIの評価においてLMMsの重要な進展を表しています。このベンチマークは、現行のモデルに基本的な感覚スキルと複雑な推論を評価する機会を提供し、Expert AGI開発の進歩を理解するのに役立ちます。専門家レベルのパフォーマンスと推論能力を重視し、視覚的な認識、知識表現、推論、およびマルチモーダル理解におけるさらなる研究の領域をハイライトします。専門分野の精度と適用可能性を向上させるために、トレーニングデータセットにドメイン固有の知識を豊かにすることが推奨されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LangChain:LLMがあなたのコードとやり取りできるようにします

生成モデルは皆の注目を集めています現在、多くのAIアプリケーションでは、機械学習の専門家ではなく、API呼び出しの実装方法...

データサイエンス

「ワイルドワイルドRAG…(パート1)」

「RAG(Retrieval-Augmented Generation)は、外部の知識源を取り込むことで言語モデルによって生成された応答の品質を向上さ...

データサイエンス

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に...

AIテクノロジー

「2023年の最高の声クローニングソフトウェア10選」

はじめに 人工知能を使って人の声をコピーすることができるなんて、すごく驚きませんか?AIを利用した音声クローニングソフト...

機械学習

深層学習フレームワークの比較

「開発者に最適なトップのディープラーニングフレームワークを見つけてください機能、パフォーマンス、使いやすさを比較して...

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...