「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

『MMMUに出会ってみよう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークが人工知能の一般的な発展への道筋を示す』

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さまざまなタスクに対応しています。 FLAN-T5、Vicuna、LLaVAなどのモデルは、指示に従う能力を向上させます。 Flamingo、OpenFlamingo、Otter、MetaVLのような他のモデルは、文脈を持った学習を探求します。 VQAのようなベンチマークは認識に焦点を当てますが、MMMは大学レベルの問題における専門家レベルの知識と緻密な推論を要求することで際立っています。包括的な知識カバレッジ、さまざまな画像形式、および既存のベンチマークとは異なる主題特化の推論に対する独自の強調点といった特徴があります。

MMMベンチマークは、IN.AI Research、ウォータールー大学、オハイオ州立大学、インディペンデント、カーネギーメロン大学、ビクトリア大学、プリンストン大学などの様々な組織の研究者によって提案され、さまざまな学問をカバーする大学レベルの問題が含まれています。専門家レベルの認識と推論を重視したこのベンチマークは、現行のモデルにとって大きな課題を提示します。

この研究では、人間の能力を超えるExpert AGIに向けた進歩を評価するためのベンチマークの必要性が強調されています。MMLUやAGIEvalなどの現行の基準はテキストに焦点を当てており、より多様なモーダルな課題が必要です。大規模なマルチモーダルモデル(LMMs)は有望でありますが、既存のベンチマークには専門家レベルのドメイン知識が必要です。MMMベンチマークはこのギャップを埋めるために導入され、複雑な大学レベルの問題に多様な画像形式と交差するテキストを特徴としています。これはLMMsにとって高度なAI能力を目指す難しい評価を要求し、専門家レベルの認識と推論を提供します。

Expert AGI評価のために設計されたMMMベンチマークは、6つの学問と30の科目にわたる11.5Kの大学レベルの問題で構成されています。データ収集は、視覚入力に基づいてトピックを選択し、学生のアノテータを参加させてマルチモーダルな質問を収集し、品質管理を実施することによって行われます。LLMsやLMMsを含む複数のモデルは、MMMベンチマークでゼロショットの設定で評価され、微調整やフューショットデモなしで正確な回答を生成する能力がテストされます。

MMMベンチマークは、GPT-4Vが55.7%の精度しか達成できないため、モデルにとって困難です。専門家レベルの認識と推論の要求により、LLMsやLMMsにとって厳しい評価となります。エラー分析により、視覚的な認識、知識表現、推論、およびマルチモーダル理解の課題が明らかになり、さらなる研究の領域が示唆されます。30種類の多様な画像形式で大学レベルの知識をカバーするMMMベンチマークは、基礎モデルの精度と専門分野での適用性を高めるためにドメイン固有の知識をトレーニングデータセットに豊かにすることの重要性を強調しています。

まとめると、MMMベンチマークの作成はExpert AGIの評価においてLMMsの重要な進展を表しています。このベンチマークは、現行のモデルに基本的な感覚スキルと複雑な推論を評価する機会を提供し、Expert AGI開発の進歩を理解するのに役立ちます。専門家レベルのパフォーマンスと推論能力を重視し、視覚的な認識、知識表現、推論、およびマルチモーダル理解におけるさらなる研究の領域をハイライトします。専門分野の精度と適用可能性を向上させるために、トレーニングデータセットにドメイン固有の知識を豊かにすることが推奨されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

文法AIの向上にBERTを活用する:スロット埋め込みの力

イントロダクション 会話型AI時代において、チャットボットや仮想アシスタントは普及し、私たちがテクノロジーとの対話を革新...

機械学習

オペレーションの頭脳:人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。 今、...

データサイエンス

AIとMLによる株式取引の革命:機会と課題

「AI/MLは、予測分析、効率性、市場適応性と倫理の課題を通じて株式取引を変革し、Pythonの例を示す」となります

AIニュース

「アソシエーテッド・プレスがジャーナリスト向けのAIガイドラインを発表」

人工知能(AI)の急速な進歩は、ジャーナリズムを含むさまざまな産業への統合の道を開いています。最近、アソシエーテッドプ...

機械学習

この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソー...