「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

『MMMUに出会ってみよう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークが人工知能の一般的な発展への道筋を示す』

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さまざまなタスクに対応しています。 FLAN-T5、Vicuna、LLaVAなどのモデルは、指示に従う能力を向上させます。 Flamingo、OpenFlamingo、Otter、MetaVLのような他のモデルは、文脈を持った学習を探求します。 VQAのようなベンチマークは認識に焦点を当てますが、MMMは大学レベルの問題における専門家レベルの知識と緻密な推論を要求することで際立っています。包括的な知識カバレッジ、さまざまな画像形式、および既存のベンチマークとは異なる主題特化の推論に対する独自の強調点といった特徴があります。

MMMベンチマークは、IN.AI Research、ウォータールー大学、オハイオ州立大学、インディペンデント、カーネギーメロン大学、ビクトリア大学、プリンストン大学などの様々な組織の研究者によって提案され、さまざまな学問をカバーする大学レベルの問題が含まれています。専門家レベルの認識と推論を重視したこのベンチマークは、現行のモデルにとって大きな課題を提示します。

この研究では、人間の能力を超えるExpert AGIに向けた進歩を評価するためのベンチマークの必要性が強調されています。MMLUやAGIEvalなどの現行の基準はテキストに焦点を当てており、より多様なモーダルな課題が必要です。大規模なマルチモーダルモデル(LMMs)は有望でありますが、既存のベンチマークには専門家レベルのドメイン知識が必要です。MMMベンチマークはこのギャップを埋めるために導入され、複雑な大学レベルの問題に多様な画像形式と交差するテキストを特徴としています。これはLMMsにとって高度なAI能力を目指す難しい評価を要求し、専門家レベルの認識と推論を提供します。

Expert AGI評価のために設計されたMMMベンチマークは、6つの学問と30の科目にわたる11.5Kの大学レベルの問題で構成されています。データ収集は、視覚入力に基づいてトピックを選択し、学生のアノテータを参加させてマルチモーダルな質問を収集し、品質管理を実施することによって行われます。LLMsやLMMsを含む複数のモデルは、MMMベンチマークでゼロショットの設定で評価され、微調整やフューショットデモなしで正確な回答を生成する能力がテストされます。

MMMベンチマークは、GPT-4Vが55.7%の精度しか達成できないため、モデルにとって困難です。専門家レベルの認識と推論の要求により、LLMsやLMMsにとって厳しい評価となります。エラー分析により、視覚的な認識、知識表現、推論、およびマルチモーダル理解の課題が明らかになり、さらなる研究の領域が示唆されます。30種類の多様な画像形式で大学レベルの知識をカバーするMMMベンチマークは、基礎モデルの精度と専門分野での適用性を高めるためにドメイン固有の知識をトレーニングデータセットに豊かにすることの重要性を強調しています。

まとめると、MMMベンチマークの作成はExpert AGIの評価においてLMMsの重要な進展を表しています。このベンチマークは、現行のモデルに基本的な感覚スキルと複雑な推論を評価する機会を提供し、Expert AGI開発の進歩を理解するのに役立ちます。専門家レベルのパフォーマンスと推論能力を重視し、視覚的な認識、知識表現、推論、およびマルチモーダル理解におけるさらなる研究の領域をハイライトします。専門分野の精度と適用可能性を向上させるために、トレーニングデータセットにドメイン固有の知識を豊かにすることが推奨されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

人工知能

X / Twitterでお金を稼ぐ方法

X(別名Twitter)は、クリエイターに広告収益の一部を支払い始めましたここでは、その一部を手に入れる方法を紹介します

AIニュース

「オートジェンへの参入:マルチエージェントフレームワークの基礎を探索する」

イントロダクション 「自動生成に飛び込む:マルチエージェントフレームワークの基礎を探る」というテーマでソフトウェア開発...

機械学習

「ウッドペッカーは、言語モデルにおけるAIの精度を革新している方法とは?」

中国の腾讯YouTu Labと中国科学技術大学(USTC)のAI研究者グループが、Multimodal Large Language Models(MLLM)の幻想問題...

人工知能

生産性向上のための10の最高のAIツール(決定版リスト)

時間を取り戻したい、同僚を凌駕したい、そして好きなことにもっと時間を費やしたいのであれば、AIツールを使用することは明...

AIニュース

「デリー政府、提案された電子都市にAIハブを建設する計画」

技術の進歩に向けた重要な一歩として、デリー政府は提案された電子都市にAIハブを構築することを計画しています。この都市は...