イメージの中の数学を解読する:新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

イメージの中の数学を解読する:新たな数値絵コンテンツベンチマーク「MathVista」がビジュアルと数理推論のAIの限界を広げる方法

数学的な推論能力を大型言語モデル(LLM)および大型マルチモーダルモデル(LMM)が視覚的な文脈で評価するためのベンチマークとしてMATHVISTAが紹介されています。この基準は、さまざまな数学的およびグラフィカルなタスクを組み合わせ、既存のデータセットと新しいデータセットを含んでいます。LLM、ツールを補助したLLM、およびLMMを含む11の主要なモデルを初期評価すると、人間の能力と比べて実質的な性能差が見られ、さらなる進化の必要性が示されています。このベンチマークは、数学的および視覚的な推論能力を持つ汎用のAIエージェントを開発するために重要です。

現在のLLMの数学的推論能力を評価するベンチマークは、テキストベースのタスクに焦点を当てており、GSM-8Kなどのいくつかは性能の飽和を示しています。この制限を解決するために、科学的領域の堅牢なマルチモーダルなベンチマークの需要が高まっています。VQAのようなベンチマークでは、自然な画像を超えたLMMの視覚的推論能力を広範囲にカバーしています。多様なタスクを微調整せずに解決するために、生成基盤モデルは重要な役割を果たしており、専門の事前学習方法は視覚的な文脈でのチャート推理を改善しています。最近の研究では、これらのモデルの実用的な応用の重要性が強調されています。

数学的な推論は、教育、データ分析、科学的な発見など人間の知能の重要な側面です。AIの数学的推論を評価する既存のベンチマークは、テキストベースであり、視覚的な文脈が欠けています。UCLA、ワシントン大学、およびマイクロソフトリサーチの研究者は、MATHVISTAという包括的なベンチマークを紹介し、基礎モデルの推論能力を評価するためにさまざまな数学的およびグラフィカルな課題を組み合わせています。MATHVISTAは複数の推論タイプ、主要なタスク、およびさまざまな視覚的な文脈を含み、モデルの数学的な推論能力を現実世界の応用に向けて向上させることを目指しています。

数学的な推論が視覚的な文脈での基礎モデルの推論を評価するMATHVISTA。課題タイプ、推論スキル、および視覚的な文脈の分類を使用して、既存のデータセットと新しいデータセットをキュレートしています。ベンチマークには、深い視覚的理解と構成的推論を必要とする問題が含まれています。予備的なテストでは、GPT-4Vへの挑戦を示し、その重要性を強調しています。

MATHVISTAの結果、最も性能の良いモデルであるMultimodal Bardの正確度は34.8%であり、人間のパフォーマンスは60.3%と顕著に高いです。テキストのみのLLMはランダムベースラインを上回り、2ショットのGPT-4は正確度29.2%を達成しています。画像のキャプションとOCRテキストを備えた強化LLMはより良いパフォーマンスを示し、2ショットのGPT-4は正確度33.9%を達成しています。IDEFICSやLLaVAなどのオープンソースのLMMは、数学的な推論、テキスト認識、形状検出、チャート理解の制限のために力不足を示しています。

まとめると、MATHVISTAの研究は視覚的な文脈での数学的な推論の向上と数学と視覚的理解の統合の課題を強調しています。将来の展望には、数学的および視覚的な能力に優れた汎用のLMMの開発、外部ツールを使ったLLMの拡張、およびモデルの説明の評価が含まれます。この研究は、視覚的な認識と数学的な推論を改善するためのモデルアーキテクチャ、データ、およびトレーニング目標の革新を通じて、数学的に集中し視覚的に豊かな現実世界のタスクを実行するAIエージェントの進化の重要性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

OpenAIのChatGPTアプリがBingの統合機能を備えたブラウジング機能を導入しました

OpenAIは、AIに関する最先端の研究機関であり、彼らのAIチャットボットのプレミアムバージョンであるChatGPT Plusのサブスク...

データサイエンス

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3D...

機械学習

ディープラーニングによる触媒性能の秘密の解明:異種触媒の高精度スクリーニングのための「グローバル+ローカル」畳み込みニューラルネットワークのディープダイブ

触媒の表面の形状が、触媒のさまざまな特性によって特定の化学反応に影響を与えるため、私たちは表面化学でこれらの効果を研...

機械学習

「医療AIの基礎モデル」

「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モ...

データサイエンス

「ChatGPTにおける適切なプロンプト設計の必須ガイド」

「Prompt Engineering」に没頭して、急速に成長しているChatGPTユーザーベースに与える影響に焦点を当てた詳細なガイドで、プ...

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...