イメージの中の数学を解読する:新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

イメージの中の数学を解読する:新たな数値絵コンテンツベンチマーク「MathVista」がビジュアルと数理推論のAIの限界を広げる方法

数学的な推論能力を大型言語モデル(LLM)および大型マルチモーダルモデル(LMM)が視覚的な文脈で評価するためのベンチマークとしてMATHVISTAが紹介されています。この基準は、さまざまな数学的およびグラフィカルなタスクを組み合わせ、既存のデータセットと新しいデータセットを含んでいます。LLM、ツールを補助したLLM、およびLMMを含む11の主要なモデルを初期評価すると、人間の能力と比べて実質的な性能差が見られ、さらなる進化の必要性が示されています。このベンチマークは、数学的および視覚的な推論能力を持つ汎用のAIエージェントを開発するために重要です。

現在のLLMの数学的推論能力を評価するベンチマークは、テキストベースのタスクに焦点を当てており、GSM-8Kなどのいくつかは性能の飽和を示しています。この制限を解決するために、科学的領域の堅牢なマルチモーダルなベンチマークの需要が高まっています。VQAのようなベンチマークでは、自然な画像を超えたLMMの視覚的推論能力を広範囲にカバーしています。多様なタスクを微調整せずに解決するために、生成基盤モデルは重要な役割を果たしており、専門の事前学習方法は視覚的な文脈でのチャート推理を改善しています。最近の研究では、これらのモデルの実用的な応用の重要性が強調されています。

数学的な推論は、教育、データ分析、科学的な発見など人間の知能の重要な側面です。AIの数学的推論を評価する既存のベンチマークは、テキストベースであり、視覚的な文脈が欠けています。UCLA、ワシントン大学、およびマイクロソフトリサーチの研究者は、MATHVISTAという包括的なベンチマークを紹介し、基礎モデルの推論能力を評価するためにさまざまな数学的およびグラフィカルな課題を組み合わせています。MATHVISTAは複数の推論タイプ、主要なタスク、およびさまざまな視覚的な文脈を含み、モデルの数学的な推論能力を現実世界の応用に向けて向上させることを目指しています。

数学的な推論が視覚的な文脈での基礎モデルの推論を評価するMATHVISTA。課題タイプ、推論スキル、および視覚的な文脈の分類を使用して、既存のデータセットと新しいデータセットをキュレートしています。ベンチマークには、深い視覚的理解と構成的推論を必要とする問題が含まれています。予備的なテストでは、GPT-4Vへの挑戦を示し、その重要性を強調しています。

MATHVISTAの結果、最も性能の良いモデルであるMultimodal Bardの正確度は34.8%であり、人間のパフォーマンスは60.3%と顕著に高いです。テキストのみのLLMはランダムベースラインを上回り、2ショットのGPT-4は正確度29.2%を達成しています。画像のキャプションとOCRテキストを備えた強化LLMはより良いパフォーマンスを示し、2ショットのGPT-4は正確度33.9%を達成しています。IDEFICSやLLaVAなどのオープンソースのLMMは、数学的な推論、テキスト認識、形状検出、チャート理解の制限のために力不足を示しています。

まとめると、MATHVISTAの研究は視覚的な文脈での数学的な推論の向上と数学と視覚的理解の統合の課題を強調しています。将来の展望には、数学的および視覚的な能力に優れた汎用のLMMの開発、外部ツールを使ったLLMの拡張、およびモデルの説明の評価が含まれます。この研究は、視覚的な認識と数学的な推論を改善するためのモデルアーキテクチャ、データ、およびトレーニング目標の革新を通じて、数学的に集中し視覚的に豊かな現実世界のタスクを実行するAIエージェントの進化の重要性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「GPTの内部- I:テキスト生成の理解」

「さまざまなドメインの同僚と定期的に関わりながら、データサイエンスの背景をほとんど持たない人々に機械学習の概念を伝え...

AIニュース

オープンAIがインドに進出:現地チームの設立

名声高い人工知能(AI)企業OpenAIは、インドで力強い存在を確立するために重要な進展を遂げています。TechCrunchによれば、...

機械学習

このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています

ジョージア工科大学、Mila、モントリオール大学、マギル大学の研究者らは、多様な大規模な神経記録を横断的にモデリングする...

機械学習

In Japanese キャプチャを超えて:近代的なボット対策におけるAIの進展の探求

この記事は、従来のCAPTCHAから最先端の身元確認へと進化していくデジタル防御戦略の実践を表しています

機械学習

「トランスフォーマーの単純化:あなたが理解する言葉を使った最先端の自然言語処理(NLP)— パート1 — イントロ」

「トランスフォーマーは、AIの進歩に大きく貢献したディープラーニングのアーキテクチャですそれはAIとテクノロジー全体の範...

AIニュース

「アマゾン対Google対マイクロソフト:AIで医療を革新する競争」

人工知能(AI)を医療業界に統合することは、技術の進歩の時代においてますます普及しています。Amazon、Google、Microsoftな...