イメージの中の数学を解読する:新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

イメージの中の数学を解読する:新たな数値絵コンテンツベンチマーク「MathVista」がビジュアルと数理推論のAIの限界を広げる方法

数学的な推論能力を大型言語モデル(LLM)および大型マルチモーダルモデル(LMM)が視覚的な文脈で評価するためのベンチマークとしてMATHVISTAが紹介されています。この基準は、さまざまな数学的およびグラフィカルなタスクを組み合わせ、既存のデータセットと新しいデータセットを含んでいます。LLM、ツールを補助したLLM、およびLMMを含む11の主要なモデルを初期評価すると、人間の能力と比べて実質的な性能差が見られ、さらなる進化の必要性が示されています。このベンチマークは、数学的および視覚的な推論能力を持つ汎用のAIエージェントを開発するために重要です。

現在のLLMの数学的推論能力を評価するベンチマークは、テキストベースのタスクに焦点を当てており、GSM-8Kなどのいくつかは性能の飽和を示しています。この制限を解決するために、科学的領域の堅牢なマルチモーダルなベンチマークの需要が高まっています。VQAのようなベンチマークでは、自然な画像を超えたLMMの視覚的推論能力を広範囲にカバーしています。多様なタスクを微調整せずに解決するために、生成基盤モデルは重要な役割を果たしており、専門の事前学習方法は視覚的な文脈でのチャート推理を改善しています。最近の研究では、これらのモデルの実用的な応用の重要性が強調されています。

数学的な推論は、教育、データ分析、科学的な発見など人間の知能の重要な側面です。AIの数学的推論を評価する既存のベンチマークは、テキストベースであり、視覚的な文脈が欠けています。UCLA、ワシントン大学、およびマイクロソフトリサーチの研究者は、MATHVISTAという包括的なベンチマークを紹介し、基礎モデルの推論能力を評価するためにさまざまな数学的およびグラフィカルな課題を組み合わせています。MATHVISTAは複数の推論タイプ、主要なタスク、およびさまざまな視覚的な文脈を含み、モデルの数学的な推論能力を現実世界の応用に向けて向上させることを目指しています。

数学的な推論が視覚的な文脈での基礎モデルの推論を評価するMATHVISTA。課題タイプ、推論スキル、および視覚的な文脈の分類を使用して、既存のデータセットと新しいデータセットをキュレートしています。ベンチマークには、深い視覚的理解と構成的推論を必要とする問題が含まれています。予備的なテストでは、GPT-4Vへの挑戦を示し、その重要性を強調しています。

MATHVISTAの結果、最も性能の良いモデルであるMultimodal Bardの正確度は34.8%であり、人間のパフォーマンスは60.3%と顕著に高いです。テキストのみのLLMはランダムベースラインを上回り、2ショットのGPT-4は正確度29.2%を達成しています。画像のキャプションとOCRテキストを備えた強化LLMはより良いパフォーマンスを示し、2ショットのGPT-4は正確度33.9%を達成しています。IDEFICSやLLaVAなどのオープンソースのLMMは、数学的な推論、テキスト認識、形状検出、チャート理解の制限のために力不足を示しています。

まとめると、MATHVISTAの研究は視覚的な文脈での数学的な推論の向上と数学と視覚的理解の統合の課題を強調しています。将来の展望には、数学的および視覚的な能力に優れた汎用のLMMの開発、外部ツールを使ったLLMの拡張、およびモデルの説明の評価が含まれます。この研究は、視覚的な認識と数学的な推論を改善するためのモデルアーキテクチャ、データ、およびトレーニング目標の革新を通じて、数学的に集中し視覚的に豊かな現実世界のタスクを実行するAIエージェントの進化の重要性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

フリートテクノロジーのためのAI駆動エッジインサイトの実装

「エッジインサイトをフリートテクノロジーに導入し、効率と安全性を向上させ、ドライバーとフリートマネージャーにほぼリア...

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

データサイエンス

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

AIニュース

エロン・マスクのxAIがOpenAIのChatGPTに挑戦します

ビジョン溢れる億万長者であるイーロン・マスクは、電気自動車、宇宙探査、ソーシャルメディアなどの事業を手掛ける人物で、...

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...

人工知能

動的に画像のサイズを調整する

この投稿では、Apache APISIXをimgproxyと組み合わせて使用する方法について、複数の解像度で画像の保存コストを削減する方法...