マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

マイクロソフトAIは、「MM-REACT」というシステムパラダイムを提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツールがリリースされていますが、その中でも過去数ヶ月で非常に人気となったツールの1つがChatGPTです。ChatGPTは、ユーザーが人間のような意味のあるテキストを生成することができる自然言語処理モデルです。OpenAIのChatGPTは、最新の言語モデルであるGPT-4を基にしています。

最新の人工知能と機械学習の進展により、コンピュータビジョンは大幅に進化し、改良されたネットワークアーキテクチャと大規模なモデルトレーニングが実現しています。最近、一部の研究者は、MM-REACTというシステムパラダイムを紹介しました。これは、ChatGPTと複数のビジョンエキスパートを組み合わせたマルチモーダルな推論とアクションを行うためのものです。MM-REACTは、個々のビジョンモデルを言語モデルとより柔軟に組み合わせて、複雑な視覚理解の課題を克服することを目指して開発されました。

MM-REACTは、既存のビジョンおよびビジョン言語モデルが苦労するさまざまな複雑な視覚タスクを処理することを目的として開発されました。そのため、MM-REACTは、テキストの説明やテキスト化された空間座標、画像やビデオなどの密な視覚信号を含むさまざまなタイプの情報を表現するためのプロンプトデザインを使用します。この設計により、ChatGPTは視覚入力との組み合わせでさまざまなタイプの情報を受け入れて処理し、より正確かつ包括的な理解を実現することができます。

MM-REACTは、ChatGPTの能力をマルチモーダルな機能の追加と組み合わせるシステムです。ファイルパスはプレースホルダとして使用され、ChatGPTに画像を入力できるようにします。システムが画像から特定の情報(例:有名人の名前やボックス座標の特定)を必要とする場合、ChatGPTは特定のビジョンエキスパートの助けを求めます。エキスパートの出力はテキストとしてシリアル化され、入力と組み合わされてChatGPTをさらに活性化します。外部のエキスパートが必要ない場合、応答は直接ユーザーに返されます。

ChatGPTは、各エキスパートの能力、入力引数のタイプ、出力のタイプに関連するChatGPTプロンプトに特定の指示を追加することで、ビジョンエキスパートの使用方法を理解するようになっています。さらに、特定の正規表現マッチングを使用してエキスパートを呼び出すための特別なキーワードも指示されています。

実験によると、ゼロショット実験では、MM-REACTが特定の興味のある能力を効果的に対処していることが示されています。MM-REACTは、複雑な視覚理解を必要とするさまざまな高度な視覚タスクを解決するのに効果的であることが証明されています。著者は、MM-REACTが画像上に表示される線形方程式の解決策を提供することができる例や、画像中の製品やその成分の名前を使用して概念理解を行うことができる例などをいくつか共有しています。結論として、このシステムパラダイムは言語とビジョンの専門知識を組み合わせ、高度な視覚インテリジェンスを実現する能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

機械学習

「2024年のソフトウェア開発のトレンドと予測18」

2024年のソフトウェア開発の世界は、急速な技術の進歩と同時に進化するセキュリティの課題に備えています

AIニュース

Googleは、AIを搭載したブラウザベースの開発者の楽園である「Project IDX」を発表しました

AIのイノベーションを推進し、その限界を打ち破るために、Googleは最新プロジェクト「Project IDX」を発表しました。この野心...

機械学習

マルチクエリアテンションの解説

マルチクエリアテンション(MQA)は、モデルのパフォーマンスを保証しながら、デコーダ内のトークン生成の速度を加速すること...

人工知能

「人工知能のイメージング:GANの複雑さとメカニズムの学術的な考察」

GANは、リアルなデータの作成能力を示しています画像の作成から医薬品の革新まで、さまざまな領域での潜在力を持っています

人工知能

ソロプレナーズ向けの11の最高のAIツール(究極のAIツールキット)

これらは、独自で自分の百万ドルの帝国を築くために、独立起業家が使用している最高のAIツールです