マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

マイクロソフトAIは、「MM-REACT」というシステムパラダイムを提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツールがリリースされていますが、その中でも過去数ヶ月で非常に人気となったツールの1つがChatGPTです。ChatGPTは、ユーザーが人間のような意味のあるテキストを生成することができる自然言語処理モデルです。OpenAIのChatGPTは、最新の言語モデルであるGPT-4を基にしています。

最新の人工知能と機械学習の進展により、コンピュータビジョンは大幅に進化し、改良されたネットワークアーキテクチャと大規模なモデルトレーニングが実現しています。最近、一部の研究者は、MM-REACTというシステムパラダイムを紹介しました。これは、ChatGPTと複数のビジョンエキスパートを組み合わせたマルチモーダルな推論とアクションを行うためのものです。MM-REACTは、個々のビジョンモデルを言語モデルとより柔軟に組み合わせて、複雑な視覚理解の課題を克服することを目指して開発されました。

MM-REACTは、既存のビジョンおよびビジョン言語モデルが苦労するさまざまな複雑な視覚タスクを処理することを目的として開発されました。そのため、MM-REACTは、テキストの説明やテキスト化された空間座標、画像やビデオなどの密な視覚信号を含むさまざまなタイプの情報を表現するためのプロンプトデザインを使用します。この設計により、ChatGPTは視覚入力との組み合わせでさまざまなタイプの情報を受け入れて処理し、より正確かつ包括的な理解を実現することができます。

MM-REACTは、ChatGPTの能力をマルチモーダルな機能の追加と組み合わせるシステムです。ファイルパスはプレースホルダとして使用され、ChatGPTに画像を入力できるようにします。システムが画像から特定の情報(例:有名人の名前やボックス座標の特定)を必要とする場合、ChatGPTは特定のビジョンエキスパートの助けを求めます。エキスパートの出力はテキストとしてシリアル化され、入力と組み合わされてChatGPTをさらに活性化します。外部のエキスパートが必要ない場合、応答は直接ユーザーに返されます。

ChatGPTは、各エキスパートの能力、入力引数のタイプ、出力のタイプに関連するChatGPTプロンプトに特定の指示を追加することで、ビジョンエキスパートの使用方法を理解するようになっています。さらに、特定の正規表現マッチングを使用してエキスパートを呼び出すための特別なキーワードも指示されています。

実験によると、ゼロショット実験では、MM-REACTが特定の興味のある能力を効果的に対処していることが示されています。MM-REACTは、複雑な視覚理解を必要とするさまざまな高度な視覚タスクを解決するのに効果的であることが証明されています。著者は、MM-REACTが画像上に表示される線形方程式の解決策を提供することができる例や、画像中の製品やその成分の名前を使用して概念理解を行うことができる例などをいくつか共有しています。結論として、このシステムパラダイムは言語とビジョンの専門知識を組み合わせ、高度な視覚インテリジェンスを実現する能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

医療画像AIがより簡単になりました:NVIDIAがMONAIをホステッドクラウドサービスとして提供

本日、NVIDIAは医療画像AIのためのクラウドサービスを立ち上げました。これにより、完全に管理され、クラウドベースのAPIを通...

データサイエンス

「『メジャーな第2波』をAIが探知、NVIDIAのCEOがiliadグループ幹部とのファイヤーサイドチャットで語る」というテキストです

新たなAIインフラストラクチャーの世代がスタートアップ企業を大いに後押しする予定だと、NVIDIAの創設者兼CEOであるジェンセ...

AIニュース

世界初のAI搭載アーム:知っておくべきすべて

人工知能がバイオニックアームを制御する世界を想像したことがありますか? スーパーヒーローの映画から出てきたコンセプトの...

機械学習

「AIの進化と生成AIへの道のりとその仕組み」

この記事では、AI/MLの基礎、その使用方法、生成AIの進化、Prompt Engineering、およびLangChainについて説明しています

機械学習

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示し...

データサイエンス

『ブンブンの向こう側 産業における生成型AIの実用的な応用を探求する』

イントロダクション 現代の世界は「ジェネレーティブAI」という言葉で賑わっています。McKinsey、KPMG、Gartner、Bloombergな...