マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

マイクロソフトAIは、「MM-REACT」というシステムパラダイムを提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツールがリリースされていますが、その中でも過去数ヶ月で非常に人気となったツールの1つがChatGPTです。ChatGPTは、ユーザーが人間のような意味のあるテキストを生成することができる自然言語処理モデルです。OpenAIのChatGPTは、最新の言語モデルであるGPT-4を基にしています。

最新の人工知能と機械学習の進展により、コンピュータビジョンは大幅に進化し、改良されたネットワークアーキテクチャと大規模なモデルトレーニングが実現しています。最近、一部の研究者は、MM-REACTというシステムパラダイムを紹介しました。これは、ChatGPTと複数のビジョンエキスパートを組み合わせたマルチモーダルな推論とアクションを行うためのものです。MM-REACTは、個々のビジョンモデルを言語モデルとより柔軟に組み合わせて、複雑な視覚理解の課題を克服することを目指して開発されました。

MM-REACTは、既存のビジョンおよびビジョン言語モデルが苦労するさまざまな複雑な視覚タスクを処理することを目的として開発されました。そのため、MM-REACTは、テキストの説明やテキスト化された空間座標、画像やビデオなどの密な視覚信号を含むさまざまなタイプの情報を表現するためのプロンプトデザインを使用します。この設計により、ChatGPTは視覚入力との組み合わせでさまざまなタイプの情報を受け入れて処理し、より正確かつ包括的な理解を実現することができます。

MM-REACTは、ChatGPTの能力をマルチモーダルな機能の追加と組み合わせるシステムです。ファイルパスはプレースホルダとして使用され、ChatGPTに画像を入力できるようにします。システムが画像から特定の情報(例:有名人の名前やボックス座標の特定)を必要とする場合、ChatGPTは特定のビジョンエキスパートの助けを求めます。エキスパートの出力はテキストとしてシリアル化され、入力と組み合わされてChatGPTをさらに活性化します。外部のエキスパートが必要ない場合、応答は直接ユーザーに返されます。

ChatGPTは、各エキスパートの能力、入力引数のタイプ、出力のタイプに関連するChatGPTプロンプトに特定の指示を追加することで、ビジョンエキスパートの使用方法を理解するようになっています。さらに、特定の正規表現マッチングを使用してエキスパートを呼び出すための特別なキーワードも指示されています。

実験によると、ゼロショット実験では、MM-REACTが特定の興味のある能力を効果的に対処していることが示されています。MM-REACTは、複雑な視覚理解を必要とするさまざまな高度な視覚タスクを解決するのに効果的であることが証明されています。著者は、MM-REACTが画像上に表示される線形方程式の解決策を提供することができる例や、画像中の製品やその成分の名前を使用して概念理解を行うことができる例などをいくつか共有しています。結論として、このシステムパラダイムは言語とビジョンの専門知識を組み合わせ、高度な視覚インテリジェンスを実現する能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

欧州とイスラエルのAIファーストスタートアップのための新しいアクセラレータ

この10週間のプログラムは、Googleとそのネットワークの最高の部分を活用して、AIをコアビジネスに使用しているスタートアッ...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...

AIテクノロジー

ChatGPTが1歳になりました:バイラルなモバイルアプリと数百万ドルの収益!

2023年は盛りだくさんの一年でした。ChatGPTが1年を迎え、我々の日常生活における人工知能の境界を再定義してきました。ChatG...

機械学習

「大規模な言語モデルが医療テキスト分析に与える影響」

イントロダクション 技術革命の進行する世界において、人工知能と医療の融合は医学の診断と治療の風景を再構築しています。こ...

機械学習

詳細に説明されたLlama 2:Metaの大型言語モデル!

MetaのLlama 2についてもっと知りたいですか?ここには基礎から高度な仕様まで、すべてを網羅した初心者向けガイドがあります

データサイエンス

Btech卒業後に何をすべきですか?

Btechの後に何をすべきですか?このよくある質問は、最終学年や最近卒業した学生にとって悩みの種です。多くの人々が従来のキ...