マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

マイクロソフトAIは、「MM-REACT」というシステムパラダイムを提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツールがリリースされていますが、その中でも過去数ヶ月で非常に人気となったツールの1つがChatGPTです。ChatGPTは、ユーザーが人間のような意味のあるテキストを生成することができる自然言語処理モデルです。OpenAIのChatGPTは、最新の言語モデルであるGPT-4を基にしています。

最新の人工知能と機械学習の進展により、コンピュータビジョンは大幅に進化し、改良されたネットワークアーキテクチャと大規模なモデルトレーニングが実現しています。最近、一部の研究者は、MM-REACTというシステムパラダイムを紹介しました。これは、ChatGPTと複数のビジョンエキスパートを組み合わせたマルチモーダルな推論とアクションを行うためのものです。MM-REACTは、個々のビジョンモデルを言語モデルとより柔軟に組み合わせて、複雑な視覚理解の課題を克服することを目指して開発されました。

MM-REACTは、既存のビジョンおよびビジョン言語モデルが苦労するさまざまな複雑な視覚タスクを処理することを目的として開発されました。そのため、MM-REACTは、テキストの説明やテキスト化された空間座標、画像やビデオなどの密な視覚信号を含むさまざまなタイプの情報を表現するためのプロンプトデザインを使用します。この設計により、ChatGPTは視覚入力との組み合わせでさまざまなタイプの情報を受け入れて処理し、より正確かつ包括的な理解を実現することができます。

MM-REACTは、ChatGPTの能力をマルチモーダルな機能の追加と組み合わせるシステムです。ファイルパスはプレースホルダとして使用され、ChatGPTに画像を入力できるようにします。システムが画像から特定の情報(例:有名人の名前やボックス座標の特定)を必要とする場合、ChatGPTは特定のビジョンエキスパートの助けを求めます。エキスパートの出力はテキストとしてシリアル化され、入力と組み合わされてChatGPTをさらに活性化します。外部のエキスパートが必要ない場合、応答は直接ユーザーに返されます。

ChatGPTは、各エキスパートの能力、入力引数のタイプ、出力のタイプに関連するChatGPTプロンプトに特定の指示を追加することで、ビジョンエキスパートの使用方法を理解するようになっています。さらに、特定の正規表現マッチングを使用してエキスパートを呼び出すための特別なキーワードも指示されています。

実験によると、ゼロショット実験では、MM-REACTが特定の興味のある能力を効果的に対処していることが示されています。MM-REACTは、複雑な視覚理解を必要とするさまざまな高度な視覚タスクを解決するのに効果的であることが証明されています。著者は、MM-REACTが画像上に表示される線形方程式の解決策を提供することができる例や、画像中の製品やその成分の名前を使用して概念理解を行うことができる例などをいくつか共有しています。結論として、このシステムパラダイムは言語とビジョンの専門知識を組み合わせ、高度な視覚インテリジェンスを実現する能力を持っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたら...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

人工知能

トップ10のコードなしAIアプリビルダー

あなたは、「コーディングを知っていたら、夢のソフトウェアを作れるのになあ」と思ったことはありませんか?それが現実にな...

機械学習

「snnTorchとは:スパイキングニューラルネットワークを利用した勾配ベースの学習を行うためのオープンソースのPythonパッケージ」

人工知能において、効率性と環境への影響が最も重要な関心事となりました。これに対応するために、UCサンタクルーズのジェイ...

機械学習

「Gen-AI:楽しさ、恐怖、そして未来!」

この記事では、AIがイメージ生成に与える影響を探究し、開発者や規制などに対してそれが何を意味するのかを考察します

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...