マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています
マイクロソフトAIは、「MM-REACT」というシステムパラダイムを提案しています
大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツールがリリースされていますが、その中でも過去数ヶ月で非常に人気となったツールの1つがChatGPTです。ChatGPTは、ユーザーが人間のような意味のあるテキストを生成することができる自然言語処理モデルです。OpenAIのChatGPTは、最新の言語モデルであるGPT-4を基にしています。
最新の人工知能と機械学習の進展により、コンピュータビジョンは大幅に進化し、改良されたネットワークアーキテクチャと大規模なモデルトレーニングが実現しています。最近、一部の研究者は、MM-REACTというシステムパラダイムを紹介しました。これは、ChatGPTと複数のビジョンエキスパートを組み合わせたマルチモーダルな推論とアクションを行うためのものです。MM-REACTは、個々のビジョンモデルを言語モデルとより柔軟に組み合わせて、複雑な視覚理解の課題を克服することを目指して開発されました。
MM-REACTは、既存のビジョンおよびビジョン言語モデルが苦労するさまざまな複雑な視覚タスクを処理することを目的として開発されました。そのため、MM-REACTは、テキストの説明やテキスト化された空間座標、画像やビデオなどの密な視覚信号を含むさまざまなタイプの情報を表現するためのプロンプトデザインを使用します。この設計により、ChatGPTは視覚入力との組み合わせでさまざまなタイプの情報を受け入れて処理し、より正確かつ包括的な理解を実現することができます。
- 「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
- Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット
- 新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます
MM-REACTは、ChatGPTの能力をマルチモーダルな機能の追加と組み合わせるシステムです。ファイルパスはプレースホルダとして使用され、ChatGPTに画像を入力できるようにします。システムが画像から特定の情報(例:有名人の名前やボックス座標の特定)を必要とする場合、ChatGPTは特定のビジョンエキスパートの助けを求めます。エキスパートの出力はテキストとしてシリアル化され、入力と組み合わされてChatGPTをさらに活性化します。外部のエキスパートが必要ない場合、応答は直接ユーザーに返されます。
ChatGPTは、各エキスパートの能力、入力引数のタイプ、出力のタイプに関連するChatGPTプロンプトに特定の指示を追加することで、ビジョンエキスパートの使用方法を理解するようになっています。さらに、特定の正規表現マッチングを使用してエキスパートを呼び出すための特別なキーワードも指示されています。
実験によると、ゼロショット実験では、MM-REACTが特定の興味のある能力を効果的に対処していることが示されています。MM-REACTは、複雑な視覚理解を必要とするさまざまな高度な視覚タスクを解決するのに効果的であることが証明されています。著者は、MM-REACTが画像上に表示される線形方程式の解決策を提供することができる例や、画像中の製品やその成分の名前を使用して概念理解を行うことができる例などをいくつか共有しています。結論として、このシステムパラダイムは言語とビジョンの専門知識を組み合わせ、高度な視覚インテリジェンスを実現する能力を持っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』
- 「AIのテスト:ChatGPTと他の大規模言語モデルの偽ニュース検出における詳細な評価」
- このAIニュースレターは、あなたが必要とするすべてです #56
- シンボルの調整は言語モデルの文脈における学習を向上させます
- 「ポッドキャスティングのためのトップAIツール(2023年)」
- 何でもセグメント化、しかしより速く! このAIアプローチはSAMモデルの速度を向上させます
- 「DreamIdentityに会ってください:テキストから画像モデルのための編集可能性を保ちつつ、各顔のアイデンティティのための最適化フリーAIメソッド」