この人工知能論文は、大規模なマルチモーダルモデル（GLaMM）を導入していますこれは、画像と領域の両方の入力を処理する柔軟性を備えた、エンドツーエンドトレーニングされた大規模なマルチモーダルモデルで、ビジュアルグラウンディング能力を提供します

「ビジュアルグラウンディング能力を備えた大規模なマルチモーダルモデル（GLaMM）を導入した人工知能論文」

大型マルチモーダルモデル（LMM）は、生成型AIの波によって推進され、言語とビジュアルタスクの間のギャップを埋める重要な存在になりました。LLaVa、miniGPT4、Otter、InstructBLIP、LLaMA-Adapter v2、およびmPLUGOWLは、入力された写真に応じて効率的なテキストの回答を示す早期バージョンの例です。これらのモデルは洗練されていますが、その決定は視覚環境に基づかなければなりません。地域限定のコンテンツの変更、対話型の具現エージェント、深いビジュアル理解などの高度な応用では、このアンカリングが必要です。最近の研究では、この制約を克服するために、モデル内でバウンディングボックスを使用してユーザー定義のゾーンを分析する作業が始まっています。

最近の研究では、根付いたテキスト応答生成が注目されていますが、ピクセルレベルの正確な根付けを提供していません。さらに、関連するセグメンテーションの文献では、自然な写真におけるテキストの説明をアンカリングする試みが行われています。しかし、それらは単一のアイテムをアンカリングするだけであり、実際の一貫した会話を行うことはできません。これにより、書かれた情報や視覚的な材料の徹底的な理解を必要とする対話型の仕事での有用性が制限されます。本論文では、深層学習戦略（図1）を介して、詳細な領域認識、ピクセルレベルの根付け、および会話の能力を同時に提供するGrounding LMM（GLaMM）を提案します。

図1：GLaMMベースのGrounded Conversation Generation

マルチモーダル対話モデルを使用すると、入力画像のピクセルレベルに根ざした自然言語の応答を生成することができます。オブジェクトの属性（白い家、赤い屋根、きれいに手入れされた芝生）やオブジェクトの関係（芝生が歩道に広がり、建物の上には空が広がる）といったさまざまなレベルの詳細が、出力の根づけに代表されています。例えば、物（建物、木）、もの（芝生、空、歩道）、およびオブジェクトの部分（屋根は建物の一部）などです。

彼らは、視覚的に根付いた対話の基準の不足に対処するために、Grounded Conversation Generation（GCG）というユニークな仕事を提供しています。GCGの目標は、自然言語の応答と交互に配置されたオブジェクトのセグメンテーションマスクを生成することです。この困難な課題では、フレーズの根付け、画像と領域レベルのキャプション付け、参照表現のセグメンテーション、ビジョン言語の相互作用など、通常は別々に処理されるさまざまなコンピュータビジョンのタスクが組み合わさっています。そのため、組み合わせモデルと提案された事前訓練データセットは、会話型のQA、領域レベルのキャプション付け、画像キャプション付け、および表現セグメンテーションなどのさまざまなダウンストリームタスクで成功裏に使用することができます。

モハメドビンザイードAI大学、オーストラリア国立大学、Aalto大学、カーネギーメロン大学、カリフォルニア大学メルセド、リンシェーピング大学、およびGoogle Researchの研究者は、この困難な課題に特化して作成された最初のモデルであるGLaMMを紹介しています。従来の取り組みとは異なり、GLaMMはテキストとビジュアルの提案と視覚的に根付いた結果を使用して、多様なユーザーエクスペリエンスを提供します。領域レベルでの詳細な理解のために、領域ごとの包括的なアノテーションを収集する煩雑な作業が必要です。彼らは、労力のかかる手作業のラベリングプロセスを削減するために、包括的なGrounding-anything Dataset（GranD）の自動ワークフローを提案しています。GranDは、特定の検証プロセスを持つコンピュータ化されたパイプラインを使用し、セグメンテーションマスクを伴う810百万の領域にアンカーされた750万の異なるアイデアを持っています。

このデータセットは、先進的なビジョンと言語モデルを利用して、マルチレベル階層的手法を使用してSAMの写真にアノテーションを付けています。GranDは、1100万枚の写真と33,000万枚の根付いたキャプション、8400万の参照用語などの特性を持つことで包括性を再定義しています。彼らは、根付いた会話や自動生成されたGCGデータセットのために、以前に手動でアノテーションされたデータセットをGPT-4を用いたインコンテキスト学習を使用して再定義しました。彼らは、大規模な自動生成データをGranDpとし、高品質なデータセットをGranDfと指定しており、フィネチューニングに適しています。GLaMMは、GranDfとGranDpを使用してプリトレーニング-フィネチューニングのフェーズでトレーニングされます。

結論として、彼らの研究は主に3つの貢献があります:

• Grounding Large Multimodal Model（GLaMM）の導入: これは、オブジェクトセグメンテーションマスクとスムーズに組み合わされた自然言語の応答を提供する初めてのモデルです。現行のモデルとは異なり、GLaMMは視覚的な手がかりとテキストの両方をサポートしており、マルチモーダルなユーザーエンゲージメントが向上しています。

• 新しいタスクと評価基準: 視覚に基づく対話の確立された基準が存在しないことを認識し、Grounded Conversation Generation（GCG）という新しいタスクを提案しました。さらに、複数の独立したタスクを統合するこの独特なシナリオでモデルのパフォーマンスを評価するための広範な評価プロセスを導入して、文献の大きなギャップを埋めました。

• Grounding-anything Dataset（GranD）: 彼らはGranDという大規模な、密度の高いアノテーションが施されたデータセットを開発しました。このデータセットは自動的な注釈パイプラインと検証基準を使用して作成され、810万箇所に基づいた750万以上の異なるアイデアが含まれています。さらに、GCGタスクの微調整のために特に作成された高品質なデータセットであるGranDfを作成するために、既存のオープンソースのデータセットを再利用しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceLanguage modelLarge Language Model

Was this article helpful?

93 out of 132 found this helpful

Was this article helpful?

バーゼル大学病院が、「TotalSegmentator」を発表：体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

「React JSでChatGPT 2.0を構築する」

機械学習

Fast.AIディープラーニングコースからの7つの教訓

「Langchainとは何ですか？そして、大規模言語モデルとは何ですか？」

「ChatGPTがクラッシュしましたか？ OpenAIのAIのダウンタイムと迅速な回復！」

「時系列予測と再帰型ニューラルネットワーク」

「AIがウクライナの戦場に参戦を望む！」

「AIがまだすぐには置き換えられない8つの仕事」