「Cheetorと会ってください:幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル(MLLMs)」
Transformer-based multimodal large-scale language models (MLLMs) that effectively process a wide range of interleaved vision-language instructions and achieve state-of-the-art zero-shot performance Meet Cheetor.
教示的なスタイルで言語タスクのグループに対する指示のチューニングを通じて、大規模言語モデル(LLM)は最近、さまざまな活動のための汎用モデルとして優れた能力を示しています。指示のチューニングにより、単一の指示応答形式でさまざまなタスクを微調整することで、LLMは新しいタスク指示に対するゼロショットの汎化能力を大幅に開放します。さまざまな実世界のアプリケーションにおける長年の目標を持つこの結果は、テキストのみの指示に従うモデルをマルチモーダルに拡張するための新たな研究の波を刺激しました。この目的を達成するために、FlamingoとBLIP-2は、視覚入力を理解するための凍結されたビジュアルエンコーダをLLMに備えています。モデルの指示に従う能力は、LLaVA、MiniGPT-4、InstructBLIPのフォローアップによるマルチモーダルな指示に従うデータセットの微調整によりさらに強化されています。
このような指示に従うアシスタントの利用可能性は、主にビジョン言語指示に重点を置いたマルチモーダルな大規模言語モデル(MLLM)によって制約されています。これらのモデルは、視覚的な文脈として単一の画像のみを含むビジョン言語指示に主に焦点を当て、指示のバリエーションが限られています。対照的に、人々は現実の生活で関連するメッセージとビジュアルのシリーズを通じて自分のニーズを表現することがよくあります。例えば、人々はオープンドメインの問い合わせに対応するために、さまざまな情報源(視覚的に魅力的なウェブサイト、教科書、クラスのスライドなど)を参照するモデルが必要になる場合があります。異なる写真とテキストが意味的に関連している交互に使用されるビジョン言語指示は、これらの参照および問い合わせを表します。
浙江大学、シンガポール国立大学、南洋理工大学の研究者は、統一された指示応答形式でバリエーション豊かな指示を持つ31のタスクの包括的な大規模ベンチマークであるI4(意味的に関連し、交互に配置された画像テキスト指示に従う)を開発しました。このベンチマークは、20の異なるシナリオをカバーし、交互に配置されたビジョン言語指示の研究を支援するために設計されています。I4には3つの重要な特徴があります。 (1) 指示はすべて、ストーリーボードや図解付きの教科書など、相互に関連する画像と言葉の連続で構成されています。これは交互に配置されたビジョン言語コンテキストとして知られています。 (2) 複雑な指示が多くあります。タスクは、会話に基づく具体的な活動から監視写真の不整合を特定すること、コミックのためのスピーチ予測までさまざまです。 (3) ベンチマークは、漫画、商業イメージ、ドライビング映像、レシピの指示など、さまざまな指示に従うシナリオをカバーしており、提案されたベンチマークを使用して現代のMLLMを体系的に評価し、これらの複雑なマルチモーダル指示を実行するための支援が必要であることが明らかになりました。彼らは、視覚的なプロンプトジェネレータ(VPG)が複雑な指示の理解においてMLLMにとって重要であると主張します。現在のMLLMは主に、より多様で高品質な指示チューニングデータを作成するための洗練された方法を構築することに重点を置いていますが、いくつかのVPG(線形射影、リサンプラー、Q-formerなど)を使用して、ビジョンのバックボーン(ViTなど)に含まれる豊富な画像情報から関連する視覚的な手がかりを抽出し、LLMが視覚入力を理解するように修正します。
- メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています
- 「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」
- 「なぜOpenAIのAPIは英語以外の言語に対してより高価なのか」
凍結されたLLMに対して視覚的な手がかりに基づいたキャプションを提供するように挑戦することで、彼らはVPGを数百万の画像キャプションペアに対してトレーニングします。効率的ではありますが、ウェブクロールされたキャプションは通常、画像の前景の一部しか記述しません。そのため、VPGは通常のキャプションの明白な情報の抽出のみを教授されているため、一部の活動に必要な正確な情報を抽出できない場合があります。さらに、I4では、タスクがコンテキスト内の他の画像に関連する特定の視覚的な詳細に注目するようにVPGを要求するため、この問題は悪化します。
彼らは軽量のControllable Knowledge Re-Injection(CLORI)モジュールを提案しています。このモジュールは、既存のMLLMにおけるVPGの重要な問題を解決するために、LLMの洗練された推論能力を使用してVPG(つまり、Q-former)を制御するために使用されます。より具体的には、彼らはQ-formerを使用して、言語モデルからタスクに依存しない視覚的な手がかりを提供し、LLMに画像に関する重要な情報を与えます。彼らはまず、言語モデルからタスク固有の条件を構築し、Q-formerを制御し、画像から特定の情報を条件付きで抽出します。これらの条件は、LLMに取り込まれます。
内部のクロスアテンションマップを使用して、まずQ-formerが無視した画像の領域を特定します。その後、ChatGPTとSAMを使用して編集対象を識別し、適切な編集説明を生成します。次に、編集指示に従って元の画像に局所的な調整を行い、ブレンドされた拡散を使用してカウンターファクト画像を作成します。その後、作成されたカウンターファクト画像と元の画像の微小な違いを説明するために、画像間の識別的な事前トレーニングタスクが開発されます。CLORIモジュールは、変更されたビットが最も無視されている場所から選択されるため、カウンターファクト画像とタスク指示に基づいて、抜け落ちた視覚情報を抽出する必要があります。
彼らは、調整可能な知識再注入により、さまざまな複雑なビジョン言語指示から包括的な意味を効果的に作成できる、TransformerベースのMLLMであるCheetorを提案しています。軽量なCLORIモジュールは、100万を切る画像テキストペアで効率的にチューニングできます。巨大なマルチモーダル指示調整データを必要とせず、単一のA100 GPUで数時間で完了することができます。彼らのモデルは、計算やデータの効率性を保ちながら、以前のMLLMよりもI4ベンチマークで優れたパフォーマンスを発揮します。さらに、彼らはMMEベンチマークを使用してCheetorを評価し、そのモデルは優れた結果を示します。
以下は彼らの貢献の要約です:(1)彼らは、31のチャレンジからなる干渉するビジョン言語指示の包括的なベンチマークであるI4を構築します。これは幅広い現実世界の設定をカバーしています。 (2)彼らは、最小限に制御された知識再注入(CLORI)モジュールを提供します。これは、LLMが生成した状況に応じて、指示固有の視覚情報をLLMに補完的に再注入します。 (3)わずか30,000枚の画像を使用して、彼らはクロスアテンションガイド付きの反事実的な画像トレーニング手法を使用して、CLORIモジュールを効果的に教育します。 (4)彼らのCheetorは、高品質のマルチモーダル指示調整データがなくても、7つのA100 GPU時間を要する費用で、I4テストで最先端のパフォーマンスを達成します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles