Learn more about Search Results MiniGPT-4 - Page 2
- You may be interested
- テスト自動化のベストプラクティス
- LLMOps:ハミルトンとのプロダクションプ...
- 「TfidfVectorizerを使用してテキストを数...
- 「REPLUG」をご紹介しますこれは、凍結さ...
- 「AutoGen:次世代の大規模言語モデルアプ...
- このAI論文は、深層学習を用いて大規模な...
- 「機械学習分類のための適合予測—基礎から...
- 室温超伝導体であることが確認されたLK-99...
- スマートな”メガネは非着用者とのパ...
- 「50 ミッドジャーニーノーリングのヒント...
- TensorFlowとXLAを使用した高速なテキスト...
- 政府の腐敗を出し抜くためのAIの積極的な役割
- マルチディフュージョンによる画像生成の...
- 「AIベースのサイバーセキュリティがビジ...
- データサイエンティストがマスターすべき1...
「Cheetorと会ってください:幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル(MLLMs)」
教示的なスタイルで言語タスクのグループに対する指示のチューニングを通じて、大規模言語モデル(LLM)は最近、さまざまな活動のための汎用モデルとして優れた能力を示しています。指示のチューニングにより、単一の指示応答形式でさまざまなタスクを微調整することで、LLMは新しいタスク指示に対するゼロショットの汎化能力を大幅に開放します。さまざまな実世界のアプリケーションにおける長年の目標を持つこの結果は、テキストのみの指示に従うモデルをマルチモーダルに拡張するための新たな研究の波を刺激しました。この目的を達成するために、FlamingoとBLIP-2は、視覚入力を理解するための凍結されたビジュアルエンコーダをLLMに備えています。モデルの指示に従う能力は、LLaVA、MiniGPT-4、InstructBLIPのフォローアップによるマルチモーダルな指示に従うデータセットの微調整によりさらに強化されています。 このような指示に従うアシスタントの利用可能性は、主にビジョン言語指示に重点を置いたマルチモーダルな大規模言語モデル(MLLM)によって制約されています。これらのモデルは、視覚的な文脈として単一の画像のみを含むビジョン言語指示に主に焦点を当て、指示のバリエーションが限られています。対照的に、人々は現実の生活で関連するメッセージとビジュアルのシリーズを通じて自分のニーズを表現することがよくあります。例えば、人々はオープンドメインの問い合わせに対応するために、さまざまな情報源(視覚的に魅力的なウェブサイト、教科書、クラスのスライドなど)を参照するモデルが必要になる場合があります。異なる写真とテキストが意味的に関連している交互に使用されるビジョン言語指示は、これらの参照および問い合わせを表します。 浙江大学、シンガポール国立大学、南洋理工大学の研究者は、統一された指示応答形式でバリエーション豊かな指示を持つ31のタスクの包括的な大規模ベンチマークであるI4(意味的に関連し、交互に配置された画像テキスト指示に従う)を開発しました。このベンチマークは、20の異なるシナリオをカバーし、交互に配置されたビジョン言語指示の研究を支援するために設計されています。I4には3つの重要な特徴があります。 (1) 指示はすべて、ストーリーボードや図解付きの教科書など、相互に関連する画像と言葉の連続で構成されています。これは交互に配置されたビジョン言語コンテキストとして知られています。 (2) 複雑な指示が多くあります。タスクは、会話に基づく具体的な活動から監視写真の不整合を特定すること、コミックのためのスピーチ予測までさまざまです。 (3) ベンチマークは、漫画、商業イメージ、ドライビング映像、レシピの指示など、さまざまな指示に従うシナリオをカバーしており、提案されたベンチマークを使用して現代のMLLMを体系的に評価し、これらの複雑なマルチモーダル指示を実行するための支援が必要であることが明らかになりました。彼らは、視覚的なプロンプトジェネレータ(VPG)が複雑な指示の理解においてMLLMにとって重要であると主張します。現在のMLLMは主に、より多様で高品質な指示チューニングデータを作成するための洗練された方法を構築することに重点を置いていますが、いくつかのVPG(線形射影、リサンプラー、Q-formerなど)を使用して、ビジョンのバックボーン(ViTなど)に含まれる豊富な画像情報から関連する視覚的な手がかりを抽出し、LLMが視覚入力を理解するように修正します。 凍結されたLLMに対して視覚的な手がかりに基づいたキャプションを提供するように挑戦することで、彼らはVPGを数百万の画像キャプションペアに対してトレーニングします。効率的ではありますが、ウェブクロールされたキャプションは通常、画像の前景の一部しか記述しません。そのため、VPGは通常のキャプションの明白な情報の抽出のみを教授されているため、一部の活動に必要な正確な情報を抽出できない場合があります。さらに、I4では、タスクがコンテキスト内の他の画像に関連する特定の視覚的な詳細に注目するようにVPGを要求するため、この問題は悪化します。 彼らは軽量のControllable Knowledge Re-Injection(CLORI)モジュールを提案しています。このモジュールは、既存のMLLMにおけるVPGの重要な問題を解決するために、LLMの洗練された推論能力を使用してVPG(つまり、Q-former)を制御するために使用されます。より具体的には、彼らはQ-formerを使用して、言語モデルからタスクに依存しない視覚的な手がかりを提供し、LLMに画像に関する重要な情報を与えます。彼らはまず、言語モデルからタスク固有の条件を構築し、Q-formerを制御し、画像から特定の情報を条件付きで抽出します。これらの条件は、LLMに取り込まれます。 内部のクロスアテンションマップを使用して、まずQ-formerが無視した画像の領域を特定します。その後、ChatGPTとSAMを使用して編集対象を識別し、適切な編集説明を生成します。次に、編集指示に従って元の画像に局所的な調整を行い、ブレンドされた拡散を使用してカウンターファクト画像を作成します。その後、作成されたカウンターファクト画像と元の画像の微小な違いを説明するために、画像間の識別的な事前トレーニングタスクが開発されます。CLORIモジュールは、変更されたビットが最も無視されている場所から選択されるため、カウンターファクト画像とタスク指示に基づいて、抜け落ちた視覚情報を抽出する必要があります。 彼らは、調整可能な知識再注入により、さまざまな複雑なビジョン言語指示から包括的な意味を効果的に作成できる、TransformerベースのMLLMであるCheetorを提案しています。軽量なCLORIモジュールは、100万を切る画像テキストペアで効率的にチューニングできます。巨大なマルチモーダル指示調整データを必要とせず、単一のA100 GPUで数時間で完了することができます。彼らのモデルは、計算やデータの効率性を保ちながら、以前のMLLMよりもI4ベンチマークで優れたパフォーマンスを発揮します。さらに、彼らはMMEベンチマークを使用してCheetorを評価し、そのモデルは優れた結果を示します。 以下は彼らの貢献の要約です:(1)彼らは、31のチャレンジからなる干渉するビジョン言語指示の包括的なベンチマークであるI4を構築します。これは幅広い現実世界の設定をカバーしています。 (2)彼らは、最小限に制御された知識再注入(CLORI)モジュールを提供します。これは、LLMが生成した状況に応じて、指示固有の視覚情報をLLMに補完的に再注入します。 (3)わずか30,000枚の画像を使用して、彼らはクロスアテンションガイド付きの反事実的な画像トレーニング手法を使用して、CLORIモジュールを効果的に教育します。 (4)彼らのCheetorは、高品質のマルチモーダル指示調整データがなくても、7つのA100 GPU時間を要する費用で、I4テストで最先端のパフォーマンスを達成します。
マルチモーダル言語モデルの解説:ビジュアル指示の調整
「LLMは、多くの自然言語タスクでゼロショット学習とフューショット学習の両方で有望な結果を示していますしかし、LLMは視覚的な推論を必要とするタスクにおいては不利です...」
新しいAI研究がGPT4RoIを紹介します:地域テキストペアに基づくInstruction Tuning大規模言語モデル(LLM)によるビジョン言語モデル
大型言語モデル(LLM)は最近、自然言語処理を必要とする会話タスクで驚異的なパフォーマンスを発揮し、大きな進歩を遂げています。商用製品のChatGPT、Claude、Bard、テキストのみのGPT-4、およびコミュニティオープンソースのLLama、Alpaca、Vicuna、ChatGLM、MOSSなどがその例です。彼らの前例のない能力のおかげで、彼らは汎用人工知能モデルへの潜在的なルートを提供しています。LLMの効果の結果として、マルチモーダルモデリングコミュニティは、ジョブの特徴空間を事前学習済み言語モデルの特徴空間に合わせるための普遍的なインターフェースとしてLLMを使用する新しい技術的な道を創造しています。 MiniGPT-4、LLaVA、LLaMA-Adapter、InstructBLIPなどのビジョンと言語のモデルは、代表的なタスクの1つとして画像とテキストのペアリングでの指示調整により、ビジョンエンコーダをLLMに合わせるようにアラインメントされます。アラインメントの品質は、指示調整の設計コンセプトに基づいてビジョンと言語のモデルのパフォーマンスに大きな影響を与えます。これらの作品は優れたマルチモーダルスキルを持っていますが、領域レベルのアラインメントにより、領域のキャプションや推論などのより複雑な理解タスクを超えることができません。彼らのアラインメントは画像とテキストのペアリングに限定されています。一部の研究では、MM-REACT、InternGPT、DetGPTなどの外部のビジョンモデルを使用して、ビジョン言語モデルで領域レベルの理解を提供しています。 ただし、彼らの非エンドツーエンドの設計は、汎用マルチモーダルモデルにとってより良い可能性があります。この作品は、関心領域の細かい理解を提供するために、最初から終わりまでビジョン言語モデルを開発することを目指しています。画像全体を画像埋め込みとして圧縮し、特定の部分を参照するための操作を行わないこれらのモデルのモデルアーキテクチャでは、空間指示にオブジェクトボックスを形式として確立します。回答を得るために、LLMは空間教育と言語的指示によって抽出されたビジュアル要素を提供されます。たとえば、問い合わせが「これは何をしているのか?」という交互のシーケンスの場合、モデルは空間指示によって参照される領域の特徴で置き換えます。 RoIAlignまたは変形可能なアテンションは、空間指示のための柔軟な実装方法です。これらは、画像とテキストのデータセットから領域とテキストのデータセットにトレーニングデータを更新し、領域とテキストのペアリング間の細かいアライメントを構築するために、各アイテムの境界ボックスとテキストの説明が提供されます。COCOオブジェクト識別、RefCOCO、RefCOCO+、RefCOCOg、Flickr30Kエンティティ、Visual Genome(VG)、Visual Commonsense Reasoning(VCR)などの公開データセットが組み合わされます。これらのデータセットは、指示調整のための形式に変更されます。さらに、商業的に利用可能な物体検出器を使用して、画像からオブジェクトボックスを抽出し、空間指示として利用することができます。LLaVA150Kなどの画像とテキストのトレーニングデータを活用するために、棚からひとつオブジェクト検出器を使用することもできます。彼らのモデルは、LLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。 彼らのモデルは、これらの画像テキストデータセットから学習し、視覚的指示の調整に注意深く選択されたビジュアルインストラクションを持つため、対話品質が向上し、より人間らしい返答を生成します。収集されたデータセットは、テキストの長さに基づいて2種類に分けられます。まず、短いテキストデータにはアイテムのカテゴリや基本的な特徴に関する情報が含まれます。これらはLLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。次に、より長いテキストには、複雑なアイデアや論理的思考が必要な場合があります。これらのデータには複雑な空間指示が提供され、エンドツーエンドの領域特徴抽出器とLLMの微調整が可能になります。これにより、実際の使用時に柔軟なユーザー指示をシミュレートすることができます。彼らの手法は、空間指示の調整から得られる利点により、ビジョン言語モデルのユーザーに、言語形式と空間指示形式の両方でモデルに問い合わせることができるユニークなインタラクティブな体験を提供します。 図1は、これにより、複雑な領域推論や領域キャプションなど、画像レベルの理解を超える新たな能力が実現することを示しています。結論として、彼らの作品は以下の点に貢献しています: • LLMに地域テキストデータセットのトレーニングを与えることで、地域レベルのビジョン言語モデルを進化させます。彼らのモデルは、以前の画像レベルのモデルと比較して、領域キャプションや推論などの追加機能を備えています。 • 応答を得るために、関心領域を参照するための空間指示を導入し、ビジュアルエンコーダから回復した領域特性を言語指示と共にLLMに提供します。 • コーディング、データセットの指示調整形式、オンラインデモはすべてGitHubで利用可能です。 図1: GPT4RoIと呼ばれるビジョン言語モデルは、領域とテキストのペアリングで大規模な言語モデル(LLM)を調整する指示調整に基づいて構築されています。単一の領域に口頭と位置情報を組み合わせたユーザーの指示を分析することができます。領域のキャプション付けや推論など、細かいマルチモーダル理解のタスクを達成します。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.