中国の研究者がImageBind-LLMを紹介:ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法

Chinese researchers introduce ImageBind-LLM. ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法 translates to method for multimodal instruction tuning of large-scale language models (LLM) via ImageBind.

研究者は最近、大規模言語モデル(LLM)の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人間の命令に従う汎用対話システムです。しかし、クローズドソースの制約のため、それらはまだ再現不可能です。Alpaca、LLaMAAdapter、および関連する取り組みは、これに対応するために自己生成されたデータを使用して、公開されているLLaMAを言語指示モデルに変更することを提供します。LLaVA、LLaMA-Adapter、およびその他のモデルは、画像指示のカスタマイズを実現するために、ビジュアル理解能力をLLMに統合します。

現在の指示調整技術の成功にもかかわらず、テキスト、画像、音声、3Dポイントクラウド、およびビデオなどの広範な多文化指示のためのLLMを作成するためには、さらなる改良が必要です。上海人工知能研究所、CUHK MMLab、およびvivo AI Labの研究者は、事前学習されたImageBindの結合埋め込み空間の指示に従って、効果的にLLaMAを微調整するImageBind-LLMマルチモーダリティ指示フォローモデルを紹介しています。図1に示すように、彼らのImageBind-LLM(b)は、従来のビジュアル指示モデル(a)とは異なり、画像以外のさまざまなモダリティの入力指示に応答することができます。これは、有望な拡張性と汎化能力を示しています。

彼らは、ImageBindの画像に整列したマルチモーダリティ埋め込み空間の指示の微調整に、ビジョン-言語データのみを使用することを提案しています。画像キャプションのペアに対して、彼らはまず、ImageBindの凍結された画像エンコーダを使用してグローバルな画像特徴を抽出し、学習可能なバインドネットワークを使用して埋め込み変換を行います。変換された画像特徴は、LLaMAのすべてのトランスフォーマーレイヤーの単語トークンに適用され、適切なテキストキャプションの生成のためのビジュアルコンテキストを作成します。LLaMA-Adapterシリーズのゼロ初期化されたアテンションとは異なり、彼らのビジュアルインジェクションメカニズムはシンプルであり、訓練可能なゼロ初期化ゲート要素で重み付けされます。

この効果的な方法により、訓練が進むにつれて、ImageBindのマルチモーダリティ埋め込みの指示キューがLLaMAに徐々に導入され、元の言語理解に干渉することなく導入されることがあります。テキスト、画像、音声、ビデオなどのモダリティにおけるビジョン-言語エンコーディングにImageBindを使用することで、基本的なビジョン-言語トレーニングの後に、ImageBind-LLMはさまざまなモダリティの指示に従う能力を獲得します。彼らは、3Dドメインの指示のために入力の3Dポイントクラウドをエンコードするために、Point-Bindの事前学習された3Dエンコーダを使用します。また、画像トレーニングとテキスト、音声、3D、またはビデオ条件の制作とのモダリティギャップを解消するために、推論中の埋め込み拡張のためのトレーニングフリーのビジュアルキャッシュアプローチも提供します。

図1は、私たちのマルチモーダリティ対ビジュアル指示モデルImageBind-LLMとの比較です。ImageBind-LLMは、画像モダリティに限定された従来の取り組み[1-3]とは異なり、画像、テキスト、音声、ビデオ、および3Dに対して普遍的なマルチモーダリティ指示調整を行います。

キャッシュモデルは、ImageBindによって取得されたトレーニングデータセットの数百万の画像特徴で構成されており、テキスト/音声/3D/ビデオの埋め込みを向上させるために比較可能なビジュアル特性(Tip-Adapter)を獲得します。その結果、マルチモーダルな指示に対する口頭の応答は、より高い品質になります。彼らは、ImageBind-LLMのマルチモーダリティ指示に従う能力をさまざまな状況でテストし、一貫して優れたパフォーマンスを発揮することを確認しています。

全体として、彼らのImageBind-LLMは以下の4つの特性を示します。

• 多数のモードを持つ指示。ImageBind-LLMは、ImageBindおよびPoint-Bindによって表される画像、テキスト、音声、3Dポイントクラウド、およびビデオなどの一般的なマルチモーダリティ入力に応答するように最適化されています。これは、従来の言語と画像の指示モデルとは異なります。

• 効率のチューニング。トレーニング中に、ImageBindの画像エンコーダーをフリーズし、LoRAやバイアスノームチューニングなどのパラメータ効率の良い手法を使用して、LLaMAの一部の重みを調整します。また、ゼロ初期化されたゲーティングファクターと追加のバインドネットワークもトレーニングします。

• アテンションなしのゼロ初期化インジェクション。彼らは、進行的な知識インジェクションのための学習可能なゲーティング方法を採用し、注意レイヤーを介する追加の命令信号を導入する代わりに、LLaMAのすべての単語トークンを直接使用してマルチモダリティの要件を組み込みます。

• クロスモーダルキャッシュからの検索。彼らは、ImageBindによって抽出された画像特徴に基づく視覚的なキャッシュモデルを提供し、トレーニング(単一の画像)と推論(多くのモダリティ)の間のモダリティの不均衡を解消するための埋め込み補完のためのクロスモーダリティの検索を行います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DeepSeek:中国最新の言語モデルの支配」

In a recent development, the DeepSeek LLM has emerged as a formidable force in the realm of language models, boasting...

機械学習

実験から展開へ MLflow 101 | パート01

こんな感じで想像してみてください:新しいビジネスアイデアが浮かび、必要なデータがすぐに手元にあるとしますあなたは素晴...

機械学習

言語モデルの未来:ユーザーエクスペリエンスの向上のためにマルチモダリティを取り入れる

人工知能は、非常に有益で効率的な大規模言語モデルの導入により進化しています。自然言語処理、自然言語生成、自然言語理解...

データサイエンス

「カオスから秩序へ:データクラスタリングを活用した意思決定の向上」

「オンラインストアは、購買パターン、購入日、年齢、収入などの要素に基づいて顧客をクラスタリングするために、この方法を...

機械学習

「大規模言語モデルのダークサイドの理解:セキュリティの脅威と脆弱性に関する包括的なガイド」

LLM(言語モデル)は、近年自然言語処理(NLP)のコミュニティでますます人気が高まっています。ニューラルネットワークベー...

AIニュース

「AIが大気衝撃波から津波の初期兆候を見つけることができる」

研究者たちは、市販の人工知能(AI)モデルが、GPS衛星からの2次元(2D)画像から津波の初期兆候を検出できることを発見しました