中国の研究者がImageBind-LLMを紹介:ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法

Chinese researchers introduce ImageBind-LLM. ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法 translates to method for multimodal instruction tuning of large-scale language models (LLM) via ImageBind.

研究者は最近、大規模言語モデル(LLM)の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人間の命令に従う汎用対話システムです。しかし、クローズドソースの制約のため、それらはまだ再現不可能です。Alpaca、LLaMAAdapter、および関連する取り組みは、これに対応するために自己生成されたデータを使用して、公開されているLLaMAを言語指示モデルに変更することを提供します。LLaVA、LLaMA-Adapter、およびその他のモデルは、画像指示のカスタマイズを実現するために、ビジュアル理解能力をLLMに統合します。

現在の指示調整技術の成功にもかかわらず、テキスト、画像、音声、3Dポイントクラウド、およびビデオなどの広範な多文化指示のためのLLMを作成するためには、さらなる改良が必要です。上海人工知能研究所、CUHK MMLab、およびvivo AI Labの研究者は、事前学習されたImageBindの結合埋め込み空間の指示に従って、効果的にLLaMAを微調整するImageBind-LLMマルチモーダリティ指示フォローモデルを紹介しています。図1に示すように、彼らのImageBind-LLM(b)は、従来のビジュアル指示モデル(a)とは異なり、画像以外のさまざまなモダリティの入力指示に応答することができます。これは、有望な拡張性と汎化能力を示しています。

彼らは、ImageBindの画像に整列したマルチモーダリティ埋め込み空間の指示の微調整に、ビジョン-言語データのみを使用することを提案しています。画像キャプションのペアに対して、彼らはまず、ImageBindの凍結された画像エンコーダを使用してグローバルな画像特徴を抽出し、学習可能なバインドネットワークを使用して埋め込み変換を行います。変換された画像特徴は、LLaMAのすべてのトランスフォーマーレイヤーの単語トークンに適用され、適切なテキストキャプションの生成のためのビジュアルコンテキストを作成します。LLaMA-Adapterシリーズのゼロ初期化されたアテンションとは異なり、彼らのビジュアルインジェクションメカニズムはシンプルであり、訓練可能なゼロ初期化ゲート要素で重み付けされます。

この効果的な方法により、訓練が進むにつれて、ImageBindのマルチモーダリティ埋め込みの指示キューがLLaMAに徐々に導入され、元の言語理解に干渉することなく導入されることがあります。テキスト、画像、音声、ビデオなどのモダリティにおけるビジョン-言語エンコーディングにImageBindを使用することで、基本的なビジョン-言語トレーニングの後に、ImageBind-LLMはさまざまなモダリティの指示に従う能力を獲得します。彼らは、3Dドメインの指示のために入力の3Dポイントクラウドをエンコードするために、Point-Bindの事前学習された3Dエンコーダを使用します。また、画像トレーニングとテキスト、音声、3D、またはビデオ条件の制作とのモダリティギャップを解消するために、推論中の埋め込み拡張のためのトレーニングフリーのビジュアルキャッシュアプローチも提供します。

図1は、私たちのマルチモーダリティ対ビジュアル指示モデルImageBind-LLMとの比較です。ImageBind-LLMは、画像モダリティに限定された従来の取り組み[1-3]とは異なり、画像、テキスト、音声、ビデオ、および3Dに対して普遍的なマルチモーダリティ指示調整を行います。

キャッシュモデルは、ImageBindによって取得されたトレーニングデータセットの数百万の画像特徴で構成されており、テキスト/音声/3D/ビデオの埋め込みを向上させるために比較可能なビジュアル特性(Tip-Adapter)を獲得します。その結果、マルチモーダルな指示に対する口頭の応答は、より高い品質になります。彼らは、ImageBind-LLMのマルチモーダリティ指示に従う能力をさまざまな状況でテストし、一貫して優れたパフォーマンスを発揮することを確認しています。

全体として、彼らのImageBind-LLMは以下の4つの特性を示します。

• 多数のモードを持つ指示。ImageBind-LLMは、ImageBindおよびPoint-Bindによって表される画像、テキスト、音声、3Dポイントクラウド、およびビデオなどの一般的なマルチモーダリティ入力に応答するように最適化されています。これは、従来の言語と画像の指示モデルとは異なります。

• 効率のチューニング。トレーニング中に、ImageBindの画像エンコーダーをフリーズし、LoRAやバイアスノームチューニングなどのパラメータ効率の良い手法を使用して、LLaMAの一部の重みを調整します。また、ゼロ初期化されたゲーティングファクターと追加のバインドネットワークもトレーニングします。

• アテンションなしのゼロ初期化インジェクション。彼らは、進行的な知識インジェクションのための学習可能なゲーティング方法を採用し、注意レイヤーを介する追加の命令信号を導入する代わりに、LLaMAのすべての単語トークンを直接使用してマルチモダリティの要件を組み込みます。

• クロスモーダルキャッシュからの検索。彼らは、ImageBindによって抽出された画像特徴に基づく視覚的なキャッシュモデルを提供し、トレーニング(単一の画像)と推論(多くのモダリティ)の間のモダリティの不均衡を解消するための埋め込み補完のためのクロスモーダリティの検索を行います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ロボットがあなたの好みに合った掃除方法を学びます

「ロボット工学者たちは、ユーザーの個人の好みに基づいてスペースを掃除することができるロボットを開発しました」

AI研究

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エ...

AIニュース

OpenAIのAI安全性へのアプローチ

OpenAIのCEOであるSam Altmanが新しい技術に関する懸念事項について証言した後、AIシステムの安全アプローチはどうなるでしょ...

AI研究

コーネル大学の研究者たちは、不連続処理を伴う量子化(QuIP)を導入しましたこれは、量子化が不連続な重みとヘシアン行列から利益を得るという洞察に基づく新しいAIの手法です

大規模言語モデル(LLM)によって、テキスト作成、フューショット学習、推論、タンパク質配列モデリングなどの領域で改善が可...

人工知能

Midjourney 5.2 を発表:AI画像生成における飛躍的進歩

Midjourney 5.2によるAI画像生成の最新の進化を発見してくださいこの記事では、革新的な「ズームアウト」機能、四角形作成ツ...