中国の研究者がImageBind-LLMを紹介:ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法

Chinese researchers introduce ImageBind-LLM. ImageBindを介した大規模言語モデル(LLM)のマルチモダリティインストラクションチューニング方法 translates to method for multimodal instruction tuning of large-scale language models (LLM) via ImageBind.

研究者は最近、大規模言語モデル(LLM)の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人間の命令に従う汎用対話システムです。しかし、クローズドソースの制約のため、それらはまだ再現不可能です。Alpaca、LLaMAAdapter、および関連する取り組みは、これに対応するために自己生成されたデータを使用して、公開されているLLaMAを言語指示モデルに変更することを提供します。LLaVA、LLaMA-Adapter、およびその他のモデルは、画像指示のカスタマイズを実現するために、ビジュアル理解能力をLLMに統合します。

現在の指示調整技術の成功にもかかわらず、テキスト、画像、音声、3Dポイントクラウド、およびビデオなどの広範な多文化指示のためのLLMを作成するためには、さらなる改良が必要です。上海人工知能研究所、CUHK MMLab、およびvivo AI Labの研究者は、事前学習されたImageBindの結合埋め込み空間の指示に従って、効果的にLLaMAを微調整するImageBind-LLMマルチモーダリティ指示フォローモデルを紹介しています。図1に示すように、彼らのImageBind-LLM(b)は、従来のビジュアル指示モデル(a)とは異なり、画像以外のさまざまなモダリティの入力指示に応答することができます。これは、有望な拡張性と汎化能力を示しています。

彼らは、ImageBindの画像に整列したマルチモーダリティ埋め込み空間の指示の微調整に、ビジョン-言語データのみを使用することを提案しています。画像キャプションのペアに対して、彼らはまず、ImageBindの凍結された画像エンコーダを使用してグローバルな画像特徴を抽出し、学習可能なバインドネットワークを使用して埋め込み変換を行います。変換された画像特徴は、LLaMAのすべてのトランスフォーマーレイヤーの単語トークンに適用され、適切なテキストキャプションの生成のためのビジュアルコンテキストを作成します。LLaMA-Adapterシリーズのゼロ初期化されたアテンションとは異なり、彼らのビジュアルインジェクションメカニズムはシンプルであり、訓練可能なゼロ初期化ゲート要素で重み付けされます。

この効果的な方法により、訓練が進むにつれて、ImageBindのマルチモーダリティ埋め込みの指示キューがLLaMAに徐々に導入され、元の言語理解に干渉することなく導入されることがあります。テキスト、画像、音声、ビデオなどのモダリティにおけるビジョン-言語エンコーディングにImageBindを使用することで、基本的なビジョン-言語トレーニングの後に、ImageBind-LLMはさまざまなモダリティの指示に従う能力を獲得します。彼らは、3Dドメインの指示のために入力の3Dポイントクラウドをエンコードするために、Point-Bindの事前学習された3Dエンコーダを使用します。また、画像トレーニングとテキスト、音声、3D、またはビデオ条件の制作とのモダリティギャップを解消するために、推論中の埋め込み拡張のためのトレーニングフリーのビジュアルキャッシュアプローチも提供します。

図1は、私たちのマルチモーダリティ対ビジュアル指示モデルImageBind-LLMとの比較です。ImageBind-LLMは、画像モダリティに限定された従来の取り組み[1-3]とは異なり、画像、テキスト、音声、ビデオ、および3Dに対して普遍的なマルチモーダリティ指示調整を行います。

キャッシュモデルは、ImageBindによって取得されたトレーニングデータセットの数百万の画像特徴で構成されており、テキスト/音声/3D/ビデオの埋め込みを向上させるために比較可能なビジュアル特性(Tip-Adapter)を獲得します。その結果、マルチモーダルな指示に対する口頭の応答は、より高い品質になります。彼らは、ImageBind-LLMのマルチモーダリティ指示に従う能力をさまざまな状況でテストし、一貫して優れたパフォーマンスを発揮することを確認しています。

全体として、彼らのImageBind-LLMは以下の4つの特性を示します。

• 多数のモードを持つ指示。ImageBind-LLMは、ImageBindおよびPoint-Bindによって表される画像、テキスト、音声、3Dポイントクラウド、およびビデオなどの一般的なマルチモーダリティ入力に応答するように最適化されています。これは、従来の言語と画像の指示モデルとは異なります。

• 効率のチューニング。トレーニング中に、ImageBindの画像エンコーダーをフリーズし、LoRAやバイアスノームチューニングなどのパラメータ効率の良い手法を使用して、LLaMAの一部の重みを調整します。また、ゼロ初期化されたゲーティングファクターと追加のバインドネットワークもトレーニングします。

• アテンションなしのゼロ初期化インジェクション。彼らは、進行的な知識インジェクションのための学習可能なゲーティング方法を採用し、注意レイヤーを介する追加の命令信号を導入する代わりに、LLaMAのすべての単語トークンを直接使用してマルチモダリティの要件を組み込みます。

• クロスモーダルキャッシュからの検索。彼らは、ImageBindによって抽出された画像特徴に基づく視覚的なキャッシュモデルを提供し、トレーニング(単一の画像)と推論(多くのモダリティ)の間のモダリティの不均衡を解消するための埋め込み補完のためのクロスモーダリティの検索を行います。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Llemmaに会ってください:現行基準を超える次世代数学オープン言語モデル

様々なテキストの混合物を学習した言語モデルは、非常に汎用的な言語理解と生成能力を持ち、幅広い応用に適応可能なベースモ...

人工知能

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテ...

データサイエンス

データサイエンティストの役割の典型

最近の「Towards Data Science」への投稿が好評だったので、データに関する役割の実際のカテゴリについて少し書いてみようと...

機械学習

メタAIのコンピュータビジョンにおける公平性のための2つの新しい取り組み:DINOv2のためのライセンス導入とFACETのリリースの紹介

コンピュータビジョンの絶え間ない進化の中で、公平性を確保することが急務となっています。この記事では、AI技術、特にコン...

機械学習

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェン...

AI研究

このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常...