「NExT-GPTを紹介します:エンドツーエンドの汎用的な任意対任意のマルチモーダル大規模言語モデル(MM-LLM)」

「NExT-GPT:エンドツーエンドのマルチモーダル大規模言語モデル(MM-LLM)」

マルチモーダルLLMは、音声、テキスト、および視覚入力を介したより自然で直感的なユーザーとAIシステムのコミュニケーションを可能にすることで、人間とコンピュータのインタラクションを向上させることができます。これにより、チャットボット、仮想アシスタント、コンテンツ推薦システムなどのアプリケーションにおいて、より文脈に即した総合的な応答が可能となります。これらは、GPT-3などの従来の単一モーダル言語モデルの基礎を築きながら、異なるデータタイプを処理するための追加の機能を組み込んでいます。

ただし、マルチモーダルLLMは、優れたパフォーマンスを発揮するためには大量のデータが必要となり、他のAIモデルよりもサンプル効率が低くなる可能性があります。トレーニング中に異なるモダリティのデータを整合させることは困難な場合があります。エラー伝搬におけるエンドツーエンドのトレーニングが全体的に欠けているため、コンテンツの理解やマルチモーダルな生成能力は非常に限定的となることがあります。異なるモジュール間の情報伝達は、LLMによって生成される離散的なテキストに基づいて完全に行われるため、ノイズやエラーが避けられません。各モダリティからの情報が適切に同期されることは、実用的なトレーニングには不可欠です。

これらの問題に対処するために、NeXT++の研究者、School of Computing(NUS)は、NexT-GPTを構築しました。これは、テキスト、画像、動画、音声のモダリティの任意の組み合わせでの入力と出力を処理するために設計されたマルチモーダルLLMです。エンコーダは、さまざまなモダリティの入力をエンコードし、それらをLLMの表現に投影することができます。

彼らの手法は、既存のオープンソースのLLMを修正して、入力情報を処理するコアとして使用します。投影後、特定の指示を持つ生成されたマルチモーダル信号は、異なるエンコーダに送られ、最終的に対応するモダリティでコンテンツが生成されます。モデルをゼロからトレーニングするのは費用効果が低いため、既存の高性能なエンコーダとデコーダ(Q-Former、ImageBind、最先端の潜在的な拡散モデルなど)を使用します。

彼らは、LLM中心のエンコーディング側とデコーディング側の指示に従ったアライメントを効率的に実現するための軽量なアライメント学習技術を導入しました。さらに、人間レベルの機能を持つ任意のMM-LLMを実現するためのモダリティ切り替え指示チューニングも導入しています。これにより、異なるモダリティの特徴空間のギャップを埋め、他の入力の流暢な文脈理解を確保し、NExT-GPTのためのアライメント学習を行うことができます。

モダリティ切り替え指示チューニング(MosIT)は、複雑なクロスモーダルな理解と推論をサポートし、洗練されたマルチモーダルなコンテンツ生成を可能にします。彼らはさらに、多様なユーザーのインタラクションを扱い、必要な応答を正確に提供するために必要な複雑さと変動性を持つ高品質なデータセットを構築しました。

最後に、彼らの研究は、任意のMMLLMがさまざまなモダリティ間のギャップを埋め、将来的により人間らしいAIシステムの可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

マシンラーニングにおける線形回帰の幾何学的解釈と古典統計学との比較

上記の画像は、最小二乗法(OLS)または線形回帰(古典統計学では同義的に使用される言葉)の幾何学的解釈を示しています見て...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

AIニュース

マルチモーダルAI:見て聞くことができる人工知能

人工知能(AI)はその創始以来、長い道のりを歩んできましたが、最近まで、その能力はテキストベースのコミュニケーションと...

機械学習

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています

MIT、CarperAI、Parametrix.AIの研究者らは、Neural MMO 2.0を導入しました。これは、多様な目的と報酬信号を定義できる柔軟...

データサイエンス

AI、デジタルツインが次世代の気候研究イノベーションを解き放つ

AIと高速計算は、気候研究者が気候研究のブレークスルーを達成するために必要な奇跡を実現するのに役立つだろう、とNVIDIAの...

機械学習

ビッグテックと生成AI:ビッグテックが生成AIを制御するのか?

「ビッグテックと生成AIの深まる関係を探求する:これらの巨人はセクターを支配するのか、それともバランスの取れたAIの景観...