「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

「美容とファッションの世界で輝くための10の秘訣」

大規模言語モデルは、人間と同様に言語を理解し生成するために作成された洗練された人工知能システムです。これらのモデルは、質問応答、コンテンツ生成、対話など、さまざまなアプリケーションで有用です。その有用性は、オンラインの大量のデータを分析し理解する長期の学習プロセスによって得られます。

これらのモデルは、さまざまな文脈で言語のより洗練された効果的な使用を促進することで、人間とコンピュータの対話を改善するための発展したツールです。

テキストの読み書きだけでなく、音声や画像などのさまざまな形式の情報を理解し使用する方法についての研究が行われています。マルチモーダルの能力の向上は非常に魅力的であり、大きな可能性を秘めています。GPTなどの現代の大規模言語モデル(LLM)は、テキスト関連のさまざまなタスクで優れたパフォーマンスを示しています。これらのモデルは、監督された微調整や人間のガイダンスを用いた強化学習などの追加のトレーニング手法を使用して、さまざまな対話タスクで非常に優れた能力を発揮します。特にコーディングや定量的思考、数学的論理、AIチャットボットのような会話における専門家と同等の専門知識を持つためには、これらのトレーニング手法を通じてモデルを洗練させることが重要です。

これらのモデルが画像、音声、ビデオなどのさまざまな形式で素材を理解・生成できるようになってきています。特徴の整合やモデルの修正などの手法が適用されています。ビジョンと言語の大規模モデル(LVLM)は、その一つです。しかし、トレーニングやデータの利用可能性に問題があるため、現在のモデルは複雑なシナリオ、例えば複数の画像を含む複数のラウンドの対話などに対応するのが困難であり、各種の相互作用の文脈において適応性とスケーラビリティが制約されています。

Microsoftの研究者たちは、DeepSpeed-VisualChatと名付けました。このフレームワークは、LLMにマルチモーダルの機能を取り込み、70兆のパラメータを持つ言語モデルのサイズでさえ優れたスケーラビリティを示すように設計されました。これにより、複数のラウンドと複数の写真の対話をダイナミックに行うことができます。フレームワークは、マルチモーダル因果関心(MMCA)と呼ばれる方法を使用して、マルチモーダルモデルの適応性と応答性を向上させるために、複数のモダリティにわたって別々に注意の重みを推定します。研究チームは、利用可能なデータセットに関する問題を克服するためにデータのブレンディングアプローチを使用し、豊かで多様なトレーニング環境を実現しました。

DeepSpeed-VisualChatは、DeepSpeedフレームワークを緻密に組み込むことで優れたスケーラビリティが実現されています。このフレームワークは、2兆のパラメータを持つビジョンエンコーダと70兆のパラメータを持つ言語デコーダをLLaMA-2から利用することで、マルチモーダル対話システムにおける可能性の限界を押し、非凡なスケーラビリティを実現しています。

研究者たちは、DeepSpeed-VisualChatのアーキテクチャがMiniGPT4に基づいていることを強調しています。この構造では、画像は事前訓練されたビジョンエンコーダを使用してエンコードされ、その後、線形層を使用してテキスト埋め込み層の隠れ次元との整列を行います。これらの入力は、LLaMA2のような言語モデルに供給され、画期的なマルチモーダル因果関心(MMCA)メカニズムによってサポートされています。この手順中、言語モデルとビジョンエンコーダは凍結されたままであることが重要です。

研究者によると、クラシックなクロスアテンション(CrA)は新たな次元と問題を提供しますが、マルチモーダル因果関心(MMCA)は異なるアプローチを取ります。テキストと画像のトークンに対して、MMCAは別々の注意重み行列を使用し、ビジュアルトークンは自身に、テキストは直前のトークンにフォーカスできるようにします。

実際の結果によると、DeepSpeed-VisualChatは以前のモデルよりもスケーラブル性が優れています。複雑さやトレーニングコストを増加させることなく、さまざまな相互作用シナリオでの適応を向上させます。言語モデルのサイズを70兆のパラメータまでスケーリングすることで、特に優れたスケーラビリティを提供します。この成果は、マルチモーダル言語モデルのさらなる進歩のための堅固な基盤を提供し、重要な一歩となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

GPUマシンの構築 vs GPUクラウドの利用

この記事では、コスト、パフォーマンス、運用、スケーラビリティなどの要素を分析し、深層学習や人工知能を用いたプロジェク...

AIニュース

「GPT-4と説明可能なAI(XAI)によるAIの未来の解明」

はじめに 常に進化し続ける人工知能(AI)の世界で、GPT-4は人間のようなテキスト生成の驚異です。それはまるで自分の言語を...

AI研究

アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです

最近、大規模言語モデル(LLM)は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデル...

データサイエンス

AIが脳の液体の流れを示すのに役立つ

科学者たちのチームが、人間の脳の脳血管周りの流体の流れを定量化するために、人工知能に基づく速度測定を作成しました

データサイエンス

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研...