「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

「美容とファッションの世界で輝くための10の秘訣」

大規模言語モデルは、人間と同様に言語を理解し生成するために作成された洗練された人工知能システムです。これらのモデルは、質問応答、コンテンツ生成、対話など、さまざまなアプリケーションで有用です。その有用性は、オンラインの大量のデータを分析し理解する長期の学習プロセスによって得られます。

これらのモデルは、さまざまな文脈で言語のより洗練された効果的な使用を促進することで、人間とコンピュータの対話を改善するための発展したツールです。

テキストの読み書きだけでなく、音声や画像などのさまざまな形式の情報を理解し使用する方法についての研究が行われています。マルチモーダルの能力の向上は非常に魅力的であり、大きな可能性を秘めています。GPTなどの現代の大規模言語モデル(LLM)は、テキスト関連のさまざまなタスクで優れたパフォーマンスを示しています。これらのモデルは、監督された微調整や人間のガイダンスを用いた強化学習などの追加のトレーニング手法を使用して、さまざまな対話タスクで非常に優れた能力を発揮します。特にコーディングや定量的思考、数学的論理、AIチャットボットのような会話における専門家と同等の専門知識を持つためには、これらのトレーニング手法を通じてモデルを洗練させることが重要です。

これらのモデルが画像、音声、ビデオなどのさまざまな形式で素材を理解・生成できるようになってきています。特徴の整合やモデルの修正などの手法が適用されています。ビジョンと言語の大規模モデル(LVLM)は、その一つです。しかし、トレーニングやデータの利用可能性に問題があるため、現在のモデルは複雑なシナリオ、例えば複数の画像を含む複数のラウンドの対話などに対応するのが困難であり、各種の相互作用の文脈において適応性とスケーラビリティが制約されています。

Microsoftの研究者たちは、DeepSpeed-VisualChatと名付けました。このフレームワークは、LLMにマルチモーダルの機能を取り込み、70兆のパラメータを持つ言語モデルのサイズでさえ優れたスケーラビリティを示すように設計されました。これにより、複数のラウンドと複数の写真の対話をダイナミックに行うことができます。フレームワークは、マルチモーダル因果関心(MMCA)と呼ばれる方法を使用して、マルチモーダルモデルの適応性と応答性を向上させるために、複数のモダリティにわたって別々に注意の重みを推定します。研究チームは、利用可能なデータセットに関する問題を克服するためにデータのブレンディングアプローチを使用し、豊かで多様なトレーニング環境を実現しました。

DeepSpeed-VisualChatは、DeepSpeedフレームワークを緻密に組み込むことで優れたスケーラビリティが実現されています。このフレームワークは、2兆のパラメータを持つビジョンエンコーダと70兆のパラメータを持つ言語デコーダをLLaMA-2から利用することで、マルチモーダル対話システムにおける可能性の限界を押し、非凡なスケーラビリティを実現しています。

研究者たちは、DeepSpeed-VisualChatのアーキテクチャがMiniGPT4に基づいていることを強調しています。この構造では、画像は事前訓練されたビジョンエンコーダを使用してエンコードされ、その後、線形層を使用してテキスト埋め込み層の隠れ次元との整列を行います。これらの入力は、LLaMA2のような言語モデルに供給され、画期的なマルチモーダル因果関心(MMCA)メカニズムによってサポートされています。この手順中、言語モデルとビジョンエンコーダは凍結されたままであることが重要です。

研究者によると、クラシックなクロスアテンション(CrA)は新たな次元と問題を提供しますが、マルチモーダル因果関心(MMCA)は異なるアプローチを取ります。テキストと画像のトークンに対して、MMCAは別々の注意重み行列を使用し、ビジュアルトークンは自身に、テキストは直前のトークンにフォーカスできるようにします。

実際の結果によると、DeepSpeed-VisualChatは以前のモデルよりもスケーラブル性が優れています。複雑さやトレーニングコストを増加させることなく、さまざまな相互作用シナリオでの適応を向上させます。言語モデルのサイズを70兆のパラメータまでスケーリングすることで、特に優れたスケーラビリティを提供します。この成果は、マルチモーダル言語モデルのさらなる進歩のための堅固な基盤を提供し、重要な一歩となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

Llemmaに会ってください:現行基準を超える次世代数学オープン言語モデル

様々なテキストの混合物を学習した言語モデルは、非常に汎用的な言語理解と生成能力を持ち、幅広い応用に適応可能なベースモ...

AI研究

様々な地形でサッカーをプレーするための四脚ロボットシステム

「DribbleBot」は、強化学習を利用して、砂地、砂利、泥地、雪などの様々な地形でサッカーボールを操ることができますまた、...

機械学習

「深層学習による遺伝子制御の解明:オルタナティブスプライシングの理解に向けた新たなAIアプローチ」

オルタナティブスプライシングは、遺伝子の制御において基本的なプロセスであり、単一の遺伝子が複数のmRNAバリアントと様々...

機械学習

新しい - Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポ...

AI研究

MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています

大規模言語モデル(LLMs)は最近、驚くべきスキルを発揮しています。GPTのトランスフォーマーアーキテクチャに基づいて構築さ...

AIニュース

「国々がAIの悪影響に対処する世界的な競争で遅れをとっている方法」

「人工知能の力に驚いたヨーロッパ、アメリカおよび他の地域は対応しようとしていますが、技術は彼らの政策よりもより急速に...