「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

「美容とファッションの世界で輝くための10の秘訣」

大規模言語モデルは、人間と同様に言語を理解し生成するために作成された洗練された人工知能システムです。これらのモデルは、質問応答、コンテンツ生成、対話など、さまざまなアプリケーションで有用です。その有用性は、オンラインの大量のデータを分析し理解する長期の学習プロセスによって得られます。

これらのモデルは、さまざまな文脈で言語のより洗練された効果的な使用を促進することで、人間とコンピュータの対話を改善するための発展したツールです。

テキストの読み書きだけでなく、音声や画像などのさまざまな形式の情報を理解し使用する方法についての研究が行われています。マルチモーダルの能力の向上は非常に魅力的であり、大きな可能性を秘めています。GPTなどの現代の大規模言語モデル(LLM)は、テキスト関連のさまざまなタスクで優れたパフォーマンスを示しています。これらのモデルは、監督された微調整や人間のガイダンスを用いた強化学習などの追加のトレーニング手法を使用して、さまざまな対話タスクで非常に優れた能力を発揮します。特にコーディングや定量的思考、数学的論理、AIチャットボットのような会話における専門家と同等の専門知識を持つためには、これらのトレーニング手法を通じてモデルを洗練させることが重要です。

これらのモデルが画像、音声、ビデオなどのさまざまな形式で素材を理解・生成できるようになってきています。特徴の整合やモデルの修正などの手法が適用されています。ビジョンと言語の大規模モデル(LVLM)は、その一つです。しかし、トレーニングやデータの利用可能性に問題があるため、現在のモデルは複雑なシナリオ、例えば複数の画像を含む複数のラウンドの対話などに対応するのが困難であり、各種の相互作用の文脈において適応性とスケーラビリティが制約されています。

Microsoftの研究者たちは、DeepSpeed-VisualChatと名付けました。このフレームワークは、LLMにマルチモーダルの機能を取り込み、70兆のパラメータを持つ言語モデルのサイズでさえ優れたスケーラビリティを示すように設計されました。これにより、複数のラウンドと複数の写真の対話をダイナミックに行うことができます。フレームワークは、マルチモーダル因果関心(MMCA)と呼ばれる方法を使用して、マルチモーダルモデルの適応性と応答性を向上させるために、複数のモダリティにわたって別々に注意の重みを推定します。研究チームは、利用可能なデータセットに関する問題を克服するためにデータのブレンディングアプローチを使用し、豊かで多様なトレーニング環境を実現しました。

DeepSpeed-VisualChatは、DeepSpeedフレームワークを緻密に組み込むことで優れたスケーラビリティが実現されています。このフレームワークは、2兆のパラメータを持つビジョンエンコーダと70兆のパラメータを持つ言語デコーダをLLaMA-2から利用することで、マルチモーダル対話システムにおける可能性の限界を押し、非凡なスケーラビリティを実現しています。

研究者たちは、DeepSpeed-VisualChatのアーキテクチャがMiniGPT4に基づいていることを強調しています。この構造では、画像は事前訓練されたビジョンエンコーダを使用してエンコードされ、その後、線形層を使用してテキスト埋め込み層の隠れ次元との整列を行います。これらの入力は、LLaMA2のような言語モデルに供給され、画期的なマルチモーダル因果関心(MMCA)メカニズムによってサポートされています。この手順中、言語モデルとビジョンエンコーダは凍結されたままであることが重要です。

研究者によると、クラシックなクロスアテンション(CrA)は新たな次元と問題を提供しますが、マルチモーダル因果関心(MMCA)は異なるアプローチを取ります。テキストと画像のトークンに対して、MMCAは別々の注意重み行列を使用し、ビジュアルトークンは自身に、テキストは直前のトークンにフォーカスできるようにします。

実際の結果によると、DeepSpeed-VisualChatは以前のモデルよりもスケーラブル性が優れています。複雑さやトレーニングコストを増加させることなく、さまざまな相互作用シナリオでの適応を向上させます。言語モデルのサイズを70兆のパラメータまでスケーリングすることで、特に優れたスケーラビリティを提供します。この成果は、マルチモーダル言語モデルのさらなる進歩のための堅固な基盤を提供し、重要な一歩となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIニュース

「AIが大気衝撃波から津波の初期兆候を見つけることができる」

研究者たちは、市販の人工知能(AI)モデルが、GPS衛星からの2次元(2D)画像から津波の初期兆候を検出できることを発見しました

機械学習

イクイノックスに会いましょう:ニューラルネットワークとsciMLのためのJAXライブラリ

データサイエンスや機械学習コミュニティ内で人気を集めている数値計算メソッドのためのJAXライブラリ、Equinoxに会いましょ...

データサイエンス

GoogleシートのAI搭載ソリューション「スマートフィル」によるデータ処理の革新

データ管理とスプレッドシートの愛好家にとって、手作業でデータ処理を行うことは常に煩雑で時間のかかる作業でした。フィー...

機械学習

DevOpsGPTとは、LLMとDevOpsツールを組み合わせたマルチエージェントシステムであり、自然言語の要件を動作するソフトウェアに変換するものです

DevOpsGPTは、大規模な言語モデル(LLM)とDevOpsツールを組み合わせて、ソフトウェア開発のためのAIによる自動化ソリューシ...