「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

「美容とファッションの世界で輝くための10の秘訣」

大規模言語モデルは、人間と同様に言語を理解し生成するために作成された洗練された人工知能システムです。これらのモデルは、質問応答、コンテンツ生成、対話など、さまざまなアプリケーションで有用です。その有用性は、オンラインの大量のデータを分析し理解する長期の学習プロセスによって得られます。

これらのモデルは、さまざまな文脈で言語のより洗練された効果的な使用を促進することで、人間とコンピュータの対話を改善するための発展したツールです。

テキストの読み書きだけでなく、音声や画像などのさまざまな形式の情報を理解し使用する方法についての研究が行われています。マルチモーダルの能力の向上は非常に魅力的であり、大きな可能性を秘めています。GPTなどの現代の大規模言語モデル(LLM)は、テキスト関連のさまざまなタスクで優れたパフォーマンスを示しています。これらのモデルは、監督された微調整や人間のガイダンスを用いた強化学習などの追加のトレーニング手法を使用して、さまざまな対話タスクで非常に優れた能力を発揮します。特にコーディングや定量的思考、数学的論理、AIチャットボットのような会話における専門家と同等の専門知識を持つためには、これらのトレーニング手法を通じてモデルを洗練させることが重要です。

これらのモデルが画像、音声、ビデオなどのさまざまな形式で素材を理解・生成できるようになってきています。特徴の整合やモデルの修正などの手法が適用されています。ビジョンと言語の大規模モデル(LVLM)は、その一つです。しかし、トレーニングやデータの利用可能性に問題があるため、現在のモデルは複雑なシナリオ、例えば複数の画像を含む複数のラウンドの対話などに対応するのが困難であり、各種の相互作用の文脈において適応性とスケーラビリティが制約されています。

Microsoftの研究者たちは、DeepSpeed-VisualChatと名付けました。このフレームワークは、LLMにマルチモーダルの機能を取り込み、70兆のパラメータを持つ言語モデルのサイズでさえ優れたスケーラビリティを示すように設計されました。これにより、複数のラウンドと複数の写真の対話をダイナミックに行うことができます。フレームワークは、マルチモーダル因果関心(MMCA)と呼ばれる方法を使用して、マルチモーダルモデルの適応性と応答性を向上させるために、複数のモダリティにわたって別々に注意の重みを推定します。研究チームは、利用可能なデータセットに関する問題を克服するためにデータのブレンディングアプローチを使用し、豊かで多様なトレーニング環境を実現しました。

DeepSpeed-VisualChatは、DeepSpeedフレームワークを緻密に組み込むことで優れたスケーラビリティが実現されています。このフレームワークは、2兆のパラメータを持つビジョンエンコーダと70兆のパラメータを持つ言語デコーダをLLaMA-2から利用することで、マルチモーダル対話システムにおける可能性の限界を押し、非凡なスケーラビリティを実現しています。

研究者たちは、DeepSpeed-VisualChatのアーキテクチャがMiniGPT4に基づいていることを強調しています。この構造では、画像は事前訓練されたビジョンエンコーダを使用してエンコードされ、その後、線形層を使用してテキスト埋め込み層の隠れ次元との整列を行います。これらの入力は、LLaMA2のような言語モデルに供給され、画期的なマルチモーダル因果関心(MMCA)メカニズムによってサポートされています。この手順中、言語モデルとビジョンエンコーダは凍結されたままであることが重要です。

研究者によると、クラシックなクロスアテンション(CrA)は新たな次元と問題を提供しますが、マルチモーダル因果関心(MMCA)は異なるアプローチを取ります。テキストと画像のトークンに対して、MMCAは別々の注意重み行列を使用し、ビジュアルトークンは自身に、テキストは直前のトークンにフォーカスできるようにします。

実際の結果によると、DeepSpeed-VisualChatは以前のモデルよりもスケーラブル性が優れています。複雑さやトレーニングコストを増加させることなく、さまざまな相互作用シナリオでの適応を向上させます。言語モデルのサイズを70兆のパラメータまでスケーリングすることで、特に優れたスケーラビリティを提供します。この成果は、マルチモーダル言語モデルのさらなる進歩のための堅固な基盤を提供し、重要な一歩となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

人工知能

オンラインプライバシーのためのトップアドブロッカー(2023年)

最も効果的な広告ブロッカーは、現代のウェブを利用するすべての人にとって欠かせない存在です。頻繁に訪れるサイトに関係な...

機械学習

バーゼル大学病院が、「TotalSegmentator」を発表:体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

過去数年間、実施されるCTスキャンの数と利用可能なデータ処理能力は増加してきました。ディープラーニングの進展により、画...

AIニュース

AIは宇宙からメタンの噴出を検出する

新しい機械学習ツールは、高分光衛星からのデータを使用して、宇宙からメタンプルームを自動的に検出します

機械学習

製造品の品質におけるコンピュータビジョンの欠陥検出を、Amazon SageMaker Canvasを使用したノーコード機械学習で民主化する

品質の低下によるコストは、製造業者にとっての最重要課題です品質の欠陥は、廃棄物や再作業のコストを増加させ、スループッ...

AI研究

スタンフォードの研究者たちは「CORNN」という機械学習手法を紹介します:大規模な脳神経記録のリアルタイム分析のためのものです

技術の進歩により、神経科学の研究分野では新たな時代を迎えました。この非凡な力により、生物の脳機能と行動の微妙な関係を...

機械学習

もし、口頭および書面によるコミュニケーションが人間の知能を発展させたのであれば... 言語モデルは一体どうなっているのでしょうか?

人間の知能は、その非凡な認知能力によって、他の種に比べて比類のない存在ですこの知的優位性の原動力は、言語の出現に遡る...