このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです

CoDi-2を紹介します:風景を変える画期的なマルチモーダル大規模言語モデル、インターリーブされた指示処理とマルチモーダルな出力生成で

研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Language Model(MLLM)を利用して、複雑な多モーダル指示の生成と理解の問題に取り組みました。さらに、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいても優れた性能を発揮します。このモデルは包括的な多モーダル基盤の確立において、重要な突破口となります。

CoDi-2は、前身であるCoDiの機能を拡張し、被駆動型画像生成やオーディオ編集といったタスクで優れた性能を発揮します。このモデルのアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれています。トレーニングでは、拡散モデルからのピクセル損失とトークン損失が組み合わされます。CoDi-2は、スタイルの適応や被駆動型生成などのタスクにおいて、顕著なゼロショットおよびフューショットの能力を示します。

CoDi-2は、多モーダル生成における課題に取り組み、ゼロショットの詳細制御、モダリティを交互にする指示の追従、およびマルチラウンドの多モーダルチャットに重点を置いています。LLMをその脳として利用することで、CoDi-2はエンコードおよび生成の過程でモダリティを言語と整合させることができます。このアプローチにより、モデルは複雑な指示を理解し、一貫性のある多モーダル出力を生成することができます。

CoDi-2のアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれており、多モーダルの大規模言語モデル内に組み込まれています。さまざまな生成データセットでトレーニングされたCoDi-2は、トークン損失に加えて拡散モデルからのピクセル損失を利用しています。優れたゼロショットの能力を示し、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいて、競争力のあるパフォーマンスと新しい未知のタスクに対する一般化能力を発揮します。

CoDi-2は、多文脈での学習、推論、任意のモダリティ生成を通じてゼロショットの能力を広範に持ちます。評価結果は、高い競争力のあるゼロショットのパフォーマンスと新しい未知のタスクへの堅牢な一般化を示しています。CoDi-2は、オーディオ編集のタスクで優れたパフォーマンスを達成し、すべてのメトリクスにおいて最低スコアとなる要素の追加、削除、および置換によるパフォーマンスを示します。高品質な多モーダル生成を進化させるために、コンテキストの年齢、概念学習、編集、および詳細な制御の重要性を強調します。

CoDi-2は、複雑な指示の追従、コンテキストでの学習、推論、チャット、および異なる入力-出力モードでの編集など、さまざまなタスクで優れた能力を持つ先進的なAIシステムです。異なるスタイルに適応し、さまざまな主題に基づいたコンテンツを生成し、オーディオを操作する能力においても、多モーダル基盤モデリングにおける重要な突破口となります。CoDi-2は、訓練されていないタスクでも多くのタスクを処理できる包括的なシステムの作成に向けた印象的な探索です。

CoDi-2の将来の展開では、コンテキストでの学習の改善、対話能力の拡張、および追加のモダリティのサポートにより、多モーダルの生成能力を向上させることを計画しています。拡散モデルなどの技術を使用して、画像とオーディオの品質を向上させることも目指しています。将来の研究では、CoDi-2を他のモデルと評価・比較し、その強みと制限を理解することも含まれるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

中国の研究者が「FreeMan」という大規模な実世界のマルチビューデータセットを紹介しました

現実世界のシーンから人体の3D構造を推定することは、人工知能、グラフィックス、人間とロボットの相互作用などの分野におい...

データサイエンス

少ないデータ注釈 + より多くのAI = 深いアクティブラーニング

人工知能(AI)モデルのトレーニングには、通常、大量のラベル付きデータが必要です。特に画像認識や自然言語処理などの複雑...

機械学習

「AIとIMOの課題を結ぶ:形式的な平面幾何学システムにおける大発見」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screen...

AIニュース

自動車産業における生成AIの画期的な影響

生成AIは、製造業の進歩、自動化の向上、乗客の福祉と安全性の向上など、自動車産業を含むさまざまな分野で変革的な力として...

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...

人工知能

2023年の最高のAI販売アシスタントツール

人工知能の営業アシスタントソリューションは、バーチャル営業アシスタントとしても知られ、様々な業務を自動化することで営...