このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです

CoDi-2を紹介します:風景を変える画期的なマルチモーダル大規模言語モデル、インターリーブされた指示処理とマルチモーダルな出力生成で

研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Language Model(MLLM)を利用して、複雑な多モーダル指示の生成と理解の問題に取り組みました。さらに、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいても優れた性能を発揮します。このモデルは包括的な多モーダル基盤の確立において、重要な突破口となります。

CoDi-2は、前身であるCoDiの機能を拡張し、被駆動型画像生成やオーディオ編集といったタスクで優れた性能を発揮します。このモデルのアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれています。トレーニングでは、拡散モデルからのピクセル損失とトークン損失が組み合わされます。CoDi-2は、スタイルの適応や被駆動型生成などのタスクにおいて、顕著なゼロショットおよびフューショットの能力を示します。

CoDi-2は、多モーダル生成における課題に取り組み、ゼロショットの詳細制御、モダリティを交互にする指示の追従、およびマルチラウンドの多モーダルチャットに重点を置いています。LLMをその脳として利用することで、CoDi-2はエンコードおよび生成の過程でモダリティを言語と整合させることができます。このアプローチにより、モデルは複雑な指示を理解し、一貫性のある多モーダル出力を生成することができます。

CoDi-2のアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれており、多モーダルの大規模言語モデル内に組み込まれています。さまざまな生成データセットでトレーニングされたCoDi-2は、トークン損失に加えて拡散モデルからのピクセル損失を利用しています。優れたゼロショットの能力を示し、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいて、競争力のあるパフォーマンスと新しい未知のタスクに対する一般化能力を発揮します。

CoDi-2は、多文脈での学習、推論、任意のモダリティ生成を通じてゼロショットの能力を広範に持ちます。評価結果は、高い競争力のあるゼロショットのパフォーマンスと新しい未知のタスクへの堅牢な一般化を示しています。CoDi-2は、オーディオ編集のタスクで優れたパフォーマンスを達成し、すべてのメトリクスにおいて最低スコアとなる要素の追加、削除、および置換によるパフォーマンスを示します。高品質な多モーダル生成を進化させるために、コンテキストの年齢、概念学習、編集、および詳細な制御の重要性を強調します。

CoDi-2は、複雑な指示の追従、コンテキストでの学習、推論、チャット、および異なる入力-出力モードでの編集など、さまざまなタスクで優れた能力を持つ先進的なAIシステムです。異なるスタイルに適応し、さまざまな主題に基づいたコンテンツを生成し、オーディオを操作する能力においても、多モーダル基盤モデリングにおける重要な突破口となります。CoDi-2は、訓練されていないタスクでも多くのタスクを処理できる包括的なシステムの作成に向けた印象的な探索です。

CoDi-2の将来の展開では、コンテキストでの学習の改善、対話能力の拡張、および追加のモダリティのサポートにより、多モーダルの生成能力を向上させることを計画しています。拡散モデルなどの技術を使用して、画像とオーディオの品質を向上させることも目指しています。将来の研究では、CoDi-2を他のモデルと評価・比較し、その強みと制限を理解することも含まれるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIによる光通信の加速化

通信効率の向上は、光フォトニクス技術を人工知能に導入するのに役立ちます

データサイエンス

データウェアハウス:情報ストレージの不滅の巨人たち

データウェアハウスは、今や従来のITインフラストラクチャーの外で運用されていますこの産業は常に進化しており、一つの汎用...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...

AIテクノロジー

デイビッド・オーターさんがNOMIS 2023年度の著名科学者に選ばれました

NOMIS財団は、技術革新やグローバル化が労働者の仕事と収入の見通しに与える影響を理解するための貢献に対して、フォード経済...

AI研究

Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました

Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推...