このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです

CoDi-2を紹介します:風景を変える画期的なマルチモーダル大規模言語モデル、インターリーブされた指示処理とマルチモーダルな出力生成で

研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Language Model(MLLM)を利用して、複雑な多モーダル指示の生成と理解の問題に取り組みました。さらに、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいても優れた性能を発揮します。このモデルは包括的な多モーダル基盤の確立において、重要な突破口となります。

CoDi-2は、前身であるCoDiの機能を拡張し、被駆動型画像生成やオーディオ編集といったタスクで優れた性能を発揮します。このモデルのアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれています。トレーニングでは、拡散モデルからのピクセル損失とトークン損失が組み合わされます。CoDi-2は、スタイルの適応や被駆動型生成などのタスクにおいて、顕著なゼロショットおよびフューショットの能力を示します。

CoDi-2は、多モーダル生成における課題に取り組み、ゼロショットの詳細制御、モダリティを交互にする指示の追従、およびマルチラウンドの多モーダルチャットに重点を置いています。LLMをその脳として利用することで、CoDi-2はエンコードおよび生成の過程でモダリティを言語と整合させることができます。このアプローチにより、モデルは複雑な指示を理解し、一貫性のある多モーダル出力を生成することができます。

CoDi-2のアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれており、多モーダルの大規模言語モデル内に組み込まれています。さまざまな生成データセットでトレーニングされたCoDi-2は、トークン損失に加えて拡散モデルからのピクセル損失を利用しています。優れたゼロショットの能力を示し、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいて、競争力のあるパフォーマンスと新しい未知のタスクに対する一般化能力を発揮します。

CoDi-2は、多文脈での学習、推論、任意のモダリティ生成を通じてゼロショットの能力を広範に持ちます。評価結果は、高い競争力のあるゼロショットのパフォーマンスと新しい未知のタスクへの堅牢な一般化を示しています。CoDi-2は、オーディオ編集のタスクで優れたパフォーマンスを達成し、すべてのメトリクスにおいて最低スコアとなる要素の追加、削除、および置換によるパフォーマンスを示します。高品質な多モーダル生成を進化させるために、コンテキストの年齢、概念学習、編集、および詳細な制御の重要性を強調します。

CoDi-2は、複雑な指示の追従、コンテキストでの学習、推論、チャット、および異なる入力-出力モードでの編集など、さまざまなタスクで優れた能力を持つ先進的なAIシステムです。異なるスタイルに適応し、さまざまな主題に基づいたコンテンツを生成し、オーディオを操作する能力においても、多モーダル基盤モデリングにおける重要な突破口となります。CoDi-2は、訓練されていないタスクでも多くのタスクを処理できる包括的なシステムの作成に向けた印象的な探索です。

CoDi-2の将来の展開では、コンテキストでの学習の改善、対話能力の拡張、および追加のモダリティのサポートにより、多モーダルの生成能力を向上させることを計画しています。拡散モデルなどの技術を使用して、画像とオーディオの品質を向上させることも目指しています。将来の研究では、CoDi-2を他のモデルと評価・比較し、その強みと制限を理解することも含まれるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

アマゾンセージメーカーの地理空間機能を使用して、齧歯類の被害を分析する

「ネズミやネズミなどのげっ歯類は、多くの健康リスクと関連しており、35以上の病気を広めることが知られています高いネズミ...

AIニュース

「ChatGPTは人間の創造性テストでトップ1%のスコアを獲得」

人工知能(AI)は、モンタナ大学とそのパートナーによる研究によれば、新たな高みに達しました。この研究では、チャットGPTが...

機械学習

マシンラーニングの革命:光フォトニックアクセラレータでの3D処理の活用による高度な並列処理とエッジコンピューティングの互換性の実現

技術の進歩と機械学習の台頭により、データのボリュームは増加しています。世界のデータ生産は2020年には64.2ゼタバイトに達...

データサイエンス

「PUGに会ってください:メタAIによるアンリアルエンジンを使用したフォトリアルで意味的に制御可能なデータセットを用いた堅牢なモデル評価に関する新しいAI研究」

データの表現を学び、タスク間で応用できるようにすることは、機械学習における高い目標です。評価とトレーニングのための大...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

機械学習

「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」

大規模言語モデル(LLMs)は、自然言語処理と自然言語理解の分野で世界的な評価を受け、非常に人気があります。これにより、...