「DISCOに会おう:人間のダンス生成のための革新的なAI技術」
DISCOに会おう:AI技術での人間のダンス生成
生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の進歩(Text-to-Image(T2I)およびText-to-Video(T2V)など)、拡散モデルの登場により、顕著な忠実度と生成品質が示されました。これらの進歩は、画像およびビデオの合成、編集、アニメーションの潜在能力を示しています。ただし、合成された画像/ビデオは、特に人間中心の人間ダンス合成などの人間ダンス合成の歴史が長いにもかかわらず、合成されたコンテンツと現実世界のダンスシナリオの間には大きなギャップがあります。
Generative Adversarial Networks(GAN)の時代から、研究者は、ソースビデオからターゲット個人にダンス動作を転送するためのビデオからビデオへのスタイル変換を拡張するために、しばしばターゲット人物への人間特有の微調整を必要とします。
最近の一連の研究では、事前にトレーニングされた拡散ベースのT2I/T2Vモデルを使用して、テキストプロンプトに基づいてダンス画像/ビデオを生成することが提案されています。このような粗い制御条件は、ユーザーが予想される主題(人間の外観)やダンスの動き(人間のポーズ)を正確に指定することをほとんど不可能にします。
ControlNetの導入により、ジオメトリヒューマンキーポイントとのポーズ制御を組み合わせることで、この問題が部分的に緩和されますが、テキストプロンプトに依存するため、制御ネットがリファレンスイメージの人間の外観などの豊かな意味の一貫性を確保できるかどうかは明確ではありません。さらに、限られたダンスビデオデータセットでトレーニングされたほとんどすべての既存の手法は、限られた主体属性または極度に単純化されたシーンと背景のいずれかに苦しんでいます。これは、人間の主体、ポーズ、および背景の未知の組成に対するゼロショットの一般化能力が低くなる原因となります。
ユーザー固有のショートビデオコンテンツ生成などの現実のアプリケーションをサポートするためには、人間のダンス生成は実世界のダンスシナリオに準拠する必要があります。したがって、生成モデルは、以下の特性を持つ人間のダンス画像/ビデオを合成することが期待されています:忠実度、一般化能力、および合成性。
生成された画像/ビデオは、参照画像と一貫性のある人間の主体と背景の外観を保持しながら、提供されたポーズを正確に追従することによって、忠実度を示すべきです。モデルはまた、ユーザー固有の微調整を必要とせずに、未知の人間の主体、背景、およびポーズを扱うことによって、一般化能力を示すべきです。最後に、生成された画像/ビデオは、異なる画像/ビデオから取得された人間の主体、背景、およびポーズの任意の組み合わせを可能にする合成性を示すべきです。
この点において、DISCOと呼ばれる画期的なアプローチが提案されています。DISCOのアプローチの概要は、以下の図に示されています。
DISCOは、改善された忠実度と合成性のための分離制御を持つ画期的なモデルアーキテクチャと、より優れた一般化能力のための人間属性事前トレーニングという2つの主要な設計を組み合わせています。DISCOの画期的なモデルアーキテクチャは、生成されたダンス画像/ビデオが望ましい人間の主体、背景、およびポーズを忠実に捉える一方で、これらの要素の柔軟な組み合わせを可能にします。さらに、分離制御は、モデルが忠実な表現を維持し、多様な組成を受け入れる能力を向上させます。さらに、DISCOは、人間属性の事前トレーニング戦略を使用して、モデルの一般化能力を強化します。この事前トレーニング技術により、モデルは未知の人間属性を処理する能力を備えるため、トレーニングデータの制限を超えた高品質のダンスコンテンツを生成することができます。全体として、DISCOは、洗練されたモデルアーキテクチャと革新的な事前トレーニング戦略を組み合わせた包括的なソリューションを提供し、現実のダンスシナリオでの人間のダンス生成の課題に効果的に対処します。
以下に結果を示し、人間のダンス生成の最新技術とDISCOとの比較を行います。
これはDISCOの要約です。DISCOは、人間のダンスを生成するための新しいAI技術です。興味があり、この研究についてもっと詳しく知りたい場合は、以下のリンクをクリックしてさらなる情報を見つけることができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「勝つための機械学習の履歴書の作り方」
- 「インプレッションGPT:放射線学報告書要約のためのChatGPTベースの反復最適化フレームワークに会いましょう」
- 「機械学習タスクの自動化:MLCopilotがLLMを活用して開発者を支援し、機械学習プロセスを効率化する方法」
- メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します
- 言語ドメインにおける画期的かつオープンソースの対話型AIモデルのリスト
- 「最適化によるAIトレーニングにおける二酸化炭素排出量の削減」
- PoisonGPTとは:それ以外は信頼されたLLMサプライチェーンに悪意のあるモデルを導入するためのAI手法