「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

DISCOに会おう:AI技術での人間のダンス生成

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の進歩(Text-to-Image(T2I)およびText-to-Video(T2V)など)、拡散モデルの登場により、顕著な忠実度と生成品質が示されました。これらの進歩は、画像およびビデオの合成、編集、アニメーションの潜在能力を示しています。ただし、合成された画像/ビデオは、特に人間中心の人間ダンス合成などの人間ダンス合成の歴史が長いにもかかわらず、合成されたコンテンツと現実世界のダンスシナリオの間には大きなギャップがあります。

Generative Adversarial Networks(GAN)の時代から、研究者は、ソースビデオからターゲット個人にダンス動作を転送するためのビデオからビデオへのスタイル変換を拡張するために、しばしばターゲット人物への人間特有の微調整を必要とします。

最近の一連の研究では、事前にトレーニングされた拡散ベースのT2I/T2Vモデルを使用して、テキストプロンプトに基づいてダンス画像/ビデオを生成することが提案されています。このような粗い制御条件は、ユーザーが予想される主題(人間の外観)やダンスの動き(人間のポーズ)を正確に指定することをほとんど不可能にします。

ControlNetの導入により、ジオメトリヒューマンキーポイントとのポーズ制御を組み合わせることで、この問題が部分的に緩和されますが、テキストプロンプトに依存するため、制御ネットがリファレンスイメージの人間の外観などの豊かな意味の一貫性を確保できるかどうかは明確ではありません。さらに、限られたダンスビデオデータセットでトレーニングされたほとんどすべての既存の手法は、限られた主体属性または極度に単純化されたシーンと背景のいずれかに苦しんでいます。これは、人間の主体、ポーズ、および背景の未知の組成に対するゼロショットの一般化能力が低くなる原因となります。

ユーザー固有のショートビデオコンテンツ生成などの現実のアプリケーションをサポートするためには、人間のダンス生成は実世界のダンスシナリオに準拠する必要があります。したがって、生成モデルは、以下の特性を持つ人間のダンス画像/ビデオを合成することが期待されています:忠実度、一般化能力、および合成性。

生成された画像/ビデオは、参照画像と一貫性のある人間の主体と背景の外観を保持しながら、提供されたポーズを正確に追従することによって、忠実度を示すべきです。モデルはまた、ユーザー固有の微調整を必要とせずに、未知の人間の主体、背景、およびポーズを扱うことによって、一般化能力を示すべきです。最後に、生成された画像/ビデオは、異なる画像/ビデオから取得された人間の主体、背景、およびポーズの任意の組み合わせを可能にする合成性を示すべきです。

この点において、DISCOと呼ばれる画期的なアプローチが提案されています。DISCOのアプローチの概要は、以下の図に示されています。

https://arxiv.org/abs/2307.00040

DISCOは、改善された忠実度と合成性のための分離制御を持つ画期的なモデルアーキテクチャと、より優れた一般化能力のための人間属性事前トレーニングという2つの主要な設計を組み合わせています。DISCOの画期的なモデルアーキテクチャは、生成されたダンス画像/ビデオが望ましい人間の主体、背景、およびポーズを忠実に捉える一方で、これらの要素の柔軟な組み合わせを可能にします。さらに、分離制御は、モデルが忠実な表現を維持し、多様な組成を受け入れる能力を向上させます。さらに、DISCOは、人間属性の事前トレーニング戦略を使用して、モデルの一般化能力を強化します。この事前トレーニング技術により、モデルは未知の人間属性を処理する能力を備えるため、トレーニングデータの制限を超えた高品質のダンスコンテンツを生成することができます。全体として、DISCOは、洗練されたモデルアーキテクチャと革新的な事前トレーニング戦略を組み合わせた包括的なソリューションを提供し、現実のダンスシナリオでの人間のダンス生成の課題に効果的に対処します。

以下に結果を示し、人間のダンス生成の最新技術とDISCOとの比較を行います。

https://arxiv.org/abs/2307.00040

これはDISCOの要約です。DISCOは、人間のダンスを生成するための新しいAI技術です。興味があり、この研究についてもっと詳しく知りたい場合は、以下のリンクをクリックしてさらなる情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習...

人工知能

文法AIの向上にBERTを活用する:スロット埋め込みの力

イントロダクション 会話型AI時代において、チャットボットや仮想アシスタントは普及し、私たちがテクノロジーとの対話を革新...

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

AI研究

この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語...

機械学習

革新的なAI会社Ludaが革命的なリアルタイム強化学習システムを発表

2023年9月27日、テクノロジー界は画期的な出来事を経験しましたLudaという革新的な企業が人工知能(AI)の普及を目指して登場...

コンピュータサイエンス

ジェイソン・アーボン:「100万年後、超強力なコンピュータは私たちの時代のテスターを尊重するでしょう」

「AIのテストにおける利用、やや公平でないマニュアルQA vs. 自動化QAの葛藤、指数関数的に発展する新しい技術によるテスター...