「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

DISCOに会おう:AI技術での人間のダンス生成

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の進歩(Text-to-Image(T2I)およびText-to-Video(T2V)など)、拡散モデルの登場により、顕著な忠実度と生成品質が示されました。これらの進歩は、画像およびビデオの合成、編集、アニメーションの潜在能力を示しています。ただし、合成された画像/ビデオは、特に人間中心の人間ダンス合成などの人間ダンス合成の歴史が長いにもかかわらず、合成されたコンテンツと現実世界のダンスシナリオの間には大きなギャップがあります。

Generative Adversarial Networks(GAN)の時代から、研究者は、ソースビデオからターゲット個人にダンス動作を転送するためのビデオからビデオへのスタイル変換を拡張するために、しばしばターゲット人物への人間特有の微調整を必要とします。

最近の一連の研究では、事前にトレーニングされた拡散ベースのT2I/T2Vモデルを使用して、テキストプロンプトに基づいてダンス画像/ビデオを生成することが提案されています。このような粗い制御条件は、ユーザーが予想される主題(人間の外観)やダンスの動き(人間のポーズ)を正確に指定することをほとんど不可能にします。

ControlNetの導入により、ジオメトリヒューマンキーポイントとのポーズ制御を組み合わせることで、この問題が部分的に緩和されますが、テキストプロンプトに依存するため、制御ネットがリファレンスイメージの人間の外観などの豊かな意味の一貫性を確保できるかどうかは明確ではありません。さらに、限られたダンスビデオデータセットでトレーニングされたほとんどすべての既存の手法は、限られた主体属性または極度に単純化されたシーンと背景のいずれかに苦しんでいます。これは、人間の主体、ポーズ、および背景の未知の組成に対するゼロショットの一般化能力が低くなる原因となります。

ユーザー固有のショートビデオコンテンツ生成などの現実のアプリケーションをサポートするためには、人間のダンス生成は実世界のダンスシナリオに準拠する必要があります。したがって、生成モデルは、以下の特性を持つ人間のダンス画像/ビデオを合成することが期待されています:忠実度、一般化能力、および合成性。

生成された画像/ビデオは、参照画像と一貫性のある人間の主体と背景の外観を保持しながら、提供されたポーズを正確に追従することによって、忠実度を示すべきです。モデルはまた、ユーザー固有の微調整を必要とせずに、未知の人間の主体、背景、およびポーズを扱うことによって、一般化能力を示すべきです。最後に、生成された画像/ビデオは、異なる画像/ビデオから取得された人間の主体、背景、およびポーズの任意の組み合わせを可能にする合成性を示すべきです。

この点において、DISCOと呼ばれる画期的なアプローチが提案されています。DISCOのアプローチの概要は、以下の図に示されています。

https://arxiv.org/abs/2307.00040

DISCOは、改善された忠実度と合成性のための分離制御を持つ画期的なモデルアーキテクチャと、より優れた一般化能力のための人間属性事前トレーニングという2つの主要な設計を組み合わせています。DISCOの画期的なモデルアーキテクチャは、生成されたダンス画像/ビデオが望ましい人間の主体、背景、およびポーズを忠実に捉える一方で、これらの要素の柔軟な組み合わせを可能にします。さらに、分離制御は、モデルが忠実な表現を維持し、多様な組成を受け入れる能力を向上させます。さらに、DISCOは、人間属性の事前トレーニング戦略を使用して、モデルの一般化能力を強化します。この事前トレーニング技術により、モデルは未知の人間属性を処理する能力を備えるため、トレーニングデータの制限を超えた高品質のダンスコンテンツを生成することができます。全体として、DISCOは、洗練されたモデルアーキテクチャと革新的な事前トレーニング戦略を組み合わせた包括的なソリューションを提供し、現実のダンスシナリオでの人間のダンス生成の課題に効果的に対処します。

以下に結果を示し、人間のダンス生成の最新技術とDISCOとの比較を行います。

https://arxiv.org/abs/2307.00040

これはDISCOの要約です。DISCOは、人間のダンスを生成するための新しいAI技術です。興味があり、この研究についてもっと詳しく知りたい場合は、以下のリンクをクリックしてさらなる情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

2023年に使用するための11つのAIビデオジェネレータ:テキストからビデオへの変換

AIの最も注目すべき表現の一つは、AIビデオジェネレーターの登場です。これにより、テキストとビジュアルの間の隔たりをなく...

AI研究

新しいディープラーニングの研究で、抗マラリア薬が骨粗しょう症の可能な治療薬として特定されました

骨粗鬆症は、骨の過剰な喪失と骨折のリスクが高まる状態を特徴とする疾患で、長年にわたり高齢者に悩み続けてきました。健康...

機械学習

「OpenAIは、パーソナライズされたAIインタラクションのためのChatGPTのカスタムインストラクションを開始」

OpenAIは、AI言語モデルChatGPTのユーザーコントロールを向上させるために、新しい機能「カスタムインストラクション」を導入...

データサイエンス

「メタは、トレーニングにLLaMAモデルを使用するために著作権のある本を使用し、著者たちは訴訟を起こしています」

Meta Platforms、以前のFacebookとして知られる企業が、コメディアンのサラ・シルバーマンやピュリッツァー賞受賞者のマイケ...

データサイエンス

機械はジェンAIを使用してお互いに英語で対話すべきでしょうか?

「私たちの機械に英語で会話することを教えることで、アプリケーションやデータの統合に関するまだ解決策の見えていない課題...

AIニュース

「Microsoft Azureは、企業向けAIのためのChatGPTをリリースしました」

マイクロソフトAzureは、ChatGPTを導入することにより、エンタープライズAIの大きな飛躍を遂げています。Azure OpenAI Servic...