このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための新手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的または想像力豊かなビデオを作成できます。これらの基礎モデルは、特定の外観、スタイル、および主題に一致する画像の生成にも調整されています。しかし、テキストからビデオ生成への動きのカスタマイズの領域はまだ探求されている必要があります。ユーザーは、車が前進してから左に曲がるなど、特定の動きを持つビデオを作成したい場合があります。そのため、ユーザーの好みに対応するより具体的なコンテンツを作成するために、拡散モデルを適応させることが重要になります。

本論文の著者はMotionDirectorを提案しており、これにより基礎モデルは外観の多様性を維持しながら動きのカスタマイズを達成できます。この技術はデュアルパスアーキテクチャを使用して、単一または複数のリファレンスビデオの外観と動きを別々に学習するモデルを訓練します。これにより、カスタマイズされた動きを他の状況に一般化することが容易になります。

デュアルアーキテクチャは空間パスと時間パスから構成されています。空間パスには、各ビデオのトランスフォーマーレイヤーに組み込まれたトレーニング可能な空間LoRA(低ランク適応)を持つ基礎モデルがあります。これらの空間LoRAは、入力ビデオの視覚的属性を捉えるために、各訓練ステップでランダムに選択された単一のフレームを使用して訓練されます。一方、時間パスは基礎モデルを複製し、空間パスと共有する空間LoRAを使用して、与えられた入力ビデオの外観に適応します。さらに、このパスの時間変換器は、入力ビデオから複数のフレームを使用して訓練された時間LoRAで強化されており、固有のモーションパターンを把握します。

訓練済みの時間LoRAを展開するだけで、基礎モデルは学習した動きを持つビデオを多様な外観で合成することができます。デュアルアーキテクチャにより、モデルはビデオ内のオブジェクトの外観と動きを別々に学習します。この分離により、MotionDirectorはビデオの外観と動きを分離し、さまざまなソースビデオからそれらを組み合わせることが可能です。

研究者は、80以上の異なる動きと600以上のテキストプロンプトを備えたいくつかのベンチマークでMotionDirectorのパフォーマンスを比較しました。UCF Sports Actionベンチマーク(95のビデオと72のテキストプロンプト)では、モーションの保護性について、Human ratersは約75%の時間でMotionDirectorを好みました。この手法は、基本モデルの25%の好みを上回りました。第2のベンチマークであるLOVEU-TGVE-2023ベンチマーク(76のビデオと532のテキストプロンプト)では、MotionDirectorは他の制御可能な生成およびチューニングベースの方法よりも優れたパフォーマンスを発揮しました。結果は、MotionDirectorを使用して多くの基礎モデルをカスタマイズすることで、多様性と所望の動きコンセプトを特徴とするビデオを生成することができることを示しています。

MotionDirectorは、特定の動きを持つビデオを生成するためにテキストからビデオへの拡散モデルを適応させる有望な新しい方法です。これは被写体やカメラの特定の動きを学習し適応することに優れており、幅広い視覚スタイルを持つビデオを生成するために使用することができます。

MotionDirectorの改善点の一つは、リファレンスビデオで複数の被写体の動きを学習することです。ただし、この制約にもかかわらず、MotionDirectorはビデオ生成における柔軟性を向上させる潜在能力を持っており、ユーザーが自分の好みと要件に合わせたビデオを作成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、...

機械学習

AIの時代のコーディング:ChatGPTの役割と次世代プログラミング

ChatGPTはデジタルの世界を変えつつあり、プログラミングも例外ではありませんプログラマーにどのように助けられ、コーディン...

機械学習

人間とAIの協力

「AIと人間の知能の関係を探求する中で、最近のGenAIの出現は、その人間の知能を超越する能力について疑問を投げかけています」

機械学習

「生成AIプロジェクトライフサイクル」

「Generative AI プロジェクトの詳細なライフサイクルを発見してくださいこのブログでは、このエキサイティングな AI の世界...

機械学習

「ChatGPT Visionのすごい活用方法」

「これらの新しい画像機能により、ChatGPTを利用する新しい方法の世界が広がります」

機械学習

AI医療診断はどのように動作しますか?

医療分野では、人工知能(AI)が診断や治療計画においてますます頻繁に使用されるようになっています。近年、AIと機械学習は...