このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための新手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的または想像力豊かなビデオを作成できます。これらの基礎モデルは、特定の外観、スタイル、および主題に一致する画像の生成にも調整されています。しかし、テキストからビデオ生成への動きのカスタマイズの領域はまだ探求されている必要があります。ユーザーは、車が前進してから左に曲がるなど、特定の動きを持つビデオを作成したい場合があります。そのため、ユーザーの好みに対応するより具体的なコンテンツを作成するために、拡散モデルを適応させることが重要になります。

本論文の著者はMotionDirectorを提案しており、これにより基礎モデルは外観の多様性を維持しながら動きのカスタマイズを達成できます。この技術はデュアルパスアーキテクチャを使用して、単一または複数のリファレンスビデオの外観と動きを別々に学習するモデルを訓練します。これにより、カスタマイズされた動きを他の状況に一般化することが容易になります。

デュアルアーキテクチャは空間パスと時間パスから構成されています。空間パスには、各ビデオのトランスフォーマーレイヤーに組み込まれたトレーニング可能な空間LoRA(低ランク適応)を持つ基礎モデルがあります。これらの空間LoRAは、入力ビデオの視覚的属性を捉えるために、各訓練ステップでランダムに選択された単一のフレームを使用して訓練されます。一方、時間パスは基礎モデルを複製し、空間パスと共有する空間LoRAを使用して、与えられた入力ビデオの外観に適応します。さらに、このパスの時間変換器は、入力ビデオから複数のフレームを使用して訓練された時間LoRAで強化されており、固有のモーションパターンを把握します。

訓練済みの時間LoRAを展開するだけで、基礎モデルは学習した動きを持つビデオを多様な外観で合成することができます。デュアルアーキテクチャにより、モデルはビデオ内のオブジェクトの外観と動きを別々に学習します。この分離により、MotionDirectorはビデオの外観と動きを分離し、さまざまなソースビデオからそれらを組み合わせることが可能です。

研究者は、80以上の異なる動きと600以上のテキストプロンプトを備えたいくつかのベンチマークでMotionDirectorのパフォーマンスを比較しました。UCF Sports Actionベンチマーク(95のビデオと72のテキストプロンプト)では、モーションの保護性について、Human ratersは約75%の時間でMotionDirectorを好みました。この手法は、基本モデルの25%の好みを上回りました。第2のベンチマークであるLOVEU-TGVE-2023ベンチマーク(76のビデオと532のテキストプロンプト)では、MotionDirectorは他の制御可能な生成およびチューニングベースの方法よりも優れたパフォーマンスを発揮しました。結果は、MotionDirectorを使用して多くの基礎モデルをカスタマイズすることで、多様性と所望の動きコンセプトを特徴とするビデオを生成することができることを示しています。

MotionDirectorは、特定の動きを持つビデオを生成するためにテキストからビデオへの拡散モデルを適応させる有望な新しい方法です。これは被写体やカメラの特定の動きを学習し適応することに優れており、幅広い視覚スタイルを持つビデオを生成するために使用することができます。

MotionDirectorの改善点の一つは、リファレンスビデオで複数の被写体の動きを学習することです。ただし、この制約にもかかわらず、MotionDirectorはビデオ生成における柔軟性を向上させる潜在能力を持っており、ユーザーが自分の好みと要件に合わせたビデオを作成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータ...

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...

データサイエンス

「力強いコネクティビティ:IoTにおけるエッジコンピューティングの復興」

エッジコンピューティングとIoTがリアルタイムの効率化、帯域幅の最適化、およびイノベーションのために結集します課題はまだ...

人工知能

最近の記録的な売上で.AIドメイン名の価値が急上昇しています

2023年には.aiドメイン名の取引価値が著しい増加を見ています元々、「.ai」はアンギラの国別コードトップレベルドメイン(ccT...

データサイエンス

「Pythonクライアントを使用してMyScaleを始める」

「マイスケールの基本から、テーブルの作成やインデックスの定義などを学び、上級のSQLベクトル検索までを探求してくださいな...

AIニュース

バーディーンChatGPTプラグインの使い方

この記事では、Bardeen ChatGPTプラグインを使って嫌な仕事を自動化する方法を紹介します