このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための新手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的または想像力豊かなビデオを作成できます。これらの基礎モデルは、特定の外観、スタイル、および主題に一致する画像の生成にも調整されています。しかし、テキストからビデオ生成への動きのカスタマイズの領域はまだ探求されている必要があります。ユーザーは、車が前進してから左に曲がるなど、特定の動きを持つビデオを作成したい場合があります。そのため、ユーザーの好みに対応するより具体的なコンテンツを作成するために、拡散モデルを適応させることが重要になります。

本論文の著者はMotionDirectorを提案しており、これにより基礎モデルは外観の多様性を維持しながら動きのカスタマイズを達成できます。この技術はデュアルパスアーキテクチャを使用して、単一または複数のリファレンスビデオの外観と動きを別々に学習するモデルを訓練します。これにより、カスタマイズされた動きを他の状況に一般化することが容易になります。

デュアルアーキテクチャは空間パスと時間パスから構成されています。空間パスには、各ビデオのトランスフォーマーレイヤーに組み込まれたトレーニング可能な空間LoRA(低ランク適応)を持つ基礎モデルがあります。これらの空間LoRAは、入力ビデオの視覚的属性を捉えるために、各訓練ステップでランダムに選択された単一のフレームを使用して訓練されます。一方、時間パスは基礎モデルを複製し、空間パスと共有する空間LoRAを使用して、与えられた入力ビデオの外観に適応します。さらに、このパスの時間変換器は、入力ビデオから複数のフレームを使用して訓練された時間LoRAで強化されており、固有のモーションパターンを把握します。

訓練済みの時間LoRAを展開するだけで、基礎モデルは学習した動きを持つビデオを多様な外観で合成することができます。デュアルアーキテクチャにより、モデルはビデオ内のオブジェクトの外観と動きを別々に学習します。この分離により、MotionDirectorはビデオの外観と動きを分離し、さまざまなソースビデオからそれらを組み合わせることが可能です。

研究者は、80以上の異なる動きと600以上のテキストプロンプトを備えたいくつかのベンチマークでMotionDirectorのパフォーマンスを比較しました。UCF Sports Actionベンチマーク(95のビデオと72のテキストプロンプト)では、モーションの保護性について、Human ratersは約75%の時間でMotionDirectorを好みました。この手法は、基本モデルの25%の好みを上回りました。第2のベンチマークであるLOVEU-TGVE-2023ベンチマーク(76のビデオと532のテキストプロンプト)では、MotionDirectorは他の制御可能な生成およびチューニングベースの方法よりも優れたパフォーマンスを発揮しました。結果は、MotionDirectorを使用して多くの基礎モデルをカスタマイズすることで、多様性と所望の動きコンセプトを特徴とするビデオを生成することができることを示しています。

MotionDirectorは、特定の動きを持つビデオを生成するためにテキストからビデオへの拡散モデルを適応させる有望な新しい方法です。これは被写体やカメラの特定の動きを学習し適応することに優れており、幅広い視覚スタイルを持つビデオを生成するために使用することができます。

MotionDirectorの改善点の一つは、リファレンスビデオで複数の被写体の動きを学習することです。ただし、この制約にもかかわらず、MotionDirectorはビデオ生成における柔軟性を向上させる潜在能力を持っており、ユーザーが自分の好みと要件に合わせたビデオを作成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械に学習させ、そして彼らが私たちに再学習をさせる:AIの構築の再帰的性質」

「建築デザインの選択が集団の規範にどのように影響を与えるかを探索し、トレーニング技術がAIシステムを形作り、それが再帰...

AIテクノロジー

ヨーロッパのAI最大手MISTRAL AIが3億8500万ユーロを調達

技術のダイナミックな世界では、人工知能(AI)が産業を再構築している中、フランスのスタートアップ企業であるMistral AIが...

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

人工知能

「Cassandra To-Doリスト ChatGPTプラグインの構築」

「Cassandraのステップバイステップガイド:ChatGPTプラグインを実装して、自分のやるべきことリストを管理するための仮想パ...

データサイエンス

「タイムシリーズの拡張」

「拡張機能は、コンピュータビジョンパイプラインの領域において欠かせない要素となってきましたしかし、タイムシリーズなど...

AIニュース

ChatGPTでお金を稼ぐ5つの方法

もしChatGPTでお金を稼げるとは信じていないなら、この記事の終わりまでには信じるようになるでしょう