このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための新手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的または想像力豊かなビデオを作成できます。これらの基礎モデルは、特定の外観、スタイル、および主題に一致する画像の生成にも調整されています。しかし、テキストからビデオ生成への動きのカスタマイズの領域はまだ探求されている必要があります。ユーザーは、車が前進してから左に曲がるなど、特定の動きを持つビデオを作成したい場合があります。そのため、ユーザーの好みに対応するより具体的なコンテンツを作成するために、拡散モデルを適応させることが重要になります。

本論文の著者はMotionDirectorを提案しており、これにより基礎モデルは外観の多様性を維持しながら動きのカスタマイズを達成できます。この技術はデュアルパスアーキテクチャを使用して、単一または複数のリファレンスビデオの外観と動きを別々に学習するモデルを訓練します。これにより、カスタマイズされた動きを他の状況に一般化することが容易になります。

デュアルアーキテクチャは空間パスと時間パスから構成されています。空間パスには、各ビデオのトランスフォーマーレイヤーに組み込まれたトレーニング可能な空間LoRA(低ランク適応)を持つ基礎モデルがあります。これらの空間LoRAは、入力ビデオの視覚的属性を捉えるために、各訓練ステップでランダムに選択された単一のフレームを使用して訓練されます。一方、時間パスは基礎モデルを複製し、空間パスと共有する空間LoRAを使用して、与えられた入力ビデオの外観に適応します。さらに、このパスの時間変換器は、入力ビデオから複数のフレームを使用して訓練された時間LoRAで強化されており、固有のモーションパターンを把握します。

訓練済みの時間LoRAを展開するだけで、基礎モデルは学習した動きを持つビデオを多様な外観で合成することができます。デュアルアーキテクチャにより、モデルはビデオ内のオブジェクトの外観と動きを別々に学習します。この分離により、MotionDirectorはビデオの外観と動きを分離し、さまざまなソースビデオからそれらを組み合わせることが可能です。

研究者は、80以上の異なる動きと600以上のテキストプロンプトを備えたいくつかのベンチマークでMotionDirectorのパフォーマンスを比較しました。UCF Sports Actionベンチマーク(95のビデオと72のテキストプロンプト)では、モーションの保護性について、Human ratersは約75%の時間でMotionDirectorを好みました。この手法は、基本モデルの25%の好みを上回りました。第2のベンチマークであるLOVEU-TGVE-2023ベンチマーク(76のビデオと532のテキストプロンプト)では、MotionDirectorは他の制御可能な生成およびチューニングベースの方法よりも優れたパフォーマンスを発揮しました。結果は、MotionDirectorを使用して多くの基礎モデルをカスタマイズすることで、多様性と所望の動きコンセプトを特徴とするビデオを生成することができることを示しています。

MotionDirectorは、特定の動きを持つビデオを生成するためにテキストからビデオへの拡散モデルを適応させる有望な新しい方法です。これは被写体やカメラの特定の動きを学習し適応することに優れており、幅広い視覚スタイルを持つビデオを生成するために使用することができます。

MotionDirectorの改善点の一つは、リファレンスビデオで複数の被写体の動きを学習することです。ただし、この制約にもかかわらず、MotionDirectorはビデオ生成における柔軟性を向上させる潜在能力を持っており、ユーザーが自分の好みと要件に合わせたビデオを作成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「ChatGPTを使用して高変換率のランディングページを作成する」

「私たちは100のランディングページを分析し、すべての教訓をChatGPTのプロンプトにまとめました自分で確認してください...」

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

人工知能

PaLM 2を紹介します

2023年のGoogle I/Oで、GoogleはPaLM 2という新しい言語モデルを発表しましたこのモデルは、多言語、推論、およびコーディン...

データサイエンス

Zipperを使用してサーバーレスアプリを高速に構築:TypeScriptで記述し、その他のすべてをオフロードする

「Ruby on Railsの良い思い出を振り返った後、私はZipperプラットフォームを発見し、どれだけ速く価値あるものを作れるかを試...

データサイエンス

AlluxioがAI最適化されたデータプラットフォームを発表し、より高速なMLパイプラインを提供します

「AIイニシアチブの価値実現を加速させるために、AIと機械学習のワークロードのフルポテンシャルを引き出す簡素化されたデー...

AIニュース

患者のケアを革新するAI技術

国民保健サービス(NHS)にとって重要な進展がありました。Henry Smith MPは、政府が2,100万ポンドの資金を投じて、最新の人...