マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

Microsoft researcher proposes NUWA-XL new diffusion over-diffusion architecture for ultra-long video generation.

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、ビデオの長さは写真よりも実用的なアプリケーションにおいてはより難しい問題を提起します。映画の平均上映時間は90分以上です。アニメの平均長は30分です。TikTokや他の類似のアプリに適したビデオの理想的なサイズは、21秒から34秒の間です。

Microsoftの研究チームは、長いビデオを作成するための革新的なアーキテクチャを開発しました。既存の多くの研究は、通常、セグメントごとに順次長い映画を生成しますが、これにより短編映画でのトレーニングと大きなビデオでの推論の間にギャップが生じます。順次生成はより効率的であるかもしれません。この新しい方法では、ビデオは粗粒度で同時に生成されます。範囲全体のキーフレームを生成するためにグローバル拡散モデルを適用した後、隣接フレーム間の素材を反復的に埋めるためにローカル拡散モデルを使用します。トレーニングと推論のギャップは、この直感的かつ成功した方法を使用して直接長い映画でトレーニングすることで狭めることができます。

最も重要な貢献は次のとおりです:

  • 研究チームが提案した「Diffusion over Diffusion」アーキテクチャNUWA-XLは、革新的な「粗粒度から細粒度」プロセスとして長いビデオの作成を実現しています。
  • NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、そのようなビデオの生成におけるトレーニングと推論のギャップを埋めています。
  • NUWA-XLによって並列推論が可能になり、長いビデオを生成するために必要な時間を大幅に短縮することができます。1024フレームを生成する際、NUWA-XLは推論を94.26%高速化します。
  • モデルの効果を確認し、拡張ビデオの作成の基準を提供するために、FlintstonesHDの研究チームが新しいデータセットを作成しました。

手法

時間的KLVAE(T-KLVAE)

KLVAEは、ピクセル上で拡散モデルのトレーニングとサンプリングの計算負荷を避けるために、入力画像を低次元の潜在表現に変換する。研究者は、元の空間モジュールに外部の時間的畳み込みとアテンションレイヤーを追加して、事前にトレーニングされた画像KLVAEからビデオへの表面的な知識を転送することで、Temporal KLVAE(T-KLVAE)を提案しています。

時間的マスク拡散(MTD)

提案されたDiffusion over Diffusionアーキテクチャの基礎となる拡散モデルとして、研究者はMasked Temporal Diffusion(MTD)を提案しています。映画の「粗い」ストーリーラインは、グローバル拡散に使用するためにLのプロンプトのみから形成されますが、開始フレームと最後のフレームもローカル拡散のための入力として使用されます。提案されたMTDは、グローバルとローカルの拡散に対応し、開始フレームと最後のフレームの有無に関係なく、入力条件を取ることができます。以下では、異なる入力条件の融合を示すためにUpBlockを使用して、MTDパイプライン全体を説明します。

NUWA-XLが拡張ビデオの品質を向上させ、推論速度を高速化するものの、いくつかの制約があります:まず、研究者はNUWA-XLの有効性を公開されているFlintstonesのようなカートゥーンにのみ確認しています。オープンドメインの長いビデオ(映画やテレビエピソードなど)は現時点では知られていません。オープンドメインの長いビデオデータセットの初期の成功を受けて、彼らは最終的にNUWA-XLをオープンドメインに拡張することを望んでいます。次に、トレーニングと推論のギャップは、長い映画で直接トレーニングすることによって狭めることができますが、データには困難が伴います。最後に、NUWA-XLは推論を高速化することができますが、この改善にはパワフルなグラフィックスプロセッシングユニット(GPU)が必要です。

研究者は、長いビデオの作成を非常に異例な「粗粒度から細粒度」の手順として捉え、NUWA-XLという「Diffusion over Diffusion」アーキテクチャを提案しています。NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、長いビデオ制作におけるトレーニングと推論のギャップを埋めています。NUWA-XLによって並列推論がサポートされ、1024フレームを生成する際にビデオの作成を94.26%高速化します。モデルの効果をさらに検証し、拡張ビデオの作成のためのベンチマークを提供するために、彼らは新しいデータセットFlintstonesHDを構築しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「4つのテック巨人 - OpenAI、Google、Microsoft、Anthropicが安全なAIのために結集」

人工知能の世界で最も有名な4社が、先進的なAIモデルの責任ある開発を確保するための強力な業界団体の設立を目指し、連携する...

データサイエンス

「力強いコネクティビティ:IoTにおけるエッジコンピューティングの復興」

エッジコンピューティングとIoTがリアルタイムの効率化、帯域幅の最適化、およびイノベーションのために結集します課題はまだ...

AI研究

ワシントン大学とNVIDIAからの研究者が提案するヒューマノイドエージェント:生成エージェントの人間のようなシミュレーションのための人工知能プラットフォーム

人間のような生成エージェントは、自然で魅力的なユーザーインタラクションを提供するために、チャットボットや仮想アシスタ...

AI研究

清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました

深層学習の教師ありタスクにおける最近の成果は、大量のラベル付きトレーニングデータの利用可能性によるものです。しかし、...

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...