マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

Microsoft researcher proposes NUWA-XL new diffusion over-diffusion architecture for ultra-long video generation.

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、ビデオの長さは写真よりも実用的なアプリケーションにおいてはより難しい問題を提起します。映画の平均上映時間は90分以上です。アニメの平均長は30分です。TikTokや他の類似のアプリに適したビデオの理想的なサイズは、21秒から34秒の間です。

Microsoftの研究チームは、長いビデオを作成するための革新的なアーキテクチャを開発しました。既存の多くの研究は、通常、セグメントごとに順次長い映画を生成しますが、これにより短編映画でのトレーニングと大きなビデオでの推論の間にギャップが生じます。順次生成はより効率的であるかもしれません。この新しい方法では、ビデオは粗粒度で同時に生成されます。範囲全体のキーフレームを生成するためにグローバル拡散モデルを適用した後、隣接フレーム間の素材を反復的に埋めるためにローカル拡散モデルを使用します。トレーニングと推論のギャップは、この直感的かつ成功した方法を使用して直接長い映画でトレーニングすることで狭めることができます。

最も重要な貢献は次のとおりです:

  • 研究チームが提案した「Diffusion over Diffusion」アーキテクチャNUWA-XLは、革新的な「粗粒度から細粒度」プロセスとして長いビデオの作成を実現しています。
  • NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、そのようなビデオの生成におけるトレーニングと推論のギャップを埋めています。
  • NUWA-XLによって並列推論が可能になり、長いビデオを生成するために必要な時間を大幅に短縮することができます。1024フレームを生成する際、NUWA-XLは推論を94.26%高速化します。
  • モデルの効果を確認し、拡張ビデオの作成の基準を提供するために、FlintstonesHDの研究チームが新しいデータセットを作成しました。

手法

時間的KLVAE(T-KLVAE)

KLVAEは、ピクセル上で拡散モデルのトレーニングとサンプリングの計算負荷を避けるために、入力画像を低次元の潜在表現に変換する。研究者は、元の空間モジュールに外部の時間的畳み込みとアテンションレイヤーを追加して、事前にトレーニングされた画像KLVAEからビデオへの表面的な知識を転送することで、Temporal KLVAE(T-KLVAE)を提案しています。

時間的マスク拡散(MTD)

提案されたDiffusion over Diffusionアーキテクチャの基礎となる拡散モデルとして、研究者はMasked Temporal Diffusion(MTD)を提案しています。映画の「粗い」ストーリーラインは、グローバル拡散に使用するためにLのプロンプトのみから形成されますが、開始フレームと最後のフレームもローカル拡散のための入力として使用されます。提案されたMTDは、グローバルとローカルの拡散に対応し、開始フレームと最後のフレームの有無に関係なく、入力条件を取ることができます。以下では、異なる入力条件の融合を示すためにUpBlockを使用して、MTDパイプライン全体を説明します。

NUWA-XLが拡張ビデオの品質を向上させ、推論速度を高速化するものの、いくつかの制約があります:まず、研究者はNUWA-XLの有効性を公開されているFlintstonesのようなカートゥーンにのみ確認しています。オープンドメインの長いビデオ(映画やテレビエピソードなど)は現時点では知られていません。オープンドメインの長いビデオデータセットの初期の成功を受けて、彼らは最終的にNUWA-XLをオープンドメインに拡張することを望んでいます。次に、トレーニングと推論のギャップは、長い映画で直接トレーニングすることによって狭めることができますが、データには困難が伴います。最後に、NUWA-XLは推論を高速化することができますが、この改善にはパワフルなグラフィックスプロセッシングユニット(GPU)が必要です。

研究者は、長いビデオの作成を非常に異例な「粗粒度から細粒度」の手順として捉え、NUWA-XLという「Diffusion over Diffusion」アーキテクチャを提案しています。NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、長いビデオ制作におけるトレーニングと推論のギャップを埋めています。NUWA-XLによって並列推論がサポートされ、1024フレームを生成する際にビデオの作成を94.26%高速化します。モデルの効果をさらに検証し、拡張ビデオの作成のためのベンチマークを提供するために、彼らは新しいデータセットFlintstonesHDを構築しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Amazon SageMaker JumpStart上で、生成型AIベースのコンテンツモデレーションソリューションを構築する」

この記事では、マルチモーダルな事前学習と大規模な言語モデル(LLM)を使用した画像データのコンテンツモデレーションの新し...

AI研究

材料研究を革新するための機械学習の活用

素材科学の領域では、研究者は原子スケールで物質の複雑な振る舞いを解明するという大きな課題に直面しています。イネラステ...

機械学習

FedMLとThetaが分散型AIスーパークラスターを発表:生成AIとコンテンツ推薦を強化

画期的なコラボレーションにより、FedMLとTheta Networkは、生成型AIとコンテンツ推薦の風景を変えるための分散型AIスーパー...

AI研究

「INDIAaiとMetaが連携:AIイノベーションと共同作業の道を開く」

有望な展開として、INDIAaiとMetaが人工知能(AI)と新興技術の領域で強力な協力関係を築いています。両組織は覚書(MoU)に...

機械学習

「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、...