マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

Microsoft researcher proposes NUWA-XL new diffusion over-diffusion architecture for ultra-long video generation.

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、ビデオの長さは写真よりも実用的なアプリケーションにおいてはより難しい問題を提起します。映画の平均上映時間は90分以上です。アニメの平均長は30分です。TikTokや他の類似のアプリに適したビデオの理想的なサイズは、21秒から34秒の間です。

Microsoftの研究チームは、長いビデオを作成するための革新的なアーキテクチャを開発しました。既存の多くの研究は、通常、セグメントごとに順次長い映画を生成しますが、これにより短編映画でのトレーニングと大きなビデオでの推論の間にギャップが生じます。順次生成はより効率的であるかもしれません。この新しい方法では、ビデオは粗粒度で同時に生成されます。範囲全体のキーフレームを生成するためにグローバル拡散モデルを適用した後、隣接フレーム間の素材を反復的に埋めるためにローカル拡散モデルを使用します。トレーニングと推論のギャップは、この直感的かつ成功した方法を使用して直接長い映画でトレーニングすることで狭めることができます。

最も重要な貢献は次のとおりです:

  • 研究チームが提案した「Diffusion over Diffusion」アーキテクチャNUWA-XLは、革新的な「粗粒度から細粒度」プロセスとして長いビデオの作成を実現しています。
  • NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、そのようなビデオの生成におけるトレーニングと推論のギャップを埋めています。
  • NUWA-XLによって並列推論が可能になり、長いビデオを生成するために必要な時間を大幅に短縮することができます。1024フレームを生成する際、NUWA-XLは推論を94.26%高速化します。
  • モデルの効果を確認し、拡張ビデオの作成の基準を提供するために、FlintstonesHDの研究チームが新しいデータセットを作成しました。

手法

時間的KLVAE(T-KLVAE)

KLVAEは、ピクセル上で拡散モデルのトレーニングとサンプリングの計算負荷を避けるために、入力画像を低次元の潜在表現に変換する。研究者は、元の空間モジュールに外部の時間的畳み込みとアテンションレイヤーを追加して、事前にトレーニングされた画像KLVAEからビデオへの表面的な知識を転送することで、Temporal KLVAE(T-KLVAE)を提案しています。

時間的マスク拡散(MTD)

提案されたDiffusion over Diffusionアーキテクチャの基礎となる拡散モデルとして、研究者はMasked Temporal Diffusion(MTD)を提案しています。映画の「粗い」ストーリーラインは、グローバル拡散に使用するためにLのプロンプトのみから形成されますが、開始フレームと最後のフレームもローカル拡散のための入力として使用されます。提案されたMTDは、グローバルとローカルの拡散に対応し、開始フレームと最後のフレームの有無に関係なく、入力条件を取ることができます。以下では、異なる入力条件の融合を示すためにUpBlockを使用して、MTDパイプライン全体を説明します。

NUWA-XLが拡張ビデオの品質を向上させ、推論速度を高速化するものの、いくつかの制約があります:まず、研究者はNUWA-XLの有効性を公開されているFlintstonesのようなカートゥーンにのみ確認しています。オープンドメインの長いビデオ(映画やテレビエピソードなど)は現時点では知られていません。オープンドメインの長いビデオデータセットの初期の成功を受けて、彼らは最終的にNUWA-XLをオープンドメインに拡張することを望んでいます。次に、トレーニングと推論のギャップは、長い映画で直接トレーニングすることによって狭めることができますが、データには困難が伴います。最後に、NUWA-XLは推論を高速化することができますが、この改善にはパワフルなグラフィックスプロセッシングユニット(GPU)が必要です。

研究者は、長いビデオの作成を非常に異例な「粗粒度から細粒度」の手順として捉え、NUWA-XLという「Diffusion over Diffusion」アーキテクチャを提案しています。NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、長いビデオ制作におけるトレーニングと推論のギャップを埋めています。NUWA-XLによって並列推論がサポートされ、1024フレームを生成する際にビデオの作成を94.26%高速化します。モデルの効果をさらに検証し、拡張ビデオの作成のためのベンチマークを提供するために、彼らは新しいデータセットFlintstonesHDを構築しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

特徴量が多すぎる?主成分分析を見てみましょう

次元の呪いは、機械学習における主要な問題の1つです特徴量の数が増えると、モデルの複雑さも増しますさらに、十分なトレーニ...

機械学習

「BlindChat」に会いましょう:フルブラウザおよびプライベートな対話型AIを開発するためのオープンソースの人工知能プロジェクト

BlindChatは、MithrilSecurityによって立ち上げられたオープンソースでプライバシー重視のChatGPTの代替案です。BlindChatは...

機械学習

「ニューラルネットワークの探索」

AIの力を解き放つ:ニューラルネットワークとその応用のガイド

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

AIニュース

「メタは、AIチャットボットを個性付けて使用できると報告されています」

「エイブラハム・リンカーンとチャットしたいですか?FacebookのオーナーであるMetaは人工知能のリーダーですが、すでに高度...

AIニュース

「人工知能(AI)のトップコンテンツ検出ツール」

人工知能(AI)および自然言語処理(NLP)の技術は、AIコンテンツの検出プロセスで使用され、テキストのコンテンツを自動的に...