マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

Microsoft researcher proposes NUWA-XL new diffusion over-diffusion architecture for ultra-long video generation.

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、ビデオの長さは写真よりも実用的なアプリケーションにおいてはより難しい問題を提起します。映画の平均上映時間は90分以上です。アニメの平均長は30分です。TikTokや他の類似のアプリに適したビデオの理想的なサイズは、21秒から34秒の間です。

Microsoftの研究チームは、長いビデオを作成するための革新的なアーキテクチャを開発しました。既存の多くの研究は、通常、セグメントごとに順次長い映画を生成しますが、これにより短編映画でのトレーニングと大きなビデオでの推論の間にギャップが生じます。順次生成はより効率的であるかもしれません。この新しい方法では、ビデオは粗粒度で同時に生成されます。範囲全体のキーフレームを生成するためにグローバル拡散モデルを適用した後、隣接フレーム間の素材を反復的に埋めるためにローカル拡散モデルを使用します。トレーニングと推論のギャップは、この直感的かつ成功した方法を使用して直接長い映画でトレーニングすることで狭めることができます。

最も重要な貢献は次のとおりです:

  • 研究チームが提案した「Diffusion over Diffusion」アーキテクチャNUWA-XLは、革新的な「粗粒度から細粒度」プロセスとして長いビデオの作成を実現しています。
  • NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、そのようなビデオの生成におけるトレーニングと推論のギャップを埋めています。
  • NUWA-XLによって並列推論が可能になり、長いビデオを生成するために必要な時間を大幅に短縮することができます。1024フレームを生成する際、NUWA-XLは推論を94.26%高速化します。
  • モデルの効果を確認し、拡張ビデオの作成の基準を提供するために、FlintstonesHDの研究チームが新しいデータセットを作成しました。

手法

時間的KLVAE(T-KLVAE)

KLVAEは、ピクセル上で拡散モデルのトレーニングとサンプリングの計算負荷を避けるために、入力画像を低次元の潜在表現に変換する。研究者は、元の空間モジュールに外部の時間的畳み込みとアテンションレイヤーを追加して、事前にトレーニングされた画像KLVAEからビデオへの表面的な知識を転送することで、Temporal KLVAE(T-KLVAE)を提案しています。

時間的マスク拡散(MTD)

提案されたDiffusion over Diffusionアーキテクチャの基礎となる拡散モデルとして、研究者はMasked Temporal Diffusion(MTD)を提案しています。映画の「粗い」ストーリーラインは、グローバル拡散に使用するためにLのプロンプトのみから形成されますが、開始フレームと最後のフレームもローカル拡散のための入力として使用されます。提案されたMTDは、グローバルとローカルの拡散に対応し、開始フレームと最後のフレームの有無に関係なく、入力条件を取ることができます。以下では、異なる入力条件の融合を示すためにUpBlockを使用して、MTDパイプライン全体を説明します。

NUWA-XLが拡張ビデオの品質を向上させ、推論速度を高速化するものの、いくつかの制約があります:まず、研究者はNUWA-XLの有効性を公開されているFlintstonesのようなカートゥーンにのみ確認しています。オープンドメインの長いビデオ(映画やテレビエピソードなど)は現時点では知られていません。オープンドメインの長いビデオデータセットの初期の成功を受けて、彼らは最終的にNUWA-XLをオープンドメインに拡張することを望んでいます。次に、トレーニングと推論のギャップは、長い映画で直接トレーニングすることによって狭めることができますが、データには困難が伴います。最後に、NUWA-XLは推論を高速化することができますが、この改善にはパワフルなグラフィックスプロセッシングユニット(GPU)が必要です。

研究者は、長いビデオの作成を非常に異例な「粗粒度から細粒度」の手順として捉え、NUWA-XLという「Diffusion over Diffusion」アーキテクチャを提案しています。NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、長いビデオ制作におけるトレーニングと推論のギャップを埋めています。NUWA-XLによって並列推論がサポートされ、1024フレームを生成する際にビデオの作成を94.26%高速化します。モデルの効果をさらに検証し、拡張ビデオの作成のためのベンチマークを提供するために、彼らは新しいデータセットFlintstonesHDを構築しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「新しい攻撃が主要なAIチャットボットに影響を与え、誰もそれを止める方法を知りません」

研究者は、ChatGPT、Bard、および他のチャットボットが不正行為を行う簡単な方法を見つけ、AIは手に負えないことを証明しました

データサイエンス

「データストーリーテリングとアナリティクスにおける生成AIのインパクトの公開」

導入 データ分析の広大な領域の中で、ゲネラティブ人工知能(GAI)はゲームを変える最も重要な進展の一つです。これは、歴史...

機械学習

MITの新しいAI研究は、深層ニューラルネットワークが私たちとは異なる方法で世界を見ていることを示しています

人間の感覚システムの複雑な機能を模倣することを目指して、神経科学と人工知能の研究者は、計算モデルと人間の知覚の間の不...

データサイエンス

AWS上で請求書処理を自動化するためのサーバーレスアプリケーションの構築

Goプログラミング言語を使用して、Amazon TextractとAWS Lambdaの使い方を学び、請求書画像を処理し、メタデータを抽出する方...

機械学習

このAI論文は、大規模な言語モデルを最適化する秘訣を明らかにします:報酬のバランスと過剰最適化の防止

UC Berkeley、UCL、CMU、Google Deepmindの研究者チームは、複数の単純な報酬モデルから導かれた合成報酬モデルを使用して、...

コンピュータサイエンス

ロボット犬は、人間よりも侵略的なヒアリの巣をより良く見つけることができます

中国とブラジルの科学者たちは、侵入した火蟻の巣を検出するために、ロボット犬と人工知能(AI)をテストしています