「安定したビデオ拡散:大規模データセットへの潜在ビデオ拡散モデル」

「ビデオ拡散の安定化:大規模データセットへの潜在的なビデオ拡散モデル」

生成AIは、AIコミュニティにおいて長い間推進力となっており、特に拡散モデルの使用による生成画像モデリングの進展は、研究だけでなく、実世界の応用においても生成ビデオモデルの進歩に大きく寄与しています。従来、生成ビデオモデルはスクラッチからトレーニングされるか、事前学習された画像モデルから部分的または完全にファインチューニングされ、画像とビデオのデータセットの混合でトレーニングされています。

生成ビデオモデルの進展をさらに前進させるために、本記事では安定ビデオ拡散モデルについて、高解像度で最先端の画像からビデオへ、テキストからビデオへの内容を生成することができる潜在ビデオ拡散モデルについて取り上げます。2D画像を合成するためにトレーニングされた潜在的な拡散モデルが、ビデオデータセット上で動作し、ビデオモデルのために時系列レイヤーを追加し、高品質のビデオで構成される小規模なデータセットでモデルをファインチューニングすることで、生成ビデオモデルの能力と効率を改善している方法について話します。安定ビデオ拡散モデルのアーキテクチャと動作について、さらに深く掘り下げ、さまざまなメトリックでのパフォーマンスを評価し、ビデオ生成の現行の最先端フレームワークと比較します。それでは始めましょう。

安定ビデオ拡散モデルと生成ビデオモデル:導入

ほぼ無制限の可能性を持つことから、生成AIはAIおよび機械学習の研究者にとって主要な研究対象となっており、過去数年間では生成画像モデルの効率とパフォーマンスの両方で急速な進展が見られています。生成画像モデルからの学びは、研究者や開発者による生成ビデオモデルの進展につながり、実用性と現実世界での応用の向上に寄与しています。ただし、生成ビデオモデルの能力を向上させるためのほとんどの研究は、時間的および空間的レイヤーの正確な配置に主眼を置いており、これらの生成モデルの結果に対して適切なデータの選択の影響を調査することにほとんど注意が払われていません。

生成画像モデルの進展により、研究者はトレーニングデータの分布が生成モデルのパフォーマンスに与える影響が重大であることを認識しています。さらに、研究者は、大規模で多様なデータセットで生成画像モデルを事前トレーニングし、品質の良い小規模なデータセットでファインチューニングすることで、パフォーマンスを大幅に向上させることができることも観察しています。伝統的に、生成ビデオモデルは成功した生成画像モデルから得られた知見を実装し、データやトレーニング戦略の影響についてはまだ研究が進んでいません。安定ビデオ拡散モデルは、選択したデータに重点を置くことで、生成ビデオモデルの能力を高める試みです。

最近の生成ビデオモデルでは、拡散モデルとテキストコンディショニングまたは画像コンディショニングのアプローチを使用して、複数の一貫したビデオフレームまたは画像を合成しています。拡散モデルは、通常の分布からサンプルを段階的にノイズから解除する方法を学習する能力で知られており、反復的な改善プロセスを実装しています。これらのモデルは、高解像度のビデオやテキストから画像への合成において望ましい結果をもたらしています。安定ビデオ拡散モデルは、同じ原則を取り入れ、潜在的なビデオ拡散モデルをビデオデータセットでトレーニングし、生成対抗ネットワーク(GAN)やオートリグレッションモデルも一部使用します。

安定ビデオ拡散モデルは、固定されたアーキテクチャと固定されたトレーニング戦略を持つ潜在ビデオ拡散のベースラインを使用するという、どの生成ビデオモデルも実装していない独自の戦略に従っており、データの選択の影響を評価しています。安定ビデオ拡散モデルは、以下の分野の生成ビデオモデリングにおいて次の貢献を目指しています。

  1. 大量の非分類のビデオサンプルから高品質なデータセットに変換するための体系的かつ効果的なデータキュレーションワークフローの提案。
  2. 既存のフレームワークよりも優れた画像からビデオへ、テキストからビデオへのモデルをトレーニングする。
  3. モデルの3D理解および強い動きのプライオリティを探究するためのドメイン特有の実験を実施する。

さて、安定ビデオ拡散モデルは、潜在ビデオ拡散モデルとデータキュレーション技術からの学びを基盤に実装されています。

潜在的なビデオ拡散モデル

潜在的なビデオ拡散モデルまたはビデオ-LDMは、計算量を削減した潜在空間で主要な生成モデルを訓練するアプローチに従います。ほとんどのビデオ-LDMは、事前に訓練されたテキストから画像へのモデルに加えて、事前学習アーキテクチャに時間的な混合層を追加して実装されます。その結果、ほとんどのビデオ潜在拡散モデルは、時間的な層のみを訓練するか、あるいは安定したビデオ拡散モデルとは異なり、訓練プロセスを完全にスキップします。さらに、テキストからビデオデータを合成する場合、安定したビデオ拡散モデルは直接テキストプロンプトに基づいて自己条件付けを行います。その結果、得られるフレームワークは、マルチビューの合成や画像からビデオへのモデルに簡単にファインチューニングされることが示されています。

データキュレーション

データキュレーションは、安定したビデオ拡散モデルだけでなく、生成モデル全体においても重要な要素です。大規模なデータセット上で大型モデルを事前訓練することは、言語モデリングや識別的なテキストから画像生成などさまざまなタスクにおいてパフォーマンスを向上させるために必要です。データキュレーションは、効率的な言語-画像表現の能力を活用して生成画像モデルに成功裏に実装されていますが、同様の議論が生成ビデオモデルの開発に関しては焦点にされたことはありません。生成ビデオモデルのためにデータをキュレーションする際には、開発者が直面するいくつかの課題があります。これらの課題に対処するため、安定したビデオ拡散モデルは3段階のトレーニング戦略を実装し、結果の向上とパフォーマンスの大幅な向上を実現しています。

高品質ビデオ合成のためのデータキュレーション

前のセクションで述べたように、安定したビデオ拡散モデルは、3段階のトレーニング戦略を実装し、結果の向上とパフォーマンスの大幅な向上をもたらします。Stage Iは画像の事前訓練ステージであり、2Dテキストから画像への拡散モデルを使用します。Stage IIはビデオの事前訓練ステージであり、大量のビデオデータ上でフレームワークをトレーニングします。最後に、Stage IIIでは、モデルを高品質で高解像度のビデオの一部のサブセット上で精度を上げるためにファインチューニングします。

ただし、安定したビデオ拡散モデルがこれらの3つのステージを実装する前に、データを処理し注釈を付けることは重要です。なぜなら、これがStage IIまたはビデオの事前訓練ステージの基礎となり、最適な出力を確保するために重要な役割を果たすからです。効率の最大化を保証するために、フレームワークはまず3つの異なるFPS(秒間フレーム数)レベルでカスケードカット検出パイプラインを実装します。このパイプラインの必要性は、以下の画像で示されています。

次に、安定ビデオ拡散モデルは、3つの異なる合成キャプション方法を使用して各ビデオクリップに注釈を付けます。次の表は、安定した拡散フレームワークで使用されるデータセットをフィルタリングプロセス前後で比較しています。

Stage I: 画像の事前訓練

安定したビデオ拡散モデルに実装されている3段階のパイプラインの最初のステージは、画像の事前訓練です。これを達成するために、初期の安定ビデオ拡散モデルフレームワークは、より強力な視覚表現を備えた事前訓練済みの画像拡散モデルであるStable Diffusion 2.1モデルに基づいています。

Stage II: ビデオの事前訓練

第二段階は、ビデオの事前トレーニングステージであり、マルチモーダルの生成画像モデルにおけるデータキュレーションの使用は、通常、より良い結果と高効率性、およびパワフルな識別的画像生成に結び付いているという調査結果に基づいています。ただし、生成ビデオモデルに不要なサンプルをフィルタリングするための同様の強力な既製品のリプレゼンテーションの欠如により、安定ビデオ拡散モデルは適切なデータセットの作成において人間の選好を入力信号として使用しています。次の図は、フレームワークの事前トレーニングにおけるキュレーションされたデータセットによる効果を示しており、これにより、より小さなデータセットに対するビデオの事前トレーニングの全体的なパフォーマンスが向上します。

より具体的には、このフレームワークは、潜在ビデオ拡散のサブセットをキュレートするための異なる方法を使用し、これらのデータセットでトレーニングされたLVDモデルのランキングを考慮します。さらに、ステーブルビデオ拡散フレームワークは、フレームワークのパフォーマンスを向上させるためにキュレートされたデータセットの使用が役立ち、拡散モデル全般にも役立つことを見つけます。さらに、データキュレーション戦略は、より大きな、より関連性が高く、より実用的なデータセットでも機能します。次の図は、キュレートされたデータセットでフレームワークを事前トレーニングすることが、小規模データセットでのビデオ事前トレーニングの全体的なパフォーマンス向上にどのように寄与するかを示しています。

ステージIII:高品質なファインチューニング

ステージIIまで、ステーブルビデオ拡散フレームワークは、ビデオ事前トレーニングの前のパフォーマンスを向上させることに焦点を当てており、サードステージでは、高品質なビデオのファインチューニング後のフレームワークのパフォーマンスを最適化またはさらに向上させることに重点を置いています。ステージIIからステージIIIへの移行は、フレームワークでどのように達成されるかです。ステージIIIでは、潜在的な画像拡散モデルから借用したトレーニング技術を使用し、トレーニング例の解像度を高めます。このアプローチの効果を分析するために、フレームワークは、初期化の点で異なる3つの同一モデルと比較します。最初の同一モデルは、重みを初期化し、ビデオトレーニングプロセスをスキップしますが、残りの2つの同一モデルは、他の潜在ビデオモデルから借りた重みで初期化されます。

結果と所見

ステーブルビデオ拡散フレームワークが実世界のタスクでどのようにパフォーマンスを発揮し、現在の最先端のフレームワークと比較しているかを見てみましょう。ステーブルビデオ拡散フレームワークはまず最適なデータアプローチを使用してベースモデルをトレーニングし、その後、ファインチューニングを行い、各モデルが特定のタスクを実行するいくつかの最先端のモデルを生成します。

上記の図は、フレームワークによって生成された高解像度の画像からビデオのサンプルを示しています。以下の図は、フレームワークが高品質のテキストからビデオのサンプルを生成する能力を示しています。

事前トレーニングされたベースモデル

前述のように、ステーブルビデオ拡散モデルは、ステーブルディフュージョン2.1フレームワークおよび最近の調査結果に基づいて構築されており、開発者がノイズスケジュールを採用し、ノイズを増加させて画像の解像度を向上させることは重要でした。このアプローチにより、ステーブルビデオ拡散ベースモデルは強力なモーション表現を学習し、過去のモデルに比べてゼロショット設定でのテキストからビデオの生成において優れたパフォーマンスを発揮します。その結果は、次の表に示されています。

フレーム補間とマルチビュー生成

ステーブルビデオ拡散フレームワークは、マルチビューデータセットで画像からビデオモデルを微調整して、オブジェクトの複数の新しいビューを取得します。このモデルはSVD-MVまたはステーブルビデオ拡散-マルチビューモデルとして知られています。オリジナルのSVDモデルは、フレームワークが単一の画像を入力し、その出力として複数のマルチビュー画像のシーケンスを返すように2つのデータセットを使用して微調整されます。

次の画像で見るように、ステーブルビデオ拡散マルチビューフレームワークは、最先端のスクラッチマルチビューフレームワークと同等の高パフォーマンスを提供し、その結果はSVD-MVが元のSVDフレームワークから得られた学習を活用する能力を明確に示しています。さらに、結果は、SVDフレームワークから微調整されたほとんどのモデルと同様に、比較的少ない数の反復でモデルを実行することが最適な結果を提供するのに役立つことも示しています。

上記の図では、左側にメトリクスが指示されており、わかるように、Stable Video Diffusion Multi Viewフレームワークは、Scratch-MVとSD2.1 Multi-Viewフレームワークよりも優れた性能を持っています。2番目の画像は、トレーニング回数がフレームワークの全体的なパフォーマンス(Clip Score)に及ぼす影響を示しており、SVD-MVフレームワークは持続的な結果を提供しています。

最終的な考え

この記事では、高解像度の最先端なイメージからビデオ、テキストからビデオのコンテンツを生成できるレイテントビデオディフューションモデルであるStable Video Diffusionについて話しました。Stable Video Diffusionモデルは、固定されたアーキテクチャを持つレイテントビデオディフュージョンベースラインに依存し、固定されたトレーニング戦略に従い、データの整理の影響を評価するという他のどの生成ビデオモデルにも実装されたことのない独自の戦略に従います。

2Dイメージを合成するために訓練されたレイテントディフュージョンモデルが、時間的なレイヤーを追加し、高品質のビデオから成る小規模なデータセットでモデルを微調整することによって、生成ビデオモデルの能力と効率を向上させたかについても触れました。事前トレーニングデータを収集するために、フレームワークはスケーリング研究を実施し、システマチックなデータ収集プラクティスに従い、ノイズの多いビデオを生成ビデオモデルに適した入力データに変換する方法を提案しています。

さらに、Stable Video Diffusionフレームワークは、フレームワークのパフォーマンスに与える影響を独立して分析する3つの異なるビデオモデルトレーニング段階を使用しています。フレームワークは最終的に、モデルを最適なビデオ合成のために微調整するのに十分なパワフルなビデオ表現を出力し、既に使用されている最先端のビデオ生成モデルと比較可能な結果を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more