「SEINEをご紹介します:シーン間のスムーズでクリエイティブなトランジションがある高品質な拡張ビデオのためのショートトゥロングビデオ拡散モデル」

「SEINE、スムーズでクリエイティブなトランジションを備えた高品質のビデオ拡散モデル:ショートからロングまでの拡張ビデオをご紹介」

テキストから画像を生成する拡散モデルの成功を受けて、ビデオ生成技術が急速に発展し、この領域での興味深い応用が見られるようになりました。しかし、ほとんどのビデオ生成技術は、通常「ショットレベル」のビデオを生成し、数秒間の一つのシーンを描写するものです。コンテンツの短さから、これらのビデオは映画や映像制作に必要な要件を満たすことが明らかにできません。

映画や産業レベルのビデオ制作では、通常「ストーリーレベル」と呼ばれる長いビデオは、異なるシーンを特徴とした個別のショットの作成によって特徴付けられます。これらの個別のショットは、長さが異なり、トランジションや編集といった技術を介して相互に接続され、より長いビデオや複雑なビジュアルストーリーテリングを可能にします。シーンやショットを映画やビデオ編集で組み合わせるという、トランジションとして知られる作業は、アフタープロダクションにおいて重要な役割を果たします。ディゾルブ、フェード、ワイプなどの伝統的なトランジション手法は、事前に定義されたアルゴリズムや確立されたインタフェースに依存しています。しかし、これらの手法は柔軟性に欠け、能力が制限されていることが多いです。

シームレスなトランジションへの代替手法は、異なるシーン間をスムーズに切り替えるために多様で想像力豊かなショットを使用する方法です。この技術は映画でよく使用されますが、あらかじめ定義されたプログラムを使用して直接生成することはできません。

この研究では、異なるシーン間に中間フレームを生成することに焦点を当て、シームレスでスムーズなトランジションの生成という一般的ではない問題を取り扱うモデルを紹介しています。

このモデルは、生成されたトランジションフレームが与えられたシーンイメージと意味的に関連し、一貫性があり、滑らかで提供されたテキストと一致していることを求めます。

この研究では、ショットレベルのビデオを組み合わせた滑らかで創造的なトランジションを含む高品質な長いビデオを生成するためのショートトゥロングビデオ拡散モデルであるSEINEを紹介しています。以下の図に、この手法の概要が示されています。

SEINEは、観測可能な条件付き画像やビデオに基づいて以前に見たことのないトランジションフレームと予測フレームを生成するために、ランダムマスクモジュールを組み込んでいます。著者は、ビデオデータセットに基づいて、事前学習された変分オートエンコーダによってエンコードされた元のビデオからNフレームを抽出します。さらに、モデルはテキストの説明を入力として受け取り、トランジションビデオのコンパクト性を向上させ、ショートテキストからビデオを生成する機能を活用します。

トレーニング段階では、潜在ベクトルはノイズで破損され、ランダムマスク条件層が適用され、フレーム間の中間表現をキャプチャします。マスキングメカニズムは、元の潜在コードから情報を選択的に保持または抑制します。SEINEは、マスク付きの潜在コードとマスク自体を条件入力として受け取り、どのフレームがマスクされ、どのフレームが見えるかを決定します。モデルは、全体の破損した潜在コードに影響を与えるノイズを予測するためにトレーニングされます。これにより、モデルは、可視フレームとマスクされていないフレームをシームレスにブレンドするリアルで視覚的に一貫したトランジションフレームを生成しようとします。

この研究から抽出した一部のシーケンスを以下に示します。

これは、シームレスなトランジションを生成するためのショートトゥロングビデオ拡散モデルであるSEINEの要約でした。興味がある場合や詳細を学びたい場合は、以下に引用されたリンクをご参照ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット

人工知能と機械学習は、過去数年間で驚異的な生産性の向上を示しています。機械学習は、すべてのプライバシーと機密性の手段...

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

人工知能

「Lab Sessions 実験的なAIの新しいコラボレーションのシリーズ」

Lab Sessionsは、アーティストから学者、科学者から学生まで、さまざまな人々との実験的なAIコラボレーションのシリーズです

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

人工知能

AIが置き換えることができない仕事

はじめに サイバーノートであろうとそうでなかろうと、おそらく「AIが置き換えることのできない仕事」の議論を聞いたことがあ...

機械学習

「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部...