百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

Baidu AI researcher introduces VideoGen a new method to generate videos from text, with high frame accuracy and high resolution.

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げてきました。一方で、テキストからビデオへの変換(T2V)は、高品質な映像コンテンツとテキストに対応する時間的に滑らかで現実的な動きが必要なため、依然として難しい課題です。さらに、テキスト-ビデオの大規模なデータベースは非常に入手困難です。

百度の最新の研究では、テキストの説明から高品質でシームレスな映画を作成するための手法であるVideoGenを紹介しています。T2Vの作成を支援するために、研究者はまずT2Iモデルを使用して高品質の画像を作成します。その後、参照画像とテキストの説明に基づいて一連の高解像度で滑らかな潜在表現を生成するカスケード化された潜在ビデオ拡散モジュールを使用します。必要に応じて、時間的に潜在表現のシーケンスをアップサンプリングするためにフローベースのアプローチも使用されます。最終的に、チームはビデオデコーダをトレーニングして、潜在表現のシーケンスを実際のビデオに変換します。

T2Iモデルの支援を使用して参照画像を作成することには2つの明確な利点があります。

  1. 結果として得られるビデオの視覚的な品質が向上します。提案手法では、ビデオ-テキストのペアのデータセットよりも多様で情報豊富な画像-テキストのペアのデータセットを利用するため、T2Iモデルの恩恵を受けます。Imagen Videoが画像-テキストのペアを共同トレーニングに使用するのに対して、この手法はトレーニングフェーズでより効率的です。
  2. カスケード化された潜在ビデオ拡散モデルは参照画像によって誘導されることができ、ビジュアルコンテンツではなくビデオのダイナミクスを学習することができます。チームは、T2Iモデルのパラメータのみを使用する方法に比べて、これが追加の利点だと考えています。

チームはまた、テキストの説明はビデオデコーダが潜在表現のシーケンスから映画を生成するために必要ではないと述べています。これにより、ビデオ-テキストのペアとラベルのない(ペアのない)映画を含むより大きなデータプールでビデオデコーダをトレーニングすることができます。その結果、この手法は使用する高品質なビデオデータにより、作成されたビデオの動きの滑らかさと現実感を向上させます。

研究結果によれば、VideoGenは質的および量的評価の両方の観点で、従来のテキストからビデオへの変換手法と比べて著しい改善を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトと清華大学の研究者は、「SCA(Segment and Caption Anything)を提案し、SAMモデルに地域キャプションの生成能力を効率的に装備する」と述べています

コンピュータビジョンと自然言語処理の交差点では、画像内のエンティティの領域キャプションの生成の課題に常に取り組んでき...

機械学習

「ニューラルネットワークの探索」

AIの力を解き放つ:ニューラルネットワークとその応用のガイド

AIニュース

ジェンスン・ファンのNvidiaがA.I. 革命を支える方法

その会社のCEOは、新しい種類のチップに全てを賭けました今やNvidiaは世界で最も大きな会社の一つですが、彼は次に何をするの...

機械学習

韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィ...

機械学習

「アメリカの機械学習エンジニアの給与」

導入 機械学習エンジニアは、現在アメリカで最も求められている職業の一つであり、高給与を得ることができます。アメリカでの...