百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

Baidu AI researcher introduces VideoGen a new method to generate videos from text, with high frame accuracy and high resolution.

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げてきました。一方で、テキストからビデオへの変換(T2V)は、高品質な映像コンテンツとテキストに対応する時間的に滑らかで現実的な動きが必要なため、依然として難しい課題です。さらに、テキスト-ビデオの大規模なデータベースは非常に入手困難です。

百度の最新の研究では、テキストの説明から高品質でシームレスな映画を作成するための手法であるVideoGenを紹介しています。T2Vの作成を支援するために、研究者はまずT2Iモデルを使用して高品質の画像を作成します。その後、参照画像とテキストの説明に基づいて一連の高解像度で滑らかな潜在表現を生成するカスケード化された潜在ビデオ拡散モジュールを使用します。必要に応じて、時間的に潜在表現のシーケンスをアップサンプリングするためにフローベースのアプローチも使用されます。最終的に、チームはビデオデコーダをトレーニングして、潜在表現のシーケンスを実際のビデオに変換します。

T2Iモデルの支援を使用して参照画像を作成することには2つの明確な利点があります。

  1. 結果として得られるビデオの視覚的な品質が向上します。提案手法では、ビデオ-テキストのペアのデータセットよりも多様で情報豊富な画像-テキストのペアのデータセットを利用するため、T2Iモデルの恩恵を受けます。Imagen Videoが画像-テキストのペアを共同トレーニングに使用するのに対して、この手法はトレーニングフェーズでより効率的です。
  2. カスケード化された潜在ビデオ拡散モデルは参照画像によって誘導されることができ、ビジュアルコンテンツではなくビデオのダイナミクスを学習することができます。チームは、T2Iモデルのパラメータのみを使用する方法に比べて、これが追加の利点だと考えています。

チームはまた、テキストの説明はビデオデコーダが潜在表現のシーケンスから映画を生成するために必要ではないと述べています。これにより、ビデオ-テキストのペアとラベルのない(ペアのない)映画を含むより大きなデータプールでビデオデコーダをトレーニングすることができます。その結果、この手法は使用する高品質なビデオデータにより、作成されたビデオの動きの滑らかさと現実感を向上させます。

研究結果によれば、VideoGenは質的および量的評価の両方の観点で、従来のテキストからビデオへの変換手法と比べて著しい改善を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...

機械学習

「推測を超えて:効果的な記事タイトル選択のためのベイジアン統計の活用」

記事は、ベイジアン多腕バンディットアルゴリズムがデジタルメディアのタイトル選択を最適化し、従来のA/Bテスト手法を超える...

AIニュース

「GANやVAEを超えたNLPにおける拡散モデルの探求」

はじめに 拡散モデルは、特に自然言語処理(NLP)の分野で最近注目されています。データを通じてノイズを拡散させるという概...

データサイエンス

清華大学研究者がOpenChatを導入:ミックス品質データでオープンソース言語モデルを拡張する新しい人工知能AIフレームワークを紹介

自然言語処理の急速な進化において、大規模な言語モデルの能力は指数関数的に成長しています。研究者や組織は世界中で、これ...

AIニュース

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエ...

データサイエンス

マイクロソフトの研究者たちは、ラベル付きトレーニングデータを使用せずにパレート最適な自己監督を用いたLLMキャリブレーションの新しいフレームワークを提案しています

最近の進展により、大規模言語モデル(LLM)の能力が著しく向上しており、生成事前トランスフォーマー(GPT)モデルは大きな...