百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

Baidu AI researcher introduces VideoGen a new method to generate videos from text, with high frame accuracy and high resolution.

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げてきました。一方で、テキストからビデオへの変換(T2V)は、高品質な映像コンテンツとテキストに対応する時間的に滑らかで現実的な動きが必要なため、依然として難しい課題です。さらに、テキスト-ビデオの大規模なデータベースは非常に入手困難です。

百度の最新の研究では、テキストの説明から高品質でシームレスな映画を作成するための手法であるVideoGenを紹介しています。T2Vの作成を支援するために、研究者はまずT2Iモデルを使用して高品質の画像を作成します。その後、参照画像とテキストの説明に基づいて一連の高解像度で滑らかな潜在表現を生成するカスケード化された潜在ビデオ拡散モジュールを使用します。必要に応じて、時間的に潜在表現のシーケンスをアップサンプリングするためにフローベースのアプローチも使用されます。最終的に、チームはビデオデコーダをトレーニングして、潜在表現のシーケンスを実際のビデオに変換します。

T2Iモデルの支援を使用して参照画像を作成することには2つの明確な利点があります。

  1. 結果として得られるビデオの視覚的な品質が向上します。提案手法では、ビデオ-テキストのペアのデータセットよりも多様で情報豊富な画像-テキストのペアのデータセットを利用するため、T2Iモデルの恩恵を受けます。Imagen Videoが画像-テキストのペアを共同トレーニングに使用するのに対して、この手法はトレーニングフェーズでより効率的です。
  2. カスケード化された潜在ビデオ拡散モデルは参照画像によって誘導されることができ、ビジュアルコンテンツではなくビデオのダイナミクスを学習することができます。チームは、T2Iモデルのパラメータのみを使用する方法に比べて、これが追加の利点だと考えています。

チームはまた、テキストの説明はビデオデコーダが潜在表現のシーケンスから映画を生成するために必要ではないと述べています。これにより、ビデオ-テキストのペアとラベルのない(ペアのない)映画を含むより大きなデータプールでビデオデコーダをトレーニングすることができます。その結果、この手法は使用する高品質なビデオデータにより、作成されたビデオの動きの滑らかさと現実感を向上させます。

研究結果によれば、VideoGenは質的および量的評価の両方の観点で、従来のテキストからビデオへの変換手法と比べて著しい改善を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

なぜBankrateはAI生成記事を諦めたのか

1月に、Bankrateとその姉妹サイトであるCNETがAIによって生成された数百の記事を公開することで話題となりました彼らは慎重に...

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

機械学習

「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

テキストから画像の生成の最新の進歩により、直感的な自然言語記述から詳細なグラフィックの作成が可能になりました。Stable ...

機械学習

「Code Llama内部:Meta AIがCode LLMスペースへの参入」

コーディングは、大規模言語モデル(LLM)の最も活発な活動の1つに急速になっていますOpenAIが昨年Codex(現在はGPT-4の一部...

データサイエンス

「伝統的な機械学習はまだ重要ですか?」

伝統的な機械学習が生成モダルAIの時代でも不可欠である理由を探求し、その強み、弱点、およびさまざまな産業における重要な...

AIニュース

マルチモーダルAIがデジタルのつながりを作り出す

「複数の要素とデータストリームを組み合わせることにより、マルチモーダルAIはよりスマートで人間らしいシステムの可能性を...