百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

Baidu AI researcher introduces VideoGen a new method to generate videos from text, with high frame accuracy and high resolution.

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げてきました。一方で、テキストからビデオへの変換(T2V)は、高品質な映像コンテンツとテキストに対応する時間的に滑らかで現実的な動きが必要なため、依然として難しい課題です。さらに、テキスト-ビデオの大規模なデータベースは非常に入手困難です。

百度の最新の研究では、テキストの説明から高品質でシームレスな映画を作成するための手法であるVideoGenを紹介しています。T2Vの作成を支援するために、研究者はまずT2Iモデルを使用して高品質の画像を作成します。その後、参照画像とテキストの説明に基づいて一連の高解像度で滑らかな潜在表現を生成するカスケード化された潜在ビデオ拡散モジュールを使用します。必要に応じて、時間的に潜在表現のシーケンスをアップサンプリングするためにフローベースのアプローチも使用されます。最終的に、チームはビデオデコーダをトレーニングして、潜在表現のシーケンスを実際のビデオに変換します。

T2Iモデルの支援を使用して参照画像を作成することには2つの明確な利点があります。

  1. 結果として得られるビデオの視覚的な品質が向上します。提案手法では、ビデオ-テキストのペアのデータセットよりも多様で情報豊富な画像-テキストのペアのデータセットを利用するため、T2Iモデルの恩恵を受けます。Imagen Videoが画像-テキストのペアを共同トレーニングに使用するのに対して、この手法はトレーニングフェーズでより効率的です。
  2. カスケード化された潜在ビデオ拡散モデルは参照画像によって誘導されることができ、ビジュアルコンテンツではなくビデオのダイナミクスを学習することができます。チームは、T2Iモデルのパラメータのみを使用する方法に比べて、これが追加の利点だと考えています。

チームはまた、テキストの説明はビデオデコーダが潜在表現のシーケンスから映画を生成するために必要ではないと述べています。これにより、ビデオ-テキストのペアとラベルのない(ペアのない)映画を含むより大きなデータプールでビデオデコーダをトレーニングすることができます。その結果、この手法は使用する高品質なビデオデータにより、作成されたビデオの動きの滑らかさと現実感を向上させます。

研究結果によれば、VideoGenは質的および量的評価の両方の観点で、従来のテキストからビデオへの変換手法と比べて著しい改善を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Amazon SageMaker Canvasを使用して、ノーコードの機械学習を活用して、公衆衛生の洞察をより迅速にキャプチャーしましょう

公衆衛生機関は、さまざまな種類の疾病、健康のトレンド、危険因子に関する豊富なデータを保有しています彼らのスタッフは、...

AI研究

「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとする...

機械学習

アリババのChatGPTの競合相手、統一千文と出会ってください:その大規模言語モデルは、Tmall Genieスマートスピーカーや職場メッセージングプラットフォームのDingTalkに組み込まれる予定です

人工知能は、過去数年間で急速に人気と重要性が高まっており、企業はAIの研究開発に大きな投資を行っています。AIが波を起こ...

データサイエンス

AIOpsの力を解き放つ:最適化されたITオペレーションのための知的自動化によるDevOpsの強化

DevOpsのプラクティスを革命化するAIOps(ITオペレーションのための人工知能)の変革的な可能性を発見してください

AIニュース

「AI安全性の議論がシリコンバレーを引き裂いている」

OpenAIのリーダーシップのドラマは、AIの安全重視技術専門家と自由主義的なテクノ楽観主義者の激しい論争の中で最新の火花と...

機械学習

Amazon SageMakerのCanvas sentiment analysisとtext analysisモデルを使用して製品レビューから洞察を抽出するために、ノーコードの機械学習を使用してください

ガートナーによると、ソフトウェアの購入者の85%はオンラインのレビューを個人の推薦と同じくらい信頼しています顧客は、レビ...