テキストからビデオ生成 ステップバイステップガイド

Text to Video Generation Step-by-Step Guide

 

イントロダクション

 

拡散ベースの画像生成モデルは、コンピュータビジョンの分野において革命的な進歩を遂げています。Imagen、DallE、MidJourneyなどのモデルが先駆けとなり、これらの進展はテキスト条件付けの画像生成において驚異的な能力を示しています。これらのモデルの内部構造についての紹介は、この記事を読むことで得ることができます。

しかし、Text-2-Videoモデルの開発はさらなる困難な課題を提起しています。目標は、生成された各フレームにわたる一貫性と一貫性を実現し、ビデオの開始から終了までの生成コンテキストを維持することです。

しかし、最近の拡散ベースのモデルの進展は、Text-2-Videoのタスクにおいても有望な展望を提供しています。ほとんどのText-2-Videoモデルは、事前に学習されたText-2-Imageモデルに対してファインチューニングの技術を使用し、動的な画像の動きモジュールを統合し、WebVidやHowTo100Mなど多様なText-2-Videoデータセットを活用しています。

この記事では、HuggingFaceが提供するファインチューニングモデルを使用してビデオを生成するためのアプローチを紹介します。

 

実装

 

前提条件

 

私たちはHuggingFaceが提供するDiffusersライブラリと、PyTorchコードを並列スレッドで実行することができるユーティリティライブラリであるAccelerateを使用します。これにより、生成プロセスが高速化されます。

まず、依存関係をインストールし、コードに必要なモジュールをインポートする必要があります。

pip install diffusers transformers accelerate torch

 

次に、各ライブラリから関連するモジュールをインポートします。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

 

パイプラインの作成

 

Diffusion Pipeline内に提供されるText-2-VideoモデルをModelScopeが提供するモデルでロードします。このモデルは、純粋なノイズからビデオを生成するUNet3Dアーキテクチャに基づくもので、17億のパラメータを持っています。これは3つのパートからなるプロセスで動作します。まず、モデルは簡単な英語のプロンプトからテキスト特徴を抽出します。次に、テキスト特徴はビデオの潜在空間にエンコードされ、ノイズが除去されます。最後に、ビデオの潜在空間は視覚空間に戻され、短いビデオが生成されます。

pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

 

さらに、GPUの使用率を低減するために16ビット浮動小数点精度を使用します。さらに、実行時にGPUから不要な部分を削除するCPUオフロードが有効にされています。

 

ビデオの生成

 

prompt = "Spidermanがサーフィンしている"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

 

次に、ビデオ生成パイプラインにプロンプトを渡すことで、生成されたフレームのシーケンスを得ます。25の推論ステップを使用することで、モデルは25回のノイズ除去を行います。推論ステップの数を増やすと、ビデオの品質が向上しますが、より高い計算リソースと時間が必要です。

別々のイメージフレームは、diffuserのユーティリティ関数を使用して結合され、ビデオがディスクに保存されます。

別々のイメージフレームは、diffuserのユーティリティ関数を使用して結合され、ビデオがディスクに保存されます。

FinalVideo from Muhammad Arham on Vimeo.

 

結論

 

簡単ですね!Spidermanがサーフィンするビデオが得られました。短いながらもあまり高品質ではないビデオですが、これはまもなくImage-2-Textモデルと同様の結果を得ることができる有望なプロセスを象徴しています。それにもかかわらず、創造性をテストし、モデルと遊ぶことは十分に良いです。このColabノートブックを使用して試すことができます。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼はVyro.AIでグローバルトップチャートに到達したいくつかの生成AIアプリケーションの展開と最適化に取り組んできました。彼は知的システムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

コンピュータービジョンによる車両損傷検出の構築方法

「2つのモデルを使用したコンピュータビジョンソリューションの設計原則を探求し、Mask R-CNNとU-Net AIアルゴリズムの能力を...

機械学習

PaLM AI | Googleの自家製生成AI

イントロダクション OpenAIによるGPT(Generative Pre-trained Transformers)モデル、特にChatGPTなどのような生成型AIモデ...

データサイエンス

「生成AIの組織化:データサイエンスチームから得た5つの教訓」

「経営陣が曖昧な約束をした後、新しいGen AIの機能が組織全体に組み込まれることを利害関係者に約束した後、あなたのタイガ...

データサイエンス

データ汚染とモデル崩壊:迫りくるAIの災害

AI生成コンテンツの存在は、疫病のように広がり、検索結果を毒し、さらにAIモデルを崩壊させるでしょう

人工知能

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機...

AIニュース

「アマゾン対Google対マイクロソフト:AIで医療を革新する競争」

人工知能(AI)を医療業界に統合することは、技術の進歩の時代においてますます普及しています。Amazon、Google、Microsoftな...