「アニメート・ア・ストーリー:高品質で構造化されたキャラクター主導のビデオを合成する、検索補完型ビデオ生成によるストーリーテリング手法による出会い」

Anime a Story Meeting through the storytelling method of synthesizing high-quality, structured, character-driven videos using search completion-based video generation.

テキストから画像へのモデルは最近注目を集めています。生成型人工知能の導入により、GPTやDALL-Eなどのモデルはリリース以来、話題になっています。彼らの人気の上昇は、人間のようなコンテンツの生成が今や夢ではない理由です。テキストから画像だけでなく、テキストからビデオ(T2V)の生成も可能です。ライブアクションの撮影やコンピュータ生成のアニメーションの制作は、興味深いストーリーテリングビデオを作成するために通常必要な手順であり、困難で時間がかかります。

テキストからビデオの最新の進展は、テキストベースの説明から自動的にビデオを作成するという約束を示していますが、まだ特定の制約があります。ビジュアル化するためには、魅力的なストーリーを視覚化し、映画体験を提供するために重要なデザインやレイアウトに対する制御が不足しています。クローズアップ、ロングビュー、構図などの映画制作技術は、潜在的なメッセージを理解するために観客に重要です。現在のテキストからビデオの手法では、映画の基準に従った適切な動きやレイアウトを提供することが難しいです。

これらの制約に対処するために、研究チームは、リトリーバル強化型ビデオ生成と呼ばれるユニークなビデオ生成手法である「Animate-A-Story」を提案しました。この手法は、テキストプロンプトに基づいて外部データベースから映画を取得し、それらをT2V作成プロセスのガイド信号として使用することで、既存のビデオコンテンツの豊富さを活用しています。ユーザーは、取得したビデオを入力として使用して、ストーリーをアニメーション化する際に生成されたビデオのレイアウトと構成に対してより大きな制御を持つことができます。

このフレームワークは、2つのモジュールで構成されています。モーション構造検索モジュールと構造ガイド付きテキストからビデオ合成モジュールです。モーション構造検索モジュールは、クエリテキストで示されるシーンやモーションコンテキストに一致するビデオ候補を供給します。これには、商用のビデオ検索システムを使用してモーション構造としてビデオの深度が抽出されます。2番目のモジュールである構造ガイド付きテキストからビデオ合成モジュールは、テキストプロンプトとモーション構造を入力として使用して、ストーリーに従った映画を生成します。プロットやキャラクターのビデオ内での柔軟な制御を可能にするカスタマイズ可能なビデオ制作のためのモデルが作成されています。作成されたビデオは、構造的な指示と視覚的なガイドラインに従って、意図したストーリーテリング要素を守っています。

この手法は、映像の一貫性を保つことに重点を置いています。チームはまた、これを確実にするための成功したコンセプトパーソナライゼーション戦略も開発しました。テキストプロンプトを通じて、この手法では視聴者が好みのキャラクターのアイデンティティを選択できるようにし、ビデオ全体でキャラクターの外観の一貫性を保持します。評価のために、チームはこの手法を既存のベースラインと比較しました。その結果、この手法の優位性が明らかになり、高品質で一貫性のある視覚的に魅力的なストーリーテリングビデオを生成する能力が証明されました。

チームは以下の貢献をまとめています:

  1. 物語性のあるビデオ合成のためのリトリーバル強化型パラダイムを導入しました。これにより、様々な既存のビデオをストーリーテリングに使用することが初めて可能になりました。
  1. 実験結果によって、このフレームワークの有用性が確認され、非常に使いやすいビデオ作成ツールとして確立されました。
  1. キャラクターの制作と構造のガイドとの緊張を成功裏に調和させる柔軟な構造ガイド付きテキストからビデオアプローチが提案されました。
  1. チームはまた、現在の競合と比較して大幅に優れたパーソナライゼーションアプローチの新しい概念TimeInvを紹介しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ビッグテックと生成AI:ビッグテックが生成AIを制御するのか?

「ビッグテックと生成AIの深まる関係を探求する:これらの巨人はセクターを支配するのか、それともバランスの取れたAIの景観...

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

機械学習

1時間以内に初めてのディープラーニングアプリを作成しましょう

私はもう10年近くデータ分析をしています時折、データから洞察を得るために機械学習の技術を使用しており、クラシックな機械...

人工知能

生成AIを使用して検索(およびブラウジング)しながら学びます

「Search Generative Experience(SGE)の新しいアップデートにより、人々はオンラインで検索しながら新しいことを簡単に学び...

データサイエンス

「変革を受け入れる:AWSとNVIDIAが創発的なAIとクラウドイノベーションを進める」

Amazon Web ServicesとNVIDIAは、最新の生成AI技術を世界中の企業にもたらします。 AIとクラウドコンピューティングを結び付...

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...