ビデオスワップに会おう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズする人工知能フレームワーク

ビデオスワップを楽しもう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズするAIフレームワーク

最近、ビデオ編集において人工知能(AI)を使った編集が進化しています。今回はその中でも特に有望な分野として、拡散ベースのビデオ編集が注目されています。この手法は、スタイル変更や背景の交換などの課題に対して、事前学習済みのテキストから画像/ビデオに拡散させるモデルを利用します。しかし、ビデオ編集における最も困難な部分は、ソースから編集されたビデオへのモーションの移行と、全体のプロセスでの時間的な一貫性の確保です。

ほとんどのビデオ編集ツールは、時間的な一貫性とモーションの整列を保持することに焦点を当てています。しかし、形状の変更に取り組む場合には効果的ではありません。このギャップに対処するために、本論文の著者(ショーラボの研究者、シンガポール国立大学、およびMetaの研究者)は、VideoSwapというフレームワークを開発しました。このフレームワークは、密な点の代わりに意味的な点の一致を使用して主体のモーション軌跡を整列させ、形状を変更するために使用されます。

密な点の一致を使用することで、時間的な一貫性が向上しますが、編集されたビデオの主体の形状の変更を制限します。一方、意味的な点の一致を使用する方法は柔軟ですが、さまざまなオープンワールドの設定で変動するため、一般的な条件モデルの学習が困難となります。研究者たちは、限られた数のソースビデオフレームのみを使用して意味的な点の制御を学習しようとしました。その結果、ソースビデオフレーム上で最適化された点が、主体のモーション軌跡を整列させるだけでなく、主体の形状も変えることができることがわかりました。さらに、最適化された意味的な点は、意味や低レベルの変化を超えて転送することもできます。これらの観察結果から、ビデオ編集で意味的な点の一致を使用することが有効とされています。

研究者たちは以下の方法でフレームワークを設計しました。まず、モーションレイヤーを画像拡散モデルに統合し、時間的な一貫性を確保しました。次に、ソースビデオ内で意味的な点を特定し、主体のモーション軌跡の転送に使用しました。この手法は、高レベルの意味的な整列に焦点を当てるため、低レベルの詳細を学習しないようになっており、意味的な点の整列を向上させています。さらに、VideoSwapにはユーザーとのポイントのやり取りもあり、多数の意味的な点の対応において点の削除やドラッグなどの操作が可能です。

研究者たちは、Latent Diffusion Modelを使用してフレームワークを実装し、基礎モデルとしてAnimateDiffでモーションレイヤーを採用しました。結果として、従来のビデオ編集手法と比較して、VideoSwapはソースのモーション軌跡を整列させつつ、対象の概念の形状を変更することに成功しました。また、研究者たちは、ヒューマンエバルエーターを使用して結果を検証し、主体の一貫性、モーションの整列、時間的な一貫性などのメトリックにおいて、VideoSwapが他の比較手法を圧倒する結果を示しました。

まとめると、VideoSwapは複雑な形状を含むビデオ編集にも適用可能な柔軟なフレームワークです。この方法は、プロセス中の人間の介入を制限し、意味的な点の一致を使用してビデオの主体を交換します。また、形状の変更と同時にソースオブジェクトのモーション軌跡を整列させることができ、複数のメトリックにおいて従来の方法を上回る先端的な結果を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

チャットアプリのLLMを比較する:LLaMA v2チャット対Vicuna

チャットアプリケーションにおいて、LLaMA v2 ChatとVicunaのどちらを使用するべきですか?2つのLLMの詳細な比較、それぞれの...

人工知能

生成AIを使用して検索(およびブラウジング)しながら学びます

「Search Generative Experience(SGE)の新しいアップデートにより、人々はオンラインで検索しながら新しいことを簡単に学び...

機械学習

ハリウッドにおけるディズニーの論争:AIが登場し、脚本家と俳優が退場!

ハリウッドの中心地で、AIは分かれる存在になっています。映画業界の創造的本質を守るディズニーの脚本家や俳優たちは、AIが...

AIニュース

「Nvidiaの画期的なAIイメージパーソナライゼーション:灌流法」

AIアート作成の絶えず進化する世界において、NvidiaはPerfusionと呼ばれる革命的なテキストから画像への個人化手法を発表しま...

データサイエンス

生成AIのアシストを使用して複雑なSQLクエリを作成する

イントロダクション ChatGPTの登場は、AIの歴史において前例のない瞬間を迎えました。ChatGPTや他の多くの生成型AIツールは、...

機械学習

このAI論文では、ディープラーニングモデルを用いたAIS(アンドロゲン不感症)のテストに関する研究が紹介されています

AISはAndrogen Insensitivity Syndromeの略です。AISは若い世代に影響を与え、彼らの生活をさらに悪化させる脊髄脳の問題です...