ビデオスワップに会おう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズする人工知能フレームワーク

ビデオスワップを楽しもう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズするAIフレームワーク

最近、ビデオ編集において人工知能(AI)を使った編集が進化しています。今回はその中でも特に有望な分野として、拡散ベースのビデオ編集が注目されています。この手法は、スタイル変更や背景の交換などの課題に対して、事前学習済みのテキストから画像/ビデオに拡散させるモデルを利用します。しかし、ビデオ編集における最も困難な部分は、ソースから編集されたビデオへのモーションの移行と、全体のプロセスでの時間的な一貫性の確保です。

ほとんどのビデオ編集ツールは、時間的な一貫性とモーションの整列を保持することに焦点を当てています。しかし、形状の変更に取り組む場合には効果的ではありません。このギャップに対処するために、本論文の著者(ショーラボの研究者、シンガポール国立大学、およびMetaの研究者)は、VideoSwapというフレームワークを開発しました。このフレームワークは、密な点の代わりに意味的な点の一致を使用して主体のモーション軌跡を整列させ、形状を変更するために使用されます。

密な点の一致を使用することで、時間的な一貫性が向上しますが、編集されたビデオの主体の形状の変更を制限します。一方、意味的な点の一致を使用する方法は柔軟ですが、さまざまなオープンワールドの設定で変動するため、一般的な条件モデルの学習が困難となります。研究者たちは、限られた数のソースビデオフレームのみを使用して意味的な点の制御を学習しようとしました。その結果、ソースビデオフレーム上で最適化された点が、主体のモーション軌跡を整列させるだけでなく、主体の形状も変えることができることがわかりました。さらに、最適化された意味的な点は、意味や低レベルの変化を超えて転送することもできます。これらの観察結果から、ビデオ編集で意味的な点の一致を使用することが有効とされています。

研究者たちは以下の方法でフレームワークを設計しました。まず、モーションレイヤーを画像拡散モデルに統合し、時間的な一貫性を確保しました。次に、ソースビデオ内で意味的な点を特定し、主体のモーション軌跡の転送に使用しました。この手法は、高レベルの意味的な整列に焦点を当てるため、低レベルの詳細を学習しないようになっており、意味的な点の整列を向上させています。さらに、VideoSwapにはユーザーとのポイントのやり取りもあり、多数の意味的な点の対応において点の削除やドラッグなどの操作が可能です。

研究者たちは、Latent Diffusion Modelを使用してフレームワークを実装し、基礎モデルとしてAnimateDiffでモーションレイヤーを採用しました。結果として、従来のビデオ編集手法と比較して、VideoSwapはソースのモーション軌跡を整列させつつ、対象の概念の形状を変更することに成功しました。また、研究者たちは、ヒューマンエバルエーターを使用して結果を検証し、主体の一貫性、モーションの整列、時間的な一貫性などのメトリックにおいて、VideoSwapが他の比較手法を圧倒する結果を示しました。

まとめると、VideoSwapは複雑な形状を含むビデオ編集にも適用可能な柔軟なフレームワークです。この方法は、プロセス中の人間の介入を制限し、意味的な点の一致を使用してビデオの主体を交換します。また、形状の変更と同時にソースオブジェクトのモーション軌跡を整列させることができ、複数のメトリックにおいて従来の方法を上回る先端的な結果を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

インドのOla CEO、ブハビッシュ・アガルワルがAI開発に進出します

ダイナミックなテックの風景の中で、インドはAI分野で野心的な新興企業を生み出しています。Ola CEOのBhavish Aggarwalが率い...

データサイエンス

倉庫業務の変革:AIと自動化の力を活用する

グローバルな供給チェーンの進化に伴い、顧客の要求に応える倉庫の役割がますます重要になってきています

人工知能

PaLM 2を紹介します

2023年のGoogle I/Oで、GoogleはPaLM 2という新しい言語モデルを発表しましたこのモデルは、多言語、推論、およびコーディン...

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

人工知能

GPTエンジニア:1つのプロンプトで強力なアプリを構築する

GPTエンジニアは、1つのプロンプトで完全なコーディングプロジェクトを構築できるAIエージェントです

機械学習

チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速

産業革命の発祥地であるイギリスが、次なる革命に巨額な投資を行うことを発表しました。 イギリス政府は、世界最速のAIスパー...