メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

Maryland University and Meta AI researchers propose a new video matting method called OmnimatteRF. This method combines dynamic 2D foreground layers with a 3D background model.

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。

オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。

オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。

D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。

メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。

3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。

実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。

背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「機械学習分類のための適合予測—基礎からのアプローチ」

このブログ投稿は、クリス・モーラーの書籍「Pythonによる確定予測のはじめに」に触発されていますクリスは、新しい機械学習...

AI研究

「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」

ヒューマンインプットは、社会的な対話モデルを改善するための重要な戦術です。ヒューマンフィードバックを用いた強化学習で...

機械学習

一緒にAIを学ぶ - Towards AI コミュニティニュースレター第4号

おはようございます、AI愛好者の皆さん! 今号では、Activeloopと共同で取り組んでいる大規模な言語モデル(LLM)のパフォー...

AI研究

中国の新しいAI研究は、ハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4Dポイントクラウド表現である4K4Dを提案しています

Dynamic view synthesisは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型の仮想再生を作成するプロセスです...

データサイエンス

「HaystackにおけるRAGパイプラインの拡張 DiversityRankerとLostInTheMiddleRankerの紹介」

最近の自然言語処理(NLP)と長文質問応答(LFQA)の進歩は、わずか数年前にはまるでSFの世界から来たようなものだと思われて...

人工知能

ジェネラティブAIをマスターするための5つの無料コース

『創造的AIは、研究と応用の興奮を引き起こす速い領域です最新情報に追いつき、流れに先んじるために、以下の5つのコースをチ...