メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

Maryland University and Meta AI researchers propose a new video matting method called OmnimatteRF. This method combines dynamic 2D foreground layers with a 3D background model.

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。

オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。

オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。

D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。

メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。

3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。

実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。

背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「LLMsを使用して、ロボットの新しいタスクをコーディングする」

研究チームが、大規模な言語モデルを使用してロボットに新しいタスクをコーディングし、それをシミュレートするツールを開発...

人工知能

アーティストやクリエイターにとって最高のAIツール(2023年)

Otter.AI Otter.aiは、効率的なミーティングや会話の録音と記述を行うためのAIパワードプラットフォームです。自動音声認識を...

AIニュース

「AmazonがAIによるレビューの要約を導入」

1995年、Amazonは顧客レビューのコンセプトを導入することで、電子商取引の風景を一変させました。これは、ショッパーが製品...

機械学習

「GlotLIDをご紹介します:1665言語に対応するオープンソースの言語識別(LID)モデル」

近年、異なる国境間でのコミュニケーションが絶えず進展している中で、言語の包括性は重要です。自然言語処理(NLP)技術は、...

データサイエンス

2023年に知っておくべきトップ10のパワフルなデータモデリングツール

イントロダクション データ駆動型の意思決定の時代において、競争力を維持するために正確なデータモデリングツールを持つこと...

データサイエンス

機械学習システムにおけるデータ品質の維持

機械学習(ML)の眩しい世界では、洗練されたアルゴリズム、魅力的な視覚化、印象的な予測を考案する魅力に夢中になることは...