メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

Maryland University and Meta AI researchers propose a new video matting method called OmnimatteRF. This method combines dynamic 2D foreground layers with a 3D background model.

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。

オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。

オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。

D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。

メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。

3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。

実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。

背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成AI解放:ソフトウェアエンジニアのためのMLOpsとLLMデプロイメント戦略」

「ジェネラティブAIの活用と未踏の可能性を引き出すためのMLOps戦略とLLM展開ソリューションを探索することで、AIイノベーシ...

AI研究

ワシントン大学とNVIDIAからの研究者が提案するヒューマノイドエージェント:生成エージェントの人間のようなシミュレーションのための人工知能プラットフォーム

人間のような生成エージェントは、自然で魅力的なユーザーインタラクションを提供するために、チャットボットや仮想アシスタ...

データサイエンス

「画像認識の再構想:GoogleのVision Transformer(ViT)モデルが視覚データ処理のパラダイムシフトを明らかにする」

画像認識において、研究者や開発者は常に革新的なアプローチを追求してコンピュータビジョンシステムの精度と効率を向上させ...

データサイエンス

「MITの研究者が開発した機械学習技術により、ディープラーニングモデルがエッジデバイス上で効果的に新しいセンサーデータに適応し、直接学習することが可能となりました」

テクノロジーの急速な進歩により、エッジデバイスは私たちの日常生活の重要な一部となり、完璧にネットワーク化された社会に...

データサイエンス

チャットボットの台頭

ボットがますます巧妙な嘘つきになっているときに、真実を追跡するにはどうすればよいですか?

データサイエンス

このAIニュースレターは、あなたが必要とするすべてです#65

今週のAIでは、AI規制に関する進展がありましたエロン・マスクやマーク・ザッカーバーグなどのテックリーダーが60人以上の上...