メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

Maryland University and Meta AI researchers propose a new video matting method called OmnimatteRF. This method combines dynamic 2D foreground layers with a 3D background model.

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。

オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。

オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。

D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。

メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。

3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。

実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。

背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。イン...

機械学習

「Amazon Transcribe Toxicity Detectionを使用して、会話中の有害な言語をフラグ付けします」

オンラインのソーシャルネットワーキングやオンラインゲームなどの活動が増えるにつれて、しばしば敵意や攻撃的な行動が見ら...

AIニュース

メタのラマ2:商業利用のためのオープンソース化

Facebookの親会社であるMetaは、商業利用のために人工知能モデルであるLlama 2をオープンソース化することで、テック業界に波...

機械学習

「AIブーム:小規模ビジネスのための生成AI実践ガイド」

近年、世界は人工知能(AI)の分野で驚くべき急速な発展を目撃していますこれは単なるテクノロジートレンドではなく、技術革...

AIニュース

グーグルサーチは、Googleサーチで文法チェック機能を備えた革新的なテキスト編集AIモデルであるEdiT5を導入しました

画期的な進歩として、Googleはその検索エンジンに革新的なEdiT5モデルによる最先端の文法修正機能を導入しました。この革新的...

AI研究

ネゲヴのベン・グリオン大学の研究者たちは、社会的規範の違反を特定するAIシステムを設計しました

社会心理学辞典によれば、社会的規範は特定の社会的文脈内で典型的かつ適切な行動を示す社会的に決定された基準です。これら...