コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

Cornell University AI researchers propose a new neural network framework to address video matting problems.

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラーニング(DL)の登場により、画像と動画の編集は、いくつかのニューラルネットワークアーキテクチャを通じて徐々に研究されてきました。最近まで、画像と動画の編集のためのほとんどのDLモデルは、教師あり学習であり、具体的には、望ましい変換の詳細を学習するために入力と出力データのペアを含むトレーニングデータが必要でした。最近では、単一の画像のみを入力として望ましい編集済み出力へのマッピングを学習するエンドツーエンドの学習フレームワークが提案されています。

ビデオマッティングは、ビデオ編集に属する特定のタスクです。マッティングという用語は、19世紀にさかのぼり、撮影中にカメラの前にマットペイントのガラス板を設置して、撮影場所に存在しない環境の錯覚を作り出すために使用されました。現在では、複数のデジタル画像の合成は類似の手順に従います。合成式は、各画像の前景と背景の強度を、それぞれの成分の線形結合として表します。

このプロセスは非常に強力ですが、いくつかの制約があります。画像を前景と背景のレイヤーに明確に分解する必要があり、それらは独立して処理可能であると仮定されます。ビデオマッティングなどの一連の時間的および空間的に依存するフレームのような状況では、レイヤーの分解は複雑なタスクとなります。

本論文では、このプロセスの解明と分解の精度向上を目指しています。著者らは、下流の編集タスクのためにビデオをより独立した構成要素に分解するマッティング問題の変種であるファクターマッティングを提案しています。この問題に対処するために、彼らはシーン内の予想される変形に基づいた条件付き事前知識を古典的なマッティング事前知識に組み合わせた使いやすいフレームワークであるFactorMatteを提案しています。たとえば、最大事後確率の推定を指す古典的なベイズの式には、前景と背景の独立性に関する制限を取り除くための拡張が行われています。さらに、ほとんどのアプローチでは、背景レイヤーが時間の経過に伴って静的なままであるという仮定がされていますが、これはほとんどのビデオシーケンスにとって制限があります。

これらの制約を克服するために、FactorMatteは2つのモジュールに依存しています。デコンポジションネットワークは、各成分ごとに入力ビデオを1つ以上のレイヤーに分解し、各成分に対する条件付き事前知識を表すパッチベースの識別器のセットです。アーキテクチャのパイプラインは以下のように示されます。

デコンポジションネットワークへの入力は、フレームごとに対象オブジェクトの粗いセグメンテーションマスクを含むビデオです(左、黄色のボックス)。この情報を元に、ネットワークは再構成損失に基づいてカラーとアルファのレイヤー(中央、緑と青のボックス)を生成します。前景レイヤーは前景成分をモデル化します(右、緑のボックス)、一方、環境レイヤーと残差レイヤーは背景成分をモデル化します(右、青のボックス)。環境レイヤーは背景の静的な要素を表し、残差レイヤーは前景オブジェクトとの相互作用による背景成分のより不規則な変化を捉えます(図の枕の変形)。これらのレイヤーごとに、各成分の事前確率を学習するための1つの識別器がトレーニングされています。

選択されたサンプルに対するマッティングの結果は、以下の図に示されています。

FactorMatteは完璧ではありませんが、生成された結果はベースライン手法(OmniMatte)よりも明らかに正確です。すべてのサンプルにおいて、背景と前景のレイヤーはきれいに分離されており、比較解決策では断定することができません。さらに、削除実験を行い、提案された解決策の有効性を証明しました。

これがビデオマッティング問題に対処するための新しいフレームワークであるFactorMatteの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIシステム:発見されたバイアスと真の公正性への魅力的な探求

「人工知能(AI)はもはや未来の概念ではありません-それは私たちの生活の一部になっています Visaが1秒間に1,700件のトラン...

AI研究

中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」

大規模言語モデル(LLM)の新しい知識の取り扱い能力を評価することは困難です。北京大学の研究者たちは、既存のエンティティ...

機械学習

「ニューラルネットワークの多様性の力を解き放つ:適応ニューロンが画像分類と非線形回帰で均一性を上回る方法」

ニューラルネットワークは、人間の脳に触発された方法でデータを処理するための人工知能の手法です。ニューラルネットワーク...

人工知能

ダリー3がChatGPTの統合を持ってここに登場しました

「OpenAIの新しい画像生成モデルDALL·E 3がどのように限界を em>普及可能にするかを掘り下げてみて、画像生成がよりアクセ...

機械学習

ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます

急速に進化するGenerative AI(GenAI)領域での責任追及を促進する前例のない取り組みとして、Vectaraはオープンソースの幻覚...

AIニュース

「ブラックボックスを開く」

研究者は、説明可能な設計空間探索を通じて、科学者やプロセッサ設計者が深層学習アクセラレータの設計の根本的な理論を理解...