コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

Cornell University AI researchers propose a new neural network framework to address video matting problems.

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラーニング(DL)の登場により、画像と動画の編集は、いくつかのニューラルネットワークアーキテクチャを通じて徐々に研究されてきました。最近まで、画像と動画の編集のためのほとんどのDLモデルは、教師あり学習であり、具体的には、望ましい変換の詳細を学習するために入力と出力データのペアを含むトレーニングデータが必要でした。最近では、単一の画像のみを入力として望ましい編集済み出力へのマッピングを学習するエンドツーエンドの学習フレームワークが提案されています。

ビデオマッティングは、ビデオ編集に属する特定のタスクです。マッティングという用語は、19世紀にさかのぼり、撮影中にカメラの前にマットペイントのガラス板を設置して、撮影場所に存在しない環境の錯覚を作り出すために使用されました。現在では、複数のデジタル画像の合成は類似の手順に従います。合成式は、各画像の前景と背景の強度を、それぞれの成分の線形結合として表します。

このプロセスは非常に強力ですが、いくつかの制約があります。画像を前景と背景のレイヤーに明確に分解する必要があり、それらは独立して処理可能であると仮定されます。ビデオマッティングなどの一連の時間的および空間的に依存するフレームのような状況では、レイヤーの分解は複雑なタスクとなります。

本論文では、このプロセスの解明と分解の精度向上を目指しています。著者らは、下流の編集タスクのためにビデオをより独立した構成要素に分解するマッティング問題の変種であるファクターマッティングを提案しています。この問題に対処するために、彼らはシーン内の予想される変形に基づいた条件付き事前知識を古典的なマッティング事前知識に組み合わせた使いやすいフレームワークであるFactorMatteを提案しています。たとえば、最大事後確率の推定を指す古典的なベイズの式には、前景と背景の独立性に関する制限を取り除くための拡張が行われています。さらに、ほとんどのアプローチでは、背景レイヤーが時間の経過に伴って静的なままであるという仮定がされていますが、これはほとんどのビデオシーケンスにとって制限があります。

これらの制約を克服するために、FactorMatteは2つのモジュールに依存しています。デコンポジションネットワークは、各成分ごとに入力ビデオを1つ以上のレイヤーに分解し、各成分に対する条件付き事前知識を表すパッチベースの識別器のセットです。アーキテクチャのパイプラインは以下のように示されます。

デコンポジションネットワークへの入力は、フレームごとに対象オブジェクトの粗いセグメンテーションマスクを含むビデオです(左、黄色のボックス)。この情報を元に、ネットワークは再構成損失に基づいてカラーとアルファのレイヤー(中央、緑と青のボックス)を生成します。前景レイヤーは前景成分をモデル化します(右、緑のボックス)、一方、環境レイヤーと残差レイヤーは背景成分をモデル化します(右、青のボックス)。環境レイヤーは背景の静的な要素を表し、残差レイヤーは前景オブジェクトとの相互作用による背景成分のより不規則な変化を捉えます(図の枕の変形)。これらのレイヤーごとに、各成分の事前確率を学習するための1つの識別器がトレーニングされています。

選択されたサンプルに対するマッティングの結果は、以下の図に示されています。

FactorMatteは完璧ではありませんが、生成された結果はベースライン手法(OmniMatte)よりも明らかに正確です。すべてのサンプルにおいて、背景と前景のレイヤーはきれいに分離されており、比較解決策では断定することができません。さらに、削除実験を行い、提案された解決策の有効性を証明しました。

これがビデオマッティング問題に対処するための新しいフレームワークであるFactorMatteの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

T5 テキストからテキストへのトランスフォーマー(パート2)

BERT [5] の提案により、自然言語処理(NLP)のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化...

AIニュース

Amazon SageMaker Model Cardの共有を利用して、モデルのガバナンスを向上させる

MLガバナンスの一環として利用可能なツールの1つは、Amazon SageMaker Model Cardsですこのツールは、モデルのライフサイクル...

AI研究

マイクロソフトリサーチがBatteryMLを紹介:バッテリー劣化における機械学習のためのオープンソースツール

リチウムイオン電池は、高いエネルギー密度、長いサイクル寿命、低い自己放電率のおかげで、現代のエネルギー蓄積の要となっ...

AIニュース

「韓国が自律型ロボットに歩道の利用を許可」

「韓国政府は、認可された自律ロボットを国の歩道を走らせることを許可しています」

AIニュース

「Amazon SageMakerを使用して、Llama 2モデルのスループット性能を向上させる」

機械学習(ML)の普及において、私たちは興奮する転換点にいます私たちは、ほとんどの顧客の体験やアプリケーションが生成型A...

AIニュース

「合成イメージングがAIトレーニングの効率性を新たな基準に設定」

研究チームが、合成画像を使用して機械学習モデルをトレーニングすることが、実際の画像を使用した従来のトレーニング方法よ...