ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

ビデオオブジェクトセグメンテーションの革命:可愛い子の明らかな化身をもたらす高度なオブジェクトレベルのメモリ読み取り技術 (Videō obujekuto segumentēshon no kakumei Kawaii ko no akiraka na keshin o motarasu kōdo na obujekuto reberu no omoi yomitōgei)

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデオオブジェクトセグメンテーション(VOS)のために必要です、より正確に言えば、「半教師あり」オプションです。 VOSの技術は、全般的なビデオセグメンテーション(トラッキングアンシングなど)とロボット工学、ビデオ編集、データアノテーションのコスト削減に対応するために、Segment Anything Models(SAMs)と組み合わせることができます。現代のVOSメソッドは、メモリベースのパラダイムを使用しています。任意の新しいクエリフレームは、セグメンテーションのための特徴を抽出するために、このメモリから「読み取り」ます。このメモリ表現は、以前にセグメンテーションされたフレームを使用して生成されます(入力として供給されるか、モデルによってセグメンテーションされます)。

重要なのは、これらの方法は、ピクセルメモリの読み取りからセグメンテーションをボトムアップで作成し、メモリ読み取りに対して主にピクセルレベルのマッチングを使用する点です。ピクセルレベルのマッチングは、各メモリピクセルをクエリピクセルの線形結合に変換します(たとえば、注意レイヤーを使用して)。その結果、ピクセルレベルのマッチングは低レベルの一貫性を持ち、特に混乱要因がある場合にはマッチングノイズの影響を受けやすくなります。その結果、オクルージョンや頻繁な干渉を含む困難な状況では、個々のパフォーマンスが悪化します。具体的には、デフォルトのDAVIS-2017データセットではなく、最近提案された困難なMOSEデータセットを評価する場合、現在の技術のパフォーマンスはJ&Fで20ポイント以上悪化します。

彼らは困難なケースで失望させる結果の原因は、オブジェクトレベルの思考の欠如であると信じています。彼らはこの問題を解決するためにオブジェクトレベルのメモリ読み取りを提案しており、これによりオブジェクトがメモリからクエリフレームに戻されます(図1)。彼らは、オブジェクトクエリとして記述される現在のクエリベースのオブジェクト検出/セグメンテーションの方法にインスピレーションを与えるため、オブジェクトトランスフォーマーを使用してオブジェクトレベルのメモリ読み取りを実現しています。1)特徴マップの反復的な探求と校正(ピクセルレベルのメモリの読み出しから開始)および2)オブジェクトレベルの情報をエンコードするために、このオブジェクトトランスフォーマーは限られた数のエンドツーエンドトレーニングされたオブジェクトクエリを使用します。この方法により、ハイレベル/グローバルなオブジェクトクエリ表現と低レベル/高解像度の特徴マップの双方向のトップダウンおよびボトムアップの通信が可能になります。

図1は、ピクセルレベルのメモリ読み取りとオブジェクトレベルのメモリ読み取りを対比しています。各ボックスの左側に参照フレーム、右側にセグメンテーション可能なクエリフレームが表示されます。赤い矢印が間違った一致を示しています。混乱要因がある場合、低レベルのピクセルマッチングは(大声になるかもしれません)低信頼性のビデオオブジェクトセグメンテーションのために、オブジェクトレベルのメモリ読み取りをおすすめします。

この通信のために、提案された前景-背景マスク付きアテンションを含む一連のアテンションレイヤーがパラメーター化されます。前景のみのマスク付きアテンションから派生し、マスク付きアテンションにより、一部のオブジェクトクエリは前景にのみ焦点を当て、残りの質問は背景のみに焦点を当てることができ、グローバルな特徴の相互作用と明確な前景/背景の意味的区別を可能にします。また、ターゲットオブジェクトの特徴を凝縮するために、ピクセルメモリに加えてコンパクトなオブジェクトメモリも組み込まれています。このオブジェクトメモリは、ターゲット固有の特徴を持ち、エンドツーエンドのオブジェクト検索を改善し、ターゲットオブジェクトの効果的な長期表現を可能にします。

テストでは、提案されたCutie法は、困難な状況(MOSEの場合、XMemよりも+8.7 J&F)で以前の方法を上回り、DAVISやYouTubeVOSなどの一般的なデータセットで競争力のある精度と効率のレベルを維持しつつ、優れたパフォーマンスを発揮します。結論として、イリノイ大学アーバナシャンペーン校とアドビリサーチの研究者が、オブジェクトレベルのメモリ読み取りを持つCutieを作成しました。

• ピクセルレベルのボトムアップ特徴とハイレベルのトップダウンクエリを組み合わせて、大きな遮蔽や干渉がある困難な状況での効果的なビデオオブジェクトセグメンテーションを実現します。

• 彼らはリッチなシーンの要素を保持しながら、ターゲットアイテムを取り巻く邪魔要素からの注意を喚起するため、マスクされた焦点を前景と背景に広げます。

• クエリ中のターゲット固有のオブジェクトレベル表現として後で検索するために、コンパクトなオブジェクトメモリを構築します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

データサイエンス

テキストから音声へ - 大規模な言語モデルのトレーニング

はじめに 音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。こ...

データサイエンス

「AIとともに音楽生成の世界を探索する」

はじめに AIを利用した音楽生成は、音楽の制作と楽しみ方を変革する貴重な分野として重要性を増しています。このプロジェクト...

人工知能

AIにおけるブロックチェーンの包括的なレビュー

AIとブロックチェーンは、近年最も画期的な技術革新として浮上しています人工知能(AI):機械やコンピュータが人間の思考や...