ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身
ビデオオブジェクトセグメンテーションの革命:可愛い子の明らかな化身をもたらす高度なオブジェクトレベルのメモリ読み取り技術 (Videō obujekuto segumentēshon no kakumei Kawaii ko no akiraka na keshin o motarasu kōdo na obujekuto reberu no omoi yomitōgei)
オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデオオブジェクトセグメンテーション(VOS)のために必要です、より正確に言えば、「半教師あり」オプションです。 VOSの技術は、全般的なビデオセグメンテーション(トラッキングアンシングなど)とロボット工学、ビデオ編集、データアノテーションのコスト削減に対応するために、Segment Anything Models(SAMs)と組み合わせることができます。現代のVOSメソッドは、メモリベースのパラダイムを使用しています。任意の新しいクエリフレームは、セグメンテーションのための特徴を抽出するために、このメモリから「読み取り」ます。このメモリ表現は、以前にセグメンテーションされたフレームを使用して生成されます(入力として供給されるか、モデルによってセグメンテーションされます)。
重要なのは、これらの方法は、ピクセルメモリの読み取りからセグメンテーションをボトムアップで作成し、メモリ読み取りに対して主にピクセルレベルのマッチングを使用する点です。ピクセルレベルのマッチングは、各メモリピクセルをクエリピクセルの線形結合に変換します(たとえば、注意レイヤーを使用して)。その結果、ピクセルレベルのマッチングは低レベルの一貫性を持ち、特に混乱要因がある場合にはマッチングノイズの影響を受けやすくなります。その結果、オクルージョンや頻繁な干渉を含む困難な状況では、個々のパフォーマンスが悪化します。具体的には、デフォルトのDAVIS-2017データセットではなく、最近提案された困難なMOSEデータセットを評価する場合、現在の技術のパフォーマンスはJ&Fで20ポイント以上悪化します。
彼らは困難なケースで失望させる結果の原因は、オブジェクトレベルの思考の欠如であると信じています。彼らはこの問題を解決するためにオブジェクトレベルのメモリ読み取りを提案しており、これによりオブジェクトがメモリからクエリフレームに戻されます(図1)。彼らは、オブジェクトクエリとして記述される現在のクエリベースのオブジェクト検出/セグメンテーションの方法にインスピレーションを与えるため、オブジェクトトランスフォーマーを使用してオブジェクトレベルのメモリ読み取りを実現しています。1)特徴マップの反復的な探求と校正(ピクセルレベルのメモリの読み出しから開始)および2)オブジェクトレベルの情報をエンコードするために、このオブジェクトトランスフォーマーは限られた数のエンドツーエンドトレーニングされたオブジェクトクエリを使用します。この方法により、ハイレベル/グローバルなオブジェクトクエリ表現と低レベル/高解像度の特徴マップの双方向のトップダウンおよびボトムアップの通信が可能になります。
- アデプトAIはFuyu-8Bをオープンソース化しました:人工知能エージェントのためのマルチモーダルアーキテクチャ
- 「人工知能生成コンテンツ(AIGC)におけるビデオ拡散モデルの包括的なレビュー」
- 「Amazon Personalizeと生成AIでマーケティングソリューションを向上させましょう」
図1は、ピクセルレベルのメモリ読み取りとオブジェクトレベルのメモリ読み取りを対比しています。各ボックスの左側に参照フレーム、右側にセグメンテーション可能なクエリフレームが表示されます。赤い矢印が間違った一致を示しています。混乱要因がある場合、低レベルのピクセルマッチングは(大声になるかもしれません)低信頼性のビデオオブジェクトセグメンテーションのために、オブジェクトレベルのメモリ読み取りをおすすめします。
この通信のために、提案された前景-背景マスク付きアテンションを含む一連のアテンションレイヤーがパラメーター化されます。前景のみのマスク付きアテンションから派生し、マスク付きアテンションにより、一部のオブジェクトクエリは前景にのみ焦点を当て、残りの質問は背景のみに焦点を当てることができ、グローバルな特徴の相互作用と明確な前景/背景の意味的区別を可能にします。また、ターゲットオブジェクトの特徴を凝縮するために、ピクセルメモリに加えてコンパクトなオブジェクトメモリも組み込まれています。このオブジェクトメモリは、ターゲット固有の特徴を持ち、エンドツーエンドのオブジェクト検索を改善し、ターゲットオブジェクトの効果的な長期表現を可能にします。
テストでは、提案されたCutie法は、困難な状況(MOSEの場合、XMemよりも+8.7 J&F)で以前の方法を上回り、DAVISやYouTubeVOSなどの一般的なデータセットで競争力のある精度と効率のレベルを維持しつつ、優れたパフォーマンスを発揮します。結論として、イリノイ大学アーバナシャンペーン校とアドビリサーチの研究者が、オブジェクトレベルのメモリ読み取りを持つCutieを作成しました。
• ピクセルレベルのボトムアップ特徴とハイレベルのトップダウンクエリを組み合わせて、大きな遮蔽や干渉がある困難な状況での効果的なビデオオブジェクトセグメンテーションを実現します。
• 彼らはリッチなシーンの要素を保持しながら、ターゲットアイテムを取り巻く邪魔要素からの注意を喚起するため、マスクされた焦点を前景と背景に広げます。
• クエリ中のターゲット固有のオブジェクトレベル表現として後で検索するために、コンパクトなオブジェクトメモリを構築します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles