ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

ビデオオブジェクトセグメンテーションの革命:可愛い子の明らかな化身をもたらす高度なオブジェクトレベルのメモリ読み取り技術 (Videō obujekuto segumentēshon no kakumei Kawaii ko no akiraka na keshin o motarasu kōdo na obujekuto reberu no omoi yomitōgei)

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデオオブジェクトセグメンテーション(VOS)のために必要です、より正確に言えば、「半教師あり」オプションです。 VOSの技術は、全般的なビデオセグメンテーション(トラッキングアンシングなど)とロボット工学、ビデオ編集、データアノテーションのコスト削減に対応するために、Segment Anything Models(SAMs)と組み合わせることができます。現代のVOSメソッドは、メモリベースのパラダイムを使用しています。任意の新しいクエリフレームは、セグメンテーションのための特徴を抽出するために、このメモリから「読み取り」ます。このメモリ表現は、以前にセグメンテーションされたフレームを使用して生成されます(入力として供給されるか、モデルによってセグメンテーションされます)。

重要なのは、これらの方法は、ピクセルメモリの読み取りからセグメンテーションをボトムアップで作成し、メモリ読み取りに対して主にピクセルレベルのマッチングを使用する点です。ピクセルレベルのマッチングは、各メモリピクセルをクエリピクセルの線形結合に変換します(たとえば、注意レイヤーを使用して)。その結果、ピクセルレベルのマッチングは低レベルの一貫性を持ち、特に混乱要因がある場合にはマッチングノイズの影響を受けやすくなります。その結果、オクルージョンや頻繁な干渉を含む困難な状況では、個々のパフォーマンスが悪化します。具体的には、デフォルトのDAVIS-2017データセットではなく、最近提案された困難なMOSEデータセットを評価する場合、現在の技術のパフォーマンスはJ&Fで20ポイント以上悪化します。

彼らは困難なケースで失望させる結果の原因は、オブジェクトレベルの思考の欠如であると信じています。彼らはこの問題を解決するためにオブジェクトレベルのメモリ読み取りを提案しており、これによりオブジェクトがメモリからクエリフレームに戻されます(図1)。彼らは、オブジェクトクエリとして記述される現在のクエリベースのオブジェクト検出/セグメンテーションの方法にインスピレーションを与えるため、オブジェクトトランスフォーマーを使用してオブジェクトレベルのメモリ読み取りを実現しています。1)特徴マップの反復的な探求と校正(ピクセルレベルのメモリの読み出しから開始)および2)オブジェクトレベルの情報をエンコードするために、このオブジェクトトランスフォーマーは限られた数のエンドツーエンドトレーニングされたオブジェクトクエリを使用します。この方法により、ハイレベル/グローバルなオブジェクトクエリ表現と低レベル/高解像度の特徴マップの双方向のトップダウンおよびボトムアップの通信が可能になります。

図1は、ピクセルレベルのメモリ読み取りとオブジェクトレベルのメモリ読み取りを対比しています。各ボックスの左側に参照フレーム、右側にセグメンテーション可能なクエリフレームが表示されます。赤い矢印が間違った一致を示しています。混乱要因がある場合、低レベルのピクセルマッチングは(大声になるかもしれません)低信頼性のビデオオブジェクトセグメンテーションのために、オブジェクトレベルのメモリ読み取りをおすすめします。

この通信のために、提案された前景-背景マスク付きアテンションを含む一連のアテンションレイヤーがパラメーター化されます。前景のみのマスク付きアテンションから派生し、マスク付きアテンションにより、一部のオブジェクトクエリは前景にのみ焦点を当て、残りの質問は背景のみに焦点を当てることができ、グローバルな特徴の相互作用と明確な前景/背景の意味的区別を可能にします。また、ターゲットオブジェクトの特徴を凝縮するために、ピクセルメモリに加えてコンパクトなオブジェクトメモリも組み込まれています。このオブジェクトメモリは、ターゲット固有の特徴を持ち、エンドツーエンドのオブジェクト検索を改善し、ターゲットオブジェクトの効果的な長期表現を可能にします。

テストでは、提案されたCutie法は、困難な状況(MOSEの場合、XMemよりも+8.7 J&F)で以前の方法を上回り、DAVISやYouTubeVOSなどの一般的なデータセットで競争力のある精度と効率のレベルを維持しつつ、優れたパフォーマンスを発揮します。結論として、イリノイ大学アーバナシャンペーン校とアドビリサーチの研究者が、オブジェクトレベルのメモリ読み取りを持つCutieを作成しました。

• ピクセルレベルのボトムアップ特徴とハイレベルのトップダウンクエリを組み合わせて、大きな遮蔽や干渉がある困難な状況での効果的なビデオオブジェクトセグメンテーションを実現します。

• 彼らはリッチなシーンの要素を保持しながら、ターゲットアイテムを取り巻く邪魔要素からの注意を喚起するため、マスクされた焦点を前景と背景に広げます。

• クエリ中のターゲット固有のオブジェクトレベル表現として後で検索するために、コンパクトなオブジェクトメモリを構築します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「プリズマーに会いましょう:専門家のアンサンブルを持つオープンソースのビジョン-言語モデル」

最近の多くのビジョン言語モデルは、非常に注目すべき多様な生成能力を示しています。しかし、通常、それらは膨大なモデルと...

AIニュース

HLTH 2023 AIを責任を持って医療に導入する

今年、AIについて話す人々が増えています医療の課題を解決するためには技術だけではなく、AIも必要ですが、AIこそが私たちが...

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...

データサイエンス

「ジェネレーティブAI 2024年とその先:未来の一瞥」

「ジェネレーティブAIファブリックの台頭から倫理が新しいNFRとなるまで、ジェネレーティブAI技術が2024年にもたらすものを探...

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

AIニュース

Google Pixel Watchが落下を検知する方法

Google Pixel Watchの落下検知機能をスタントダブルからAIまでどのように構築したかを学びましょう