SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです
'SAM-PTは、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです'
ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニューラルネットワークは過去数年間で大きな進歩を遂げています。しかし、既存の手法は未試験データに対してサポートが必要であり、特にゼロショットのシナリオでは困難です。これらのモデルは、一貫したパフォーマンスを維持するために、特定のビデオセグメンテーションデータをファインチューニングする必要があります。ゼロショットの設定やこれらのモデルが訓練されていないビデオドメインに移され、訓練分布外のオブジェクトカテゴリを含む場合、半教師ありビデオオブジェクトセグメンテーション(VOS)およびビデオインスタンスセグメンテーション(VIS)の現在の手法は、未知のデータを扱う際に性能のギャップが生じます。
ビデオセグメンテーションタスクにおいて、画像セグメンテーションドメインから成功したモデルを使用することは、これらの問題に対する潜在的な解決策を提供します。Segment Anything(SAM)はそのような有望なコンセプトの一つです。SA-1Bデータセットは、1億枚以上のマスクを持つ1,100万枚以上の画像で構成され、SAMのトレーニンググラウンドとして機能しました。SAMの優れたゼロショットの汎化能力は、巨大なトレーニングセットによって可能になりました。このモデルは、ゼロショットの転送プロトコルを使用してさまざまな下流タスクで信頼性の高い動作をすることが証明されており、非常にカスタマイズ可能で、単一の前景点から高品質なマスクを作成することができます。
SAMは優れたゼロショットの画像セグメンテーション能力を示します。しかし、ビデオセグメンテーションの問題には自然に適していません。最近、SAMはビデオセグメンテーションを含めるように改良されました。例えば、TAMはSAMを最先端のメモリベースのマスクトラッカーXMemと組み合わせます。SAM-TrackはDeAOTとSAMを組み合わせる方法と同様です。これらの手法は、主にSAMのインディストリビューションデータでのパフォーマンスを回復させますが、より困難なゼロショットの条件に適用すると不十分です。SegGPTなどのSAMを必要としない他のビジュアルプロンプティングによって、多くのセグメンテーションの問題が解決されるかもしれませんが、初期のビデオフレームにマスク注釈が必要です。
この問題は、特に研究者が新しい状況に一般化し、さまざまなビデオドメインで高品質なセグメンテーションを信頼性良く生成するための簡単な手法を作成しようとする中で、ゼロショットのビデオセグメンテーションにおいて大きな障害となります。ETH Zurich、HKUST、EPFLの研究者は、Segment Anything Meets Point Tracking(SAM-PT)を紹介しています。このアプローチは、スパースポイントトラッキングとSAMを使用して、ビデオをセグメンテーションする最初のアプローチであり、問題に新たな解決策を提供します。マスクの伝播やオブジェクト中心の密な特徴マッチングではなく、映画にエンコードされた詳細なローカル構造データを使用してポイントをトラッキングする、ポイント駆動の方法を提案しています。
そのため、ターゲットアイテムを示すために最初のフレームでスパースポイントの注釈のみが必要であり、未知のオブジェクトに対する優れた汎化能力を提供します。この戦略は、オープンワールドのUVOベンチマークで証明された強みを持っています。この方法により、SAMの柔軟性を維持しながら、ビデオセグメンテーションの能力を効果的に拡張できます。PIPSなどの現代のポイントトラッカーの適応性を活用し、これらのツールを使用して予測されたスパースポイント軌跡でSAM-PTを促進します。彼らは、SAMを促進するための最も適したアプローチは、マスクラベルからのK-Medoidsクラスターセンターを使用してトラッキングする場所を初期化することであると結論づけました。
背景とターゲットアイテムを明確に区別するために、ポジティブポイントとネガティブポイントの両方をトラッキングします。彼らは、両方のポイントを使用して出力マスクをさらに改善する異なるマスクデコーディングプロセスを提案しています。また、トラッキングの精度を時間とともに向上させるためのポイント再初期化技術も開発しました。この方法では、信頼性が低いまたは遮蔽されたポイントは破棄され、オブジェクトのセクションやセグメントが後続フレームで可視化される場合(例:オブジェクトの回転時)、それらのポイントが追加されます。
特筆すべきは、彼らのテスト結果が、SAM-PTがいくつかのビデオセグメンテーションベンチマークで既存のゼロショットアプローチと同等またはそれ以上の性能を発揮することを示していることです。これは、トレーニング中にビデオセグメンテーションデータが必要なかったため、彼らの手法がどれだけ適応性があり信頼性があるかを示しています。ゼロショットの設定では、SAM-PTはビデオセグメンテーションタスクの進捗を加速することができます。彼らのウェブサイトには、複数のインタラクティブなビデオデモがあります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles