SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです

'SAM-PTは、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです'

ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニューラルネットワークは過去数年間で大きな進歩を遂げています。しかし、既存の手法は未試験データに対してサポートが必要であり、特にゼロショットのシナリオでは困難です。これらのモデルは、一貫したパフォーマンスを維持するために、特定のビデオセグメンテーションデータをファインチューニングする必要があります。ゼロショットの設定やこれらのモデルが訓練されていないビデオドメインに移され、訓練分布外のオブジェクトカテゴリを含む場合、半教師ありビデオオブジェクトセグメンテーション(VOS)およびビデオインスタンスセグメンテーション(VIS)の現在の手法は、未知のデータを扱う際に性能のギャップが生じます。

ビデオセグメンテーションタスクにおいて、画像セグメンテーションドメインから成功したモデルを使用することは、これらの問題に対する潜在的な解決策を提供します。Segment Anything(SAM)はそのような有望なコンセプトの一つです。SA-1Bデータセットは、1億枚以上のマスクを持つ1,100万枚以上の画像で構成され、SAMのトレーニンググラウンドとして機能しました。SAMの優れたゼロショットの汎化能力は、巨大なトレーニングセットによって可能になりました。このモデルは、ゼロショットの転送プロトコルを使用してさまざまな下流タスクで信頼性の高い動作をすることが証明されており、非常にカスタマイズ可能で、単一の前景点から高品質なマスクを作成することができます。

SAMは優れたゼロショットの画像セグメンテーション能力を示します。しかし、ビデオセグメンテーションの問題には自然に適していません。最近、SAMはビデオセグメンテーションを含めるように改良されました。例えば、TAMはSAMを最先端のメモリベースのマスクトラッカーXMemと組み合わせます。SAM-TrackはDeAOTとSAMを組み合わせる方法と同様です。これらの手法は、主にSAMのインディストリビューションデータでのパフォーマンスを回復させますが、より困難なゼロショットの条件に適用すると不十分です。SegGPTなどのSAMを必要としない他のビジュアルプロンプティングによって、多くのセグメンテーションの問題が解決されるかもしれませんが、初期のビデオフレームにマスク注釈が必要です。

この問題は、特に研究者が新しい状況に一般化し、さまざまなビデオドメインで高品質なセグメンテーションを信頼性良く生成するための簡単な手法を作成しようとする中で、ゼロショットのビデオセグメンテーションにおいて大きな障害となります。ETH Zurich、HKUST、EPFLの研究者は、Segment Anything Meets Point Tracking(SAM-PT)を紹介しています。このアプローチは、スパースポイントトラッキングとSAMを使用して、ビデオをセグメンテーションする最初のアプローチであり、問題に新たな解決策を提供します。マスクの伝播やオブジェクト中心の密な特徴マッチングではなく、映画にエンコードされた詳細なローカル構造データを使用してポイントをトラッキングする、ポイント駆動の方法を提案しています。

そのため、ターゲットアイテムを示すために最初のフレームでスパースポイントの注釈のみが必要であり、未知のオブジェクトに対する優れた汎化能力を提供します。この戦略は、オープンワールドのUVOベンチマークで証明された強みを持っています。この方法により、SAMの柔軟性を維持しながら、ビデオセグメンテーションの能力を効果的に拡張できます。PIPSなどの現代のポイントトラッカーの適応性を活用し、これらのツールを使用して予測されたスパースポイント軌跡でSAM-PTを促進します。彼らは、SAMを促進するための最も適したアプローチは、マスクラベルからのK-Medoidsクラスターセンターを使用してトラッキングする場所を初期化することであると結論づけました。

背景とターゲットアイテムを明確に区別するために、ポジティブポイントとネガティブポイントの両方をトラッキングします。彼らは、両方のポイントを使用して出力マスクをさらに改善する異なるマスクデコーディングプロセスを提案しています。また、トラッキングの精度を時間とともに向上させるためのポイント再初期化技術も開発しました。この方法では、信頼性が低いまたは遮蔽されたポイントは破棄され、オブジェクトのセクションやセグメントが後続フレームで可視化される場合(例:オブジェクトの回転時)、それらのポイントが追加されます。

特筆すべきは、彼らのテスト結果が、SAM-PTがいくつかのビデオセグメンテーションベンチマークで既存のゼロショットアプローチと同等またはそれ以上の性能を発揮することを示していることです。これは、トレーニング中にビデオセグメンテーションデータが必要なかったため、彼らの手法がどれだけ適応性があり信頼性があるかを示しています。ゼロショットの設定では、SAM-PTはビデオセグメンテーションタスクの進捗を加速することができます。彼らのウェブサイトには、複数のインタラクティブなビデオデモがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

データサイエンス

「StackOverflowが生成型AIに対応する方法」

OverflowAIは、強力な生成AIループによってプロセスを効率化することで、コンテンツ作成を革命化します

機械学習

AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンス...

コンピュータサイエンス

「アリババは、量子コンピューティングよりもこれを優先します」

中国のテック巨人であるアリババは最近、量子コンピューティング部門を廃止するという戦略的な重点の大幅な転換を発表しまし...

人工知能

「生成AIの規制」

生成型の人工知能(AI)が注目を集める中、この技術を規制する必要性が高まっていますなぜなら、この技術は大規模な人口に対...

人工知能

「アフリカのコミュニティが気候変動に適応するためにAIが助ける3つの方法」

先週、ケニアのナイロビで初めて開催されたアフリカ気候サミット(ACS)に参加し、アフリカの指導者と共に気候危機に対処する...