SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです

'SAM-PTは、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです'

ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニューラルネットワークは過去数年間で大きな進歩を遂げています。しかし、既存の手法は未試験データに対してサポートが必要であり、特にゼロショットのシナリオでは困難です。これらのモデルは、一貫したパフォーマンスを維持するために、特定のビデオセグメンテーションデータをファインチューニングする必要があります。ゼロショットの設定やこれらのモデルが訓練されていないビデオドメインに移され、訓練分布外のオブジェクトカテゴリを含む場合、半教師ありビデオオブジェクトセグメンテーション(VOS)およびビデオインスタンスセグメンテーション(VIS)の現在の手法は、未知のデータを扱う際に性能のギャップが生じます。

ビデオセグメンテーションタスクにおいて、画像セグメンテーションドメインから成功したモデルを使用することは、これらの問題に対する潜在的な解決策を提供します。Segment Anything(SAM)はそのような有望なコンセプトの一つです。SA-1Bデータセットは、1億枚以上のマスクを持つ1,100万枚以上の画像で構成され、SAMのトレーニンググラウンドとして機能しました。SAMの優れたゼロショットの汎化能力は、巨大なトレーニングセットによって可能になりました。このモデルは、ゼロショットの転送プロトコルを使用してさまざまな下流タスクで信頼性の高い動作をすることが証明されており、非常にカスタマイズ可能で、単一の前景点から高品質なマスクを作成することができます。

SAMは優れたゼロショットの画像セグメンテーション能力を示します。しかし、ビデオセグメンテーションの問題には自然に適していません。最近、SAMはビデオセグメンテーションを含めるように改良されました。例えば、TAMはSAMを最先端のメモリベースのマスクトラッカーXMemと組み合わせます。SAM-TrackはDeAOTとSAMを組み合わせる方法と同様です。これらの手法は、主にSAMのインディストリビューションデータでのパフォーマンスを回復させますが、より困難なゼロショットの条件に適用すると不十分です。SegGPTなどのSAMを必要としない他のビジュアルプロンプティングによって、多くのセグメンテーションの問題が解決されるかもしれませんが、初期のビデオフレームにマスク注釈が必要です。

この問題は、特に研究者が新しい状況に一般化し、さまざまなビデオドメインで高品質なセグメンテーションを信頼性良く生成するための簡単な手法を作成しようとする中で、ゼロショットのビデオセグメンテーションにおいて大きな障害となります。ETH Zurich、HKUST、EPFLの研究者は、Segment Anything Meets Point Tracking(SAM-PT)を紹介しています。このアプローチは、スパースポイントトラッキングとSAMを使用して、ビデオをセグメンテーションする最初のアプローチであり、問題に新たな解決策を提供します。マスクの伝播やオブジェクト中心の密な特徴マッチングではなく、映画にエンコードされた詳細なローカル構造データを使用してポイントをトラッキングする、ポイント駆動の方法を提案しています。

そのため、ターゲットアイテムを示すために最初のフレームでスパースポイントの注釈のみが必要であり、未知のオブジェクトに対する優れた汎化能力を提供します。この戦略は、オープンワールドのUVOベンチマークで証明された強みを持っています。この方法により、SAMの柔軟性を維持しながら、ビデオセグメンテーションの能力を効果的に拡張できます。PIPSなどの現代のポイントトラッカーの適応性を活用し、これらのツールを使用して予測されたスパースポイント軌跡でSAM-PTを促進します。彼らは、SAMを促進するための最も適したアプローチは、マスクラベルからのK-Medoidsクラスターセンターを使用してトラッキングする場所を初期化することであると結論づけました。

背景とターゲットアイテムを明確に区別するために、ポジティブポイントとネガティブポイントの両方をトラッキングします。彼らは、両方のポイントを使用して出力マスクをさらに改善する異なるマスクデコーディングプロセスを提案しています。また、トラッキングの精度を時間とともに向上させるためのポイント再初期化技術も開発しました。この方法では、信頼性が低いまたは遮蔽されたポイントは破棄され、オブジェクトのセクションやセグメントが後続フレームで可視化される場合(例:オブジェクトの回転時)、それらのポイントが追加されます。

特筆すべきは、彼らのテスト結果が、SAM-PTがいくつかのビデオセグメンテーションベンチマークで既存のゼロショットアプローチと同等またはそれ以上の性能を発揮することを示していることです。これは、トレーニング中にビデオセグメンテーションデータが必要なかったため、彼らの手法がどれだけ適応性があり信頼性があるかを示しています。ゼロショットの設定では、SAM-PTはビデオセグメンテーションタスクの進捗を加速することができます。彼らのウェブサイトには、複数のインタラクティブなビデオデモがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...

AIニュース

「FacebookとInstagramにて、Metaが新しいAI機能を発表」

人工知能において注目すべき進展が詰まった2022年において、Metaは革新的な進歩を遂げ、確実にリードを取っています。仮想ア...

データサイエンス

なぜAIチップの将来がニューロモーフィックコンピューティングにおいて重要なのか?

神経形態計算はAIとIoTを変革する可能性がありますより正確で多様性に富み、信頼性の高いアクセスしやすいAIの波を引き起こす...

データサイエンス

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

はじめに AIアプリケーションとユースケースの台頭に伴い、AIアプリケーションを容易にし、AI開発者が実世界のアプリケーショ...

データサイエンス

AIがセキュリティを向上させる方法

AIはマルウェアの検出、サイバー脅威の特定と対応、機密データの保護、そして重要なインフラストラクチャのセキュリティ向上...

機械学習

アーサーがベンチを発表:仕事に最適な言語モデルを見つけるためのAIツール

ニューヨーク市の通りでは、AIの新興スタートアップ「Arthur」が機械学習の世界で話題をさらっています。生成型AIに関するブ...