「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

SUSTech VIP研究室 proposes the Track Anishing Model (TAM) to achieve high-performance interactive tracking and segmentation.

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション(VOS)は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。

Segment-Anythingアプローチ(SAM)は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。

SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model(TAM)は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。

TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます(つまり、オブジェクトをクリックする)。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。

TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。

提案されたTrack Anything Model(TAM)は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します:

  • 素早く簡単なビデオの転写:TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈(ビデオオブジェクトの追跡およびセグメンテーションなど)に使用することができます。
  • オブジェクトの長期間の観察:長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。
  • 使いやすいビデオエディタ:Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。
  • ビデオ関連の活動の可視化および開発キット:チームはさまざまなビデオ操作(VOS、VOT、ビデオインペイントなど)のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AIがリードジェネレーションにどのように役立つのか?

あなたのサービスや製品が優れていてもユニークであったとしても、効果的にマーケティングできなければ重要ではありません。...

AIテクノロジー

ウェブサイトのためにChatGPTに適切なテクニカルテキストを書かせる方法

「長いテキストを書くように依頼しないでくださいできるだけ多くの詳細と仕様を提供し、適切な言語を使用し、AIディテクター...

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

機械学習

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパタ...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています