「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

SUSTech VIP研究室 proposes the Track Anishing Model (TAM) to achieve high-performance interactive tracking and segmentation.

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション(VOS)は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。

Segment-Anythingアプローチ(SAM)は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。

SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model(TAM)は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。

TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます(つまり、オブジェクトをクリックする)。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。

TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。

提案されたTrack Anything Model(TAM)は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します:

  • 素早く簡単なビデオの転写:TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈(ビデオオブジェクトの追跡およびセグメンテーションなど)に使用することができます。
  • オブジェクトの長期間の観察:長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。
  • 使いやすいビデオエディタ:Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。
  • ビデオ関連の活動の可視化および開発キット:チームはさまざまなビデオ操作(VOS、VOT、ビデオインペイントなど)のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント

Googleは、Google Labsから最新の実験的な提供であるNotebookLMを発表しています。以前はProject Tailwindとして知られていた...

人工知能

「予算の制約を持つ学生や起業家のための7つの最高の無料AIツール」

「無料で利用できる最高の7つのAIツールを一つ一つ選びました何もありません何もない」

機械学習

焼け落ちた炎:スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

カリフォルニアの大規模な山火事によって空がオレンジ色に変わったとき、あるスタートアップはコンピュータビジョンと生成AI...

データサイエンス

「GenAIのモデルの出力を改善する方法」

ジェネレーティブAIは、DLアルゴリズムのおかげで強力なコンテンツ生成器に進化しましたただし、より正確な結果を得るために...

データサイエンス

「ScyllaDB NoSQLを使用したAI/MLフィーチャーストアの構築方法」

この記事では、AI/MLフィーチャーストアの基礎について掘り下げ、ScyllaDB NoSQLを使用して自分自身のフィーチャーストアを始...

AIニュース

ウィンブルドンがAIによる実況を導入

テニス愛好家にとって素晴らしいニュースです!世界で最も権威のあるテニストーナメントの一つであるウィンブルドンは、最新...