「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

SUSTech VIP研究室 proposes the Track Anishing Model (TAM) to achieve high-performance interactive tracking and segmentation.

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション(VOS)は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。

Segment-Anythingアプローチ(SAM)は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。

SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model(TAM)は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。

TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます(つまり、オブジェクトをクリックする)。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。

TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。

提案されたTrack Anything Model(TAM)は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します:

  • 素早く簡単なビデオの転写:TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈(ビデオオブジェクトの追跡およびセグメンテーションなど)に使用することができます。
  • オブジェクトの長期間の観察:長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。
  • 使いやすいビデオエディタ:Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。
  • ビデオ関連の活動の可視化および開発キット:チームはさまざまなビデオ操作(VOS、VOT、ビデオインペイントなど)のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって...

データサイエンス

「大型言語モデルを使用して開発するために知っておくべきすべて」

この記事の目的は、簡単な言葉でLLMベースのアプリケーション開発に必要な主要なテクノロジーを説明することですさらなる学習...

AIニュース

マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します

Microsoftは最近、労働組合アメリカ連邦労働総評議会(AFL-CIO)と包括的な対話を開始するために、人工知能(AI)が労働力に...

人工知能

プロンプトの旅:プロンプトエンジニアリングを通じた生成型AIシステムのライフサイクル

プロンプトエンジニアリングは、AIの応答を指導しますそのライフサイクルは倫理的な考慮事項を統合し、公正かつ透明なAIの未...

人工知能

フロントエンド開発のトレンド

最先端の進歩や最高水準のイノベーションが、現在ウェブ開発の世界を形作っている様子について、私たちと一緒に深く掘り下げ...

データサイエンス

メタAIのもう一つの革命的な大規模モデル — 画像特徴抽出のためのDINOv2

Mete AIは、画像から自動的に視覚的な特徴を抽出する新しい画像特徴抽出モデルDINOv2の新バージョンを紹介しましたこれはAIの...