DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します

DeepMind researchers have open-sourced TAPIR, a new AI model for effectively tracking query points in video sequences.

コンピュータビジョンは、人工知能の最も人気のある分野の1つです。コンピュータビジョンを使用したモデルは、デジタル画像、動画、またはその他の視覚的入力など、さまざまな種類のメディアから有意義な情報を導き出すことができます。それは、機械が視覚情報を知覚・理解し、その詳細に基づいて行動する方法を教えるものです。新しいモデルであるTracking Any Point with per-frame Initialization and Temporal Refinement(TAPIR)の導入により、コンピュータビジョンは大きく前進しました。TAPIRは、ビデオシーケンスで特定の関心点を効果的に追跡することを目的として設計されました。

TAPIRモデルの背後にあるアルゴリズムは、Google DeepMind、VGG、エンジニアリングサイエンス学科、そしてオックスフォード大学の研究者チームによって開発されました。TAPIRモデルのアルゴリズムは、2つのステージ、すなわちマッチングステージとリファインメントステージから構成されています。マッチングステージでは、TAPIRモデルは各ビデオシーケンスフレームを個別に分析し、クエリポイントに適した候補点マッチを見つけます。このステップは、各フレームでクエリポイントの最も関連性が高い点を特定することを目的としており、TAPIRモデルがビデオ全体でクエリポイントの移動を追跡できるようにするため、フレームごとにこの手順を実行します。

候補点マッチが特定されるマッチングステージには、リファインメントステージの使用が続きます。このステージでは、TAPIRモデルは、局所的相関に基づいて軌跡(クエリポイントがたどるパス)とクエリ特徴を更新し、各フレームの周囲の情報を考慮してクエリポイントの追跡の精度と正確性を向上させます。リファインメントステージにより、局所的相関を統合することで、モデルのクエリポイントの動きを正確に追跡し、ビデオシーケンスの変動に対応する能力が向上します。

TAPIRモデルの評価には、ビデオトラッキングタスクの標準化された評価データセットであるTAP-Vidベンチマークが使用されました。その結果、TAPIRモデルは、ベースライン技術よりも明らかに優れた性能を発揮しました。性能改善は、平均ジャッカード(AJ)という指標を用いて測定され、DAVIS(Densely Annotated VIdeo Segmentation)ベンチマークにおいて、TAPIRモデルは他の手法に比べてAJで約20%の絶対的な改善を達成したことが示されました。

モデルは、長いビデオシーケンスでの高速な並列推論を容易にするように設計されており、複数のフレームを同時に処理できるため、トラッキングタスクの効率を向上させます。チームは、モデルをライブで適用できるように設計し、新しいビデオフレームが追加されるたびにポイントを処理・追跡できるようにしています。256×256ビデオで256ポイントを約40フレーム/秒の速度で追跡でき、解像度の高い映画を処理できるように拡張することもできます。

チームは、ユーザーがインストールせずにTAPIRを試すことができる2つのオンラインGoogle Colabデモを提供しています。最初のColabデモでは、ユーザーが自分のビデオでモデルを実行し、モデルのパフォーマンスをテストして観察するインタラクティブな体験を提供します。2番目のデモでは、オンラインでTAPIRを実行することに焦点を当てています。また、提供されたコードベースをクローンし、モダンなGPUで自分自身のWebカメラのポイントを追跡することによって、ユーザーはTAPIRをライブで実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データサイエンスのベストプラクティス、パート1 - クエリをテストする」

データサイエンスの領域は、数学と統計学、そしてコンピュータサイエンスにそのルーツを持っています過去数十年間でかなり進...

データサイエンス

DL Notes 高度な勾配降下法

以前の記事では、勾配降下法について基本的な概念とその種類の最適化における主な課題を要約しましたしかし、スティーブンス...

AI研究

スタンフォード大学の研究者たちは、スペルバーストという大規模言語モデル(LLM)を搭載したクリエイティブコーディング環境を紹介しました

素晴らしいデジタルアートを作成する際、生成アーティストはしばしばコーディングの複雑さに直面することがあります。Process...

機械学習

ロコムジョコに会おう:厳格な評価と比較のために設計された新しい機械学習ベンチマーク

Intelligent Autonomous Systems Group、Locomotion Laboratory、German Research Center for AI、Centre for Cognitive Scie...

機械学習

「マイクロソフトのAzure AIモデルカタログが革新的な人工知能モデルで拡大」

“`html <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2...

AIニュース

「Amazon Kendraを使用して、Adobe Experience Managerのコンテンツを賢く検索する」

この投稿では、Amazon Kendra AEMコネクタを設定してコンテンツをインデックス化し、AEMのアセットとページを検索する方法を...