DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します
DeepMind researchers have open-sourced TAPIR, a new AI model for effectively tracking query points in video sequences.
コンピュータビジョンは、人工知能の最も人気のある分野の1つです。コンピュータビジョンを使用したモデルは、デジタル画像、動画、またはその他の視覚的入力など、さまざまな種類のメディアから有意義な情報を導き出すことができます。それは、機械が視覚情報を知覚・理解し、その詳細に基づいて行動する方法を教えるものです。新しいモデルであるTracking Any Point with per-frame Initialization and Temporal Refinement(TAPIR)の導入により、コンピュータビジョンは大きく前進しました。TAPIRは、ビデオシーケンスで特定の関心点を効果的に追跡することを目的として設計されました。
TAPIRモデルの背後にあるアルゴリズムは、Google DeepMind、VGG、エンジニアリングサイエンス学科、そしてオックスフォード大学の研究者チームによって開発されました。TAPIRモデルのアルゴリズムは、2つのステージ、すなわちマッチングステージとリファインメントステージから構成されています。マッチングステージでは、TAPIRモデルは各ビデオシーケンスフレームを個別に分析し、クエリポイントに適した候補点マッチを見つけます。このステップは、各フレームでクエリポイントの最も関連性が高い点を特定することを目的としており、TAPIRモデルがビデオ全体でクエリポイントの移動を追跡できるようにするため、フレームごとにこの手順を実行します。
候補点マッチが特定されるマッチングステージには、リファインメントステージの使用が続きます。このステージでは、TAPIRモデルは、局所的相関に基づいて軌跡(クエリポイントがたどるパス)とクエリ特徴を更新し、各フレームの周囲の情報を考慮してクエリポイントの追跡の精度と正確性を向上させます。リファインメントステージにより、局所的相関を統合することで、モデルのクエリポイントの動きを正確に追跡し、ビデオシーケンスの変動に対応する能力が向上します。
TAPIRモデルの評価には、ビデオトラッキングタスクの標準化された評価データセットであるTAP-Vidベンチマークが使用されました。その結果、TAPIRモデルは、ベースライン技術よりも明らかに優れた性能を発揮しました。性能改善は、平均ジャッカード(AJ)という指標を用いて測定され、DAVIS(Densely Annotated VIdeo Segmentation)ベンチマークにおいて、TAPIRモデルは他の手法に比べてAJで約20%の絶対的な改善を達成したことが示されました。
モデルは、長いビデオシーケンスでの高速な並列推論を容易にするように設計されており、複数のフレームを同時に処理できるため、トラッキングタスクの効率を向上させます。チームは、モデルをライブで適用できるように設計し、新しいビデオフレームが追加されるたびにポイントを処理・追跡できるようにしています。256×256ビデオで256ポイントを約40フレーム/秒の速度で追跡でき、解像度の高い映画を処理できるように拡張することもできます。
チームは、ユーザーがインストールせずにTAPIRを試すことができる2つのオンラインGoogle Colabデモを提供しています。最初のColabデモでは、ユーザーが自分のビデオでモデルを実行し、モデルのパフォーマンスをテストして観察するインタラクティブな体験を提供します。2番目のデモでは、オンラインでTAPIRを実行することに焦点を当てています。また、提供されたコードベースをクローンし、モダンなGPUで自分自身のWebカメラのポイントを追跡することによって、ユーザーはTAPIRをライブで実行することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- マックス・プランク研究所の研究者たちは、MIME(3D人間モーションキャプチャを取得し、その動きに一致する可能性のある3Dシーンを生成する生成AIモデル)を提案しています
- UCサンディエゴとクアルコムの研究者たちは「Natural Program」を公開しましたそれは自然言語での厳密な推論チェーンの容易な検証にとって強力なツールであり、AIにおける大きな転換点となります
- 中国の研究者グループが開発したWebGLM:汎用言語モデル(GLM)に基づくWeb強化型質問応答システム
- SalesForceのAI研究者が、マスク不要のOVISを紹介:オープンボキャブラリーインスタンスセグメンテーションマスクジェネレータ
- 広大な化学空間で適切な遷移金属を採掘する
- 宇宙からの詳細な画像は、植物に対する干ばつの影響をより明確に示します
- 細菌注入システムは、マウスおよび人間細胞内にタンパク質を送達する