「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」

CoTracker is an AI approach that collectively tracks multiple points in a video, ensuring they stand together and avoid falling apart.

I had trouble accessing your link so I’m going to try to continue without it.

近年、AIの領域で画像生成と大規模言語モデルの進歩が目覚ましく、その革新的な能力により長い間注目を浴びてきました。画像生成と言語モデルの両方は非常に優れており、生成された出力と実際のものを区別するのは困難です。

しかし、近年急速に進歩したのはこれらだけではありません。コンピュータビジョンの応用でも印象的な進歩が見られます。例えば、セグメンテーション・エニシング(SAM)モデルは、オブジェクトのセグメンテーションにおいて新たな可能性を開拓しました。SAMは画像またはより印象的にはビデオ内の任意のオブジェクトをトレーニング辞書に依存せずにセグメント化することができます。

ビデオ部分は特に興味深いです。ビデオは常に扱いにくいデータと考えられてきました。ビデオを扱う際には、どのようなタスクを達成しようとしているにせよ、モーショントラッキングが重要な要素となります。これが問題の基礎です。

モーショントラッキングの重要な要素の1つは、ポイントの対応関係を確立することです。最近では、動的なオブジェクトと移動カメラを持つビデオでのモーション推定を行うための複数の試みがありました。この難しいタスクでは、ビデオフレーム全体の2Dポイントの位置を推定し、基礎となる3Dシーンポイントの投影を表現します。

モーション推定の2つの主要なアプローチは、オプティカルフローとトラッキングです。オプティカルフローはビデオフレーム内のすべてのポイントの速度を推定し、トラッキングはポイントの運動を統計的に独立したものとして推定します。

近代的なディープラーニング技術により、ポイントトラッキングは進歩していますが、追跡されたポイント間の相関関係という重要な側面が見落とされています。直感的には、同じ物理的なオブジェクトに属するポイントは関連しているはずですが、従来の方法ではそれらを独立して扱ってしまい、誤った近似値を導くことになります。この問題に取り組むCoTrackerの登場です。

CoTrackerは、追跡されたポイント間の相関関係を考慮することで、長いビデオシーケンスでのポイントトラッキングを革新しようとするニューラルネットワークベースのトラッカーです。このネットワークはビデオと変動する数の開始トラック位置を入力とし、指定されたポイントの完全なトラックを出力します。

CoTrackerは複数のポイントの共同トラッキングをサポートし、ウィンドウアプリケーションでより長いビデオを処理することができます。トランスフォーマーベースのネットワークは、時間を1つの次元、トラッキングポイントをもう1つの次元とする2Dグリッド上で動作し、適切なセルフアテンション演算子を使用することで、各トラックをウィンドウ内でまとめて考慮し、トラック間で情報を交換し、それらの固有の相関関係を活用することができます。

CoTrackerの概要。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerの柔軟性により、ビデオ内の任意の空間位置と時間で任意のポイントを追跡することができます。トラックの初期のおおよそのバージョンを取り込み、ビデオコンテンツにより適合させるために徐々にトラックを改善します。トラックは、ビデオの中間地点から、またはトラッカー自体の出力から、スライディングウィンドウの形式で操作される場合でも、任意のポイントから初期化することができます。

CoTrackerの定性的な結果。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerは、ポイントの相関関係を考慮することの重要性を強調したモーション推定の有望な進歩を表しています。これにより、コンピュータビジョンの向上したビデオ解析と、下流のタスクに対する新たな可能性が開かれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

機械学習

光ニューラルネットワークとトランスフォーマーモデルを実行した場合、どのようなことが起こるのでしょうか?

ディープラーニングモデルの指数関数的な拡大スケールは、最先端の進化と巨大スケールのディープラーニングのエネルギー消費...

データサイエンス

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管...

データサイエンス

埋め込みとベクトルデータベース 実践的なガイド!

生成AIは急速に進化し、テクノロジーやデータ管理の景観を根本的に変えているベクターデータベースの世界へようこそ

人工知能

画像をプロンプトに変換する方法:Img2Prompt AIモデルによるステップバイステップガイド

シンプルなAPIコールと少しのNode.jsで画像からプロンプトを収集する

データサイエンス

「ウェブポータル開発を加速させる8つの戦略」

この記事では、ウェブポータルの開発者が直面する頻繁な問題について探求します:品質を損なうことなく、開発プロセスを加速...