「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」

CoTracker is an AI approach that collectively tracks multiple points in a video, ensuring they stand together and avoid falling apart.

I had trouble accessing your link so I’m going to try to continue without it.

近年、AIの領域で画像生成と大規模言語モデルの進歩が目覚ましく、その革新的な能力により長い間注目を浴びてきました。画像生成と言語モデルの両方は非常に優れており、生成された出力と実際のものを区別するのは困難です。

しかし、近年急速に進歩したのはこれらだけではありません。コンピュータビジョンの応用でも印象的な進歩が見られます。例えば、セグメンテーション・エニシング(SAM)モデルは、オブジェクトのセグメンテーションにおいて新たな可能性を開拓しました。SAMは画像またはより印象的にはビデオ内の任意のオブジェクトをトレーニング辞書に依存せずにセグメント化することができます。

ビデオ部分は特に興味深いです。ビデオは常に扱いにくいデータと考えられてきました。ビデオを扱う際には、どのようなタスクを達成しようとしているにせよ、モーショントラッキングが重要な要素となります。これが問題の基礎です。

モーショントラッキングの重要な要素の1つは、ポイントの対応関係を確立することです。最近では、動的なオブジェクトと移動カメラを持つビデオでのモーション推定を行うための複数の試みがありました。この難しいタスクでは、ビデオフレーム全体の2Dポイントの位置を推定し、基礎となる3Dシーンポイントの投影を表現します。

モーション推定の2つの主要なアプローチは、オプティカルフローとトラッキングです。オプティカルフローはビデオフレーム内のすべてのポイントの速度を推定し、トラッキングはポイントの運動を統計的に独立したものとして推定します。

近代的なディープラーニング技術により、ポイントトラッキングは進歩していますが、追跡されたポイント間の相関関係という重要な側面が見落とされています。直感的には、同じ物理的なオブジェクトに属するポイントは関連しているはずですが、従来の方法ではそれらを独立して扱ってしまい、誤った近似値を導くことになります。この問題に取り組むCoTrackerの登場です。

CoTrackerは、追跡されたポイント間の相関関係を考慮することで、長いビデオシーケンスでのポイントトラッキングを革新しようとするニューラルネットワークベースのトラッカーです。このネットワークはビデオと変動する数の開始トラック位置を入力とし、指定されたポイントの完全なトラックを出力します。

CoTrackerは複数のポイントの共同トラッキングをサポートし、ウィンドウアプリケーションでより長いビデオを処理することができます。トランスフォーマーベースのネットワークは、時間を1つの次元、トラッキングポイントをもう1つの次元とする2Dグリッド上で動作し、適切なセルフアテンション演算子を使用することで、各トラックをウィンドウ内でまとめて考慮し、トラック間で情報を交換し、それらの固有の相関関係を活用することができます。

CoTrackerの概要。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerの柔軟性により、ビデオ内の任意の空間位置と時間で任意のポイントを追跡することができます。トラックの初期のおおよそのバージョンを取り込み、ビデオコンテンツにより適合させるために徐々にトラックを改善します。トラックは、ビデオの中間地点から、またはトラッカー自体の出力から、スライディングウィンドウの形式で操作される場合でも、任意のポイントから初期化することができます。

CoTrackerの定性的な結果。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerは、ポイントの相関関係を考慮することの重要性を強調したモーション推定の有望な進歩を表しています。これにより、コンピュータビジョンの向上したビデオ解析と、下流のタスクに対する新たな可能性が開かれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIの進化と生成AIへの道のりとその仕組み」

この記事では、AI/MLの基礎、その使用方法、生成AIの進化、Prompt Engineering、およびLangChainについて説明しています

機械学習

「EコマースにおけるLLMSを使用したカスタマイズされたマーケティングコピーライティング」

紹介 技術革新と急速なデジタル化によって定義される時代において、Eコマースは現代のビジネスの基盤となっています。グロー...

機械学習

韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィ...

データサイエンス

「ベクターデータベースを使用してLLMアプリを作成する方法」

イントロダクション 人工知能の領域では、OpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama、Falcon、GoogleのPalmなど、Lar...

機械学習

「Googleバードを効果的に使用する5つの方法」

Google Bardで生産性を最大限に引き出すための5つの戦略をご紹介しますGoogle Bardはワークフローの再構築、意思決定の向上、...

AIニュース

「ユネスコ、AIチップの埋め込みに関するプライバシー懸念を指摘」

最近、国連は人工知能(AI)と先進的な神経技術の組み合わせに伴う潜在的な危険性について警告しました。報告によると、脳イ...