「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」

CoTracker is an AI approach that collectively tracks multiple points in a video, ensuring they stand together and avoid falling apart.

I had trouble accessing your link so I’m going to try to continue without it.

近年、AIの領域で画像生成と大規模言語モデルの進歩が目覚ましく、その革新的な能力により長い間注目を浴びてきました。画像生成と言語モデルの両方は非常に優れており、生成された出力と実際のものを区別するのは困難です。

しかし、近年急速に進歩したのはこれらだけではありません。コンピュータビジョンの応用でも印象的な進歩が見られます。例えば、セグメンテーション・エニシング(SAM)モデルは、オブジェクトのセグメンテーションにおいて新たな可能性を開拓しました。SAMは画像またはより印象的にはビデオ内の任意のオブジェクトをトレーニング辞書に依存せずにセグメント化することができます。

ビデオ部分は特に興味深いです。ビデオは常に扱いにくいデータと考えられてきました。ビデオを扱う際には、どのようなタスクを達成しようとしているにせよ、モーショントラッキングが重要な要素となります。これが問題の基礎です。

モーショントラッキングの重要な要素の1つは、ポイントの対応関係を確立することです。最近では、動的なオブジェクトと移動カメラを持つビデオでのモーション推定を行うための複数の試みがありました。この難しいタスクでは、ビデオフレーム全体の2Dポイントの位置を推定し、基礎となる3Dシーンポイントの投影を表現します。

モーション推定の2つの主要なアプローチは、オプティカルフローとトラッキングです。オプティカルフローはビデオフレーム内のすべてのポイントの速度を推定し、トラッキングはポイントの運動を統計的に独立したものとして推定します。

近代的なディープラーニング技術により、ポイントトラッキングは進歩していますが、追跡されたポイント間の相関関係という重要な側面が見落とされています。直感的には、同じ物理的なオブジェクトに属するポイントは関連しているはずですが、従来の方法ではそれらを独立して扱ってしまい、誤った近似値を導くことになります。この問題に取り組むCoTrackerの登場です。

CoTrackerは、追跡されたポイント間の相関関係を考慮することで、長いビデオシーケンスでのポイントトラッキングを革新しようとするニューラルネットワークベースのトラッカーです。このネットワークはビデオと変動する数の開始トラック位置を入力とし、指定されたポイントの完全なトラックを出力します。

CoTrackerは複数のポイントの共同トラッキングをサポートし、ウィンドウアプリケーションでより長いビデオを処理することができます。トランスフォーマーベースのネットワークは、時間を1つの次元、トラッキングポイントをもう1つの次元とする2Dグリッド上で動作し、適切なセルフアテンション演算子を使用することで、各トラックをウィンドウ内でまとめて考慮し、トラック間で情報を交換し、それらの固有の相関関係を活用することができます。

CoTrackerの概要。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerの柔軟性により、ビデオ内の任意の空間位置と時間で任意のポイントを追跡することができます。トラックの初期のおおよそのバージョンを取り込み、ビデオコンテンツにより適合させるために徐々にトラックを改善します。トラックは、ビデオの中間地点から、またはトラッカー自体の出力から、スライディングウィンドウの形式で操作される場合でも、任意のポイントから初期化することができます。

CoTrackerの定性的な結果。出典: https://arxiv.org/pdf/2307.07635.pdf

CoTrackerは、ポイントの相関関係を考慮することの重要性を強調したモーション推定の有望な進歩を表しています。これにより、コンピュータビジョンの向上したビデオ解析と、下流のタスクに対する新たな可能性が開かれます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

2024年のインフラストラクチャー予測

企業はAIの導入の転換点を見ているランサムウェアの脅威が罰則と衝突し、ハイブリッドクラウドアーキテクチャが主流となり、...

人工知能

「AIガバナンスにおけるステークホルダー分析の包括的ガイド(パート1)」

「AIガバナンスジャーナルの前のエディションでは、AIガバナンスの12の基本原則を取り上げましたこれらの原則は、倫理的ジレ...

人工知能

5つの最高のChatGPT SEOプラグイン

SEOの専門家たちは、ChatGPTプラグインがGoogleのランキングを上げるのを助けるすばらしいツールであることに気づき始めています

データサイエンス

ステアラブルニューラルネットワーク(パート1)への優しい紹介

「幾何学的深層学習は、Deep Learningの一分野として、グラフとして表現された3Dまたは2Dジオメトリオブジェクトを処理するた...

AIニュース

世界初のAI搭載アーム:知っておくべきすべて

人工知能がバイオニックアームを制御する世界を想像したことがありますか? スーパーヒーローの映画から出てきたコンセプトの...

人工知能

「ゲーミングからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高いですロイターによると、株価は過去8ヶ月で3倍になりましたしかし、...