「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」
CoTracker is an AI approach that collectively tracks multiple points in a video, ensuring they stand together and avoid falling apart.
I had trouble accessing your link so I’m going to try to continue without it.
近年、AIの領域で画像生成と大規模言語モデルの進歩が目覚ましく、その革新的な能力により長い間注目を浴びてきました。画像生成と言語モデルの両方は非常に優れており、生成された出力と実際のものを区別するのは困難です。
しかし、近年急速に進歩したのはこれらだけではありません。コンピュータビジョンの応用でも印象的な進歩が見られます。例えば、セグメンテーション・エニシング(SAM)モデルは、オブジェクトのセグメンテーションにおいて新たな可能性を開拓しました。SAMは画像またはより印象的にはビデオ内の任意のオブジェクトをトレーニング辞書に依存せずにセグメント化することができます。
ビデオ部分は特に興味深いです。ビデオは常に扱いにくいデータと考えられてきました。ビデオを扱う際には、どのようなタスクを達成しようとしているにせよ、モーショントラッキングが重要な要素となります。これが問題の基礎です。
モーショントラッキングの重要な要素の1つは、ポイントの対応関係を確立することです。最近では、動的なオブジェクトと移動カメラを持つビデオでのモーション推定を行うための複数の試みがありました。この難しいタスクでは、ビデオフレーム全体の2Dポイントの位置を推定し、基礎となる3Dシーンポイントの投影を表現します。
モーション推定の2つの主要なアプローチは、オプティカルフローとトラッキングです。オプティカルフローはビデオフレーム内のすべてのポイントの速度を推定し、トラッキングはポイントの運動を統計的に独立したものとして推定します。
近代的なディープラーニング技術により、ポイントトラッキングは進歩していますが、追跡されたポイント間の相関関係という重要な側面が見落とされています。直感的には、同じ物理的なオブジェクトに属するポイントは関連しているはずですが、従来の方法ではそれらを独立して扱ってしまい、誤った近似値を導くことになります。この問題に取り組むCoTrackerの登場です。
CoTrackerは、追跡されたポイント間の相関関係を考慮することで、長いビデオシーケンスでのポイントトラッキングを革新しようとするニューラルネットワークベースのトラッカーです。このネットワークはビデオと変動する数の開始トラック位置を入力とし、指定されたポイントの完全なトラックを出力します。
CoTrackerは複数のポイントの共同トラッキングをサポートし、ウィンドウアプリケーションでより長いビデオを処理することができます。トランスフォーマーベースのネットワークは、時間を1つの次元、トラッキングポイントをもう1つの次元とする2Dグリッド上で動作し、適切なセルフアテンション演算子を使用することで、各トラックをウィンドウ内でまとめて考慮し、トラック間で情報を交換し、それらの固有の相関関係を活用することができます。
CoTrackerの柔軟性により、ビデオ内の任意の空間位置と時間で任意のポイントを追跡することができます。トラックの初期のおおよそのバージョンを取り込み、ビデオコンテンツにより適合させるために徐々にトラックを改善します。トラックは、ビデオの中間地点から、またはトラッカー自体の出力から、スライディングウィンドウの形式で操作される場合でも、任意のポイントから初期化することができます。
CoTrackerは、ポイントの相関関係を考慮することの重要性を強調したモーション推定の有望な進歩を表しています。これにより、コンピュータビジョンの向上したビデオ解析と、下流のタスクに対する新たな可能性が開かれます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「PyTorchモデルのパフォーマンス分析と最適化 – パート3」
- 「ビジョン・ランゲージの交差点でのブレイクスルー:オールシーイングプロジェクトの発表」
- 「大規模言語モデルのパディング — Llama 2を用いた例」
- 「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」
- 「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」
- このAIの論文では、非英語の言語で事前学習されたLLMsを強化するために、言語間で意味の整合性を構築することを提案しています
- 「ステレオタイプやディスインフォメーションに対抗するAIヘイトスピーチ検出」