「MC-JEPAに会おう:動きと内容の特徴の自己教師あり学習のための共同埋め込み予測アーキテクチャ」
MC-JEPA Collaborative Embedding Prediction Architecture for Self-Supervised Learning of Movement and Content Features
最近、自己教師付き学習の中で、物体を識別し区別するための情報を持つ特徴を学習することに焦点を当てたテクニックが、ビジョンにおけるセルフスーパーバイズドラーニングを主導しています。ほとんどの技術は、アイテムのカテゴリ分類や映画のアクティビティ検出などのタスクで優れたパフォーマンスを発揮する広範な特徴を特定することに集中しています。セグメンテーションや検出などの地域タスクで優れたローカライズされた特徴を学習するというアイデアは、比較的最近のコンセプトです。しかし、これらの技術は、映画やテクスチャなどのピクセルに関する動きなどの特性を学習するのではなく、画像や動画の内容を理解することに重点を置いています。
この研究では、Meta AI、PSL研究大学、およびニューヨーク大学の研究者らが、一般的なセルフスーパーバイズドラーニングを利用したコンテンツ特性と、映画からのセルフスーパーバイズド光流推定を用いた動きの特徴を同時に学習することに焦点を当てています。映画の連続フレームやステレオペアの画像など、2つの画像が動くか密なピクセルの接続を持つ場合、光流によってそれが捉えられます。コンピュータビジョンでは、光流の推定は、ビジュアルオドメトリや奥行き推定、オブジェクトトラッキングなどの操作にとって重要な基本的な問題です。従来の方法によれば、光流の推定は、ピクセルを滑らかさの要件に一致させる最適化問題です。
合成データではなく実世界のデータを分類するという課題は、ニューラルネットワークと教師付き学習に基づくアプローチを制限します。セルフスーパーバイズドテクニックは、実世界のビデオデータを大量に学習することを可能にすることで、教師付きテクニックと競合しています。ただし、現在のほとんどのアプローチは動きに注意を払うだけであり、ビデオの(意味的な)内容には注意を払っていません。この問題は、マルチタスクアプローチを使用して、画像での動きとコンテンツ要素を同時に学習することで解決されます。最近の手法では、ビデオフレーム間の空間的な関係を特定します。目的は、オブジェクトの移動を追跡し、光流推定では得られないコンテンツデータを収集することです。
- 「新しいHADARベースのイメージングツールにより、暗闇でもクリアに見ることができます」
- 中国のこのAI論文は、HQTrackというビデオ内のあらゆるものを高品質で追跡するためのAIフレームワークを提案しています
- 『Stack OverflowがOverflowをリリース:開発者コミュニティとAIの統合』
これらの手法は、オブジェクトレベルの動きの推定手法です。他の視覚的な下流タスクに対して比較的一般化が弱く、トラッキングのための非常に特殊化された特性を獲得します。獲得される視覚的特性の品質の低さは、これらの手法がImageNetのような大きな画像データセットよりも多様性が必要な小さなビデオデータセットで頻繁にトレーニングされることによって強化されます。複数のアクティビティを同時に学習することは、視覚的表現を開発するためのより信頼性のある手法です。この問題を解決するために、彼らはMC-JEPA(Motion-Content Joint-Embedding Predictive Architecture)を提案しています。このジョイント埋め込み予測アーキテクチャベースのシステムでは、共通のエンコーダを使用して、自己教師付き光流推定とコンテンツ特性をマルチタスクの環境で学習します。
以下は、彼らの貢献の概要です:
• シンセティックおよびリアルなビデオデータからのセルフスーパーバイズド光流を学習するために、PWC-Netをベースにした技術を提供します。これには、逆方向の一貫性損失と共分散正則化項など、さまざまな追加要素が含まれます。
• 画像ネットでトレーニングされたセルフスーパーバイズド学習技術であるM-JEPAとVICRegを使用し、複数のタスク構成でM-JEPAを最適化して、推定された光流を改善し、さまざまな下流タスクにうまく適用できるコンテンツ特性を提供します。最終的なアプローチの名前はMC-JEPAです。
• KITTI 2015やSintelなどのさまざまな光流ベンチマーク、CityscapesやDAVISでの画像およびビデオセグメンテーションタスクなどでMC-JEPAをテストし、単一のエンコーダがそれぞれのタスクで優れたパフォーマンスを発揮することを確認しました。MC-JEPAは、モーション予測からコンテンツ理解まで、画像やビデオを含む任意の視覚データでトレーニングでき、さまざまなタスクで優れたパフォーマンスを発揮する、ジョイント埋め込みとマルチタスク学習に基づくセルフスーパーバイズド学習手法の先駆者になると期待されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles