「MC-JEPAに会おう:動きと内容の特徴の自己教師あり学習のための共同埋め込み予測アーキテクチャ」

MC-JEPA Collaborative Embedding Prediction Architecture for Self-Supervised Learning of Movement and Content Features

最近、自己教師付き学習の中で、物体を識別し区別するための情報を持つ特徴を学習することに焦点を当てたテクニックが、ビジョンにおけるセルフスーパーバイズドラーニングを主導しています。ほとんどの技術は、アイテムのカテゴリ分類や映画のアクティビティ検出などのタスクで優れたパフォーマンスを発揮する広範な特徴を特定することに集中しています。セグメンテーションや検出などの地域タスクで優れたローカライズされた特徴を学習するというアイデアは、比較的最近のコンセプトです。しかし、これらの技術は、映画やテクスチャなどのピクセルに関する動きなどの特性を学習するのではなく、画像や動画の内容を理解することに重点を置いています。

この研究では、Meta AI、PSL研究大学、およびニューヨーク大学の研究者らが、一般的なセルフスーパーバイズドラーニングを利用したコンテンツ特性と、映画からのセルフスーパーバイズド光流推定を用いた動きの特徴を同時に学習することに焦点を当てています。映画の連続フレームやステレオペアの画像など、2つの画像が動くか密なピクセルの接続を持つ場合、光流によってそれが捉えられます。コンピュータビジョンでは、光流の推定は、ビジュアルオドメトリや奥行き推定、オブジェクトトラッキングなどの操作にとって重要な基本的な問題です。従来の方法によれば、光流の推定は、ピクセルを滑らかさの要件に一致させる最適化問題です。

合成データではなく実世界のデータを分類するという課題は、ニューラルネットワークと教師付き学習に基づくアプローチを制限します。セルフスーパーバイズドテクニックは、実世界のビデオデータを大量に学習することを可能にすることで、教師付きテクニックと競合しています。ただし、現在のほとんどのアプローチは動きに注意を払うだけであり、ビデオの(意味的な)内容には注意を払っていません。この問題は、マルチタスクアプローチを使用して、画像での動きとコンテンツ要素を同時に学習することで解決されます。最近の手法では、ビデオフレーム間の空間的な関係を特定します。目的は、オブジェクトの移動を追跡し、光流推定では得られないコンテンツデータを収集することです。

これらの手法は、オブジェクトレベルの動きの推定手法です。他の視覚的な下流タスクに対して比較的一般化が弱く、トラッキングのための非常に特殊化された特性を獲得します。獲得される視覚的特性の品質の低さは、これらの手法がImageNetのような大きな画像データセットよりも多様性が必要な小さなビデオデータセットで頻繁にトレーニングされることによって強化されます。複数のアクティビティを同時に学習することは、視覚的表現を開発するためのより信頼性のある手法です。この問題を解決するために、彼らはMC-JEPA(Motion-Content Joint-Embedding Predictive Architecture)を提案しています。このジョイント埋め込み予測アーキテクチャベースのシステムでは、共通のエンコーダを使用して、自己教師付き光流推定とコンテンツ特性をマルチタスクの環境で学習します。

以下は、彼らの貢献の概要です:

• シンセティックおよびリアルなビデオデータからのセルフスーパーバイズド光流を学習するために、PWC-Netをベースにした技術を提供します。これには、逆方向の一貫性損失と共分散正則化項など、さまざまな追加要素が含まれます。

• 画像ネットでトレーニングされたセルフスーパーバイズド学習技術であるM-JEPAとVICRegを使用し、複数のタスク構成でM-JEPAを最適化して、推定された光流を改善し、さまざまな下流タスクにうまく適用できるコンテンツ特性を提供します。最終的なアプローチの名前はMC-JEPAです。

• KITTI 2015やSintelなどのさまざまな光流ベンチマーク、CityscapesやDAVISでの画像およびビデオセグメンテーションタスクなどでMC-JEPAをテストし、単一のエンコーダがそれぞれのタスクで優れたパフォーマンスを発揮することを確認しました。MC-JEPAは、モーション予測からコンテンツ理解まで、画像やビデオを含む任意の視覚データでトレーニングでき、さまざまなタスクで優れたパフォーマンスを発揮する、ジョイント埋め込みとマルチタスク学習に基づくセルフスーパーバイズド学習手法の先駆者になると期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...

データサイエンス

リトリーバル オーグメンテッド ジェネレーション(RAG)推論エンジンは、CPU上でLangChainを使用しています

「リトリーバル増強生成(RAG)は広範にカバーされており、特にチャットベースのLLMへの応用については詳しく語られています...

データサイエンス

「AI言語モデルにおける迅速なエンジニアリングのマスタリング」

これらのモデルに与えられた指示を洗練し最適化することにより、より正確で文脈に即した回答を得ることができます

人工知能

「トップ5のAIウェブスクレイピングプラットフォーム」

データの重要性への認識は、その膨大な収集へとつながりました。最初のステップは、組織が作業を進め、潜在能力を活用するた...

人工知能

「クロード2 AIチャットボットの使い方 - 新しいChatGPTの競合者」

イントロダクション 複数のAIチャットボットの中でも新たな競争相手、Claude 2に会いましょう。Anthropicによって開発されたC...

機械学習

このAI論文は、検索エンジンに対して大規模な言語モデルが事実確認の効率性にどのように比較されるか、明らかにします

異なる大学の研究者たちは、言語モデル(LLM)と検索エンジンがファクトチェックにおいてどれほど効果的かを比較しています。...