「MC-JEPAに会おう:動きと内容の特徴の自己教師あり学習のための共同埋め込み予測アーキテクチャ」

MC-JEPA Collaborative Embedding Prediction Architecture for Self-Supervised Learning of Movement and Content Features

最近、自己教師付き学習の中で、物体を識別し区別するための情報を持つ特徴を学習することに焦点を当てたテクニックが、ビジョンにおけるセルフスーパーバイズドラーニングを主導しています。ほとんどの技術は、アイテムのカテゴリ分類や映画のアクティビティ検出などのタスクで優れたパフォーマンスを発揮する広範な特徴を特定することに集中しています。セグメンテーションや検出などの地域タスクで優れたローカライズされた特徴を学習するというアイデアは、比較的最近のコンセプトです。しかし、これらの技術は、映画やテクスチャなどのピクセルに関する動きなどの特性を学習するのではなく、画像や動画の内容を理解することに重点を置いています。

この研究では、Meta AI、PSL研究大学、およびニューヨーク大学の研究者らが、一般的なセルフスーパーバイズドラーニングを利用したコンテンツ特性と、映画からのセルフスーパーバイズド光流推定を用いた動きの特徴を同時に学習することに焦点を当てています。映画の連続フレームやステレオペアの画像など、2つの画像が動くか密なピクセルの接続を持つ場合、光流によってそれが捉えられます。コンピュータビジョンでは、光流の推定は、ビジュアルオドメトリや奥行き推定、オブジェクトトラッキングなどの操作にとって重要な基本的な問題です。従来の方法によれば、光流の推定は、ピクセルを滑らかさの要件に一致させる最適化問題です。

合成データではなく実世界のデータを分類するという課題は、ニューラルネットワークと教師付き学習に基づくアプローチを制限します。セルフスーパーバイズドテクニックは、実世界のビデオデータを大量に学習することを可能にすることで、教師付きテクニックと競合しています。ただし、現在のほとんどのアプローチは動きに注意を払うだけであり、ビデオの(意味的な)内容には注意を払っていません。この問題は、マルチタスクアプローチを使用して、画像での動きとコンテンツ要素を同時に学習することで解決されます。最近の手法では、ビデオフレーム間の空間的な関係を特定します。目的は、オブジェクトの移動を追跡し、光流推定では得られないコンテンツデータを収集することです。

これらの手法は、オブジェクトレベルの動きの推定手法です。他の視覚的な下流タスクに対して比較的一般化が弱く、トラッキングのための非常に特殊化された特性を獲得します。獲得される視覚的特性の品質の低さは、これらの手法がImageNetのような大きな画像データセットよりも多様性が必要な小さなビデオデータセットで頻繁にトレーニングされることによって強化されます。複数のアクティビティを同時に学習することは、視覚的表現を開発するためのより信頼性のある手法です。この問題を解決するために、彼らはMC-JEPA(Motion-Content Joint-Embedding Predictive Architecture)を提案しています。このジョイント埋め込み予測アーキテクチャベースのシステムでは、共通のエンコーダを使用して、自己教師付き光流推定とコンテンツ特性をマルチタスクの環境で学習します。

以下は、彼らの貢献の概要です:

• シンセティックおよびリアルなビデオデータからのセルフスーパーバイズド光流を学習するために、PWC-Netをベースにした技術を提供します。これには、逆方向の一貫性損失と共分散正則化項など、さまざまな追加要素が含まれます。

• 画像ネットでトレーニングされたセルフスーパーバイズド学習技術であるM-JEPAとVICRegを使用し、複数のタスク構成でM-JEPAを最適化して、推定された光流を改善し、さまざまな下流タスクにうまく適用できるコンテンツ特性を提供します。最終的なアプローチの名前はMC-JEPAです。

• KITTI 2015やSintelなどのさまざまな光流ベンチマーク、CityscapesやDAVISでの画像およびビデオセグメンテーションタスクなどでMC-JEPAをテストし、単一のエンコーダがそれぞれのタスクで優れたパフォーマンスを発揮することを確認しました。MC-JEPAは、モーション予測からコンテンツ理解まで、画像やビデオを含む任意の視覚データでトレーニングでき、さまざまなタスクで優れたパフォーマンスを発揮する、ジョイント埋め込みとマルチタスク学習に基づくセルフスーパーバイズド学習手法の先駆者になると期待されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「PyTorchのネステロフモーメンタムの実装は間違っていますか?」

「PyTorchのSGDのドキュメンテーションを詳しく見ると、彼らのNesterovモメンタムの実装は、元の論文に見られる数つの違いが...

機械学習

スマートインフラストラクチャのリスク評価における人間とAI・MLの協力

「人間の専門知識、AIの洞察、およびMLアルゴリズムをシナジー効果を発揮させることで、より安全で適応性のある都市システム...

AIニュース

オープンAIのファンクションコーリング入門

Forbesによると、AI市場は2030年までに$1,811.8 billionに到達すると予想されています。Davinci、GPT Turbo、GPT Turbo 3.5、...

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

機械学習

「グラフ機械学習 @ ICML 2023」

「壮大なビーチとトロピカルなハワイの風景🌴は、勇敢な科学者たちを国際機械学習会議に出席し、最新の研究成果を発表するこ...

機械学習

ジェンAIの活用:攻撃型AIに対するサイバー強靭性の構築

「創発型人工知能(GenAI)は、セキュリティの風景を革新し、新しい機会と新しい課題を創り出しています」