スタンフォード大学の研究は、PointOdysseyを紹介します:長期ポイント追跡のための大規模な合成データセット
スタンフォード大学の研究は、PointOdysseyを紹介します:大規模な合成データセットによる長期ポイント追跡
大規模な注釈付きデータセットは、さまざまなコンピュータビジョンタスクで正確なモデルを作成するためのハイウェイとして機能してきました。この研究では、細かい粒度の長距離トラッキングを達成するために、このようなハイウェイを提供することを目指しています。細かい粒度の長距離トラッキングは、映画の任意のフレームの任意のピクセルの位置を与えられた場合に、できるだけ長い時間、マッチングする世界の表面点を追跡することを目指しています。細かい粒度の短距離トラッキング(光流など)を目的としたデータセットの世代がいくつかあり、さまざまな種類の粗い粒度の長距離トラッキング(単一オブジェクトトラッキング、複数オブジェクトトラッキング、ビデオオブジェクトセグメンテーションなど)を目的とした定期的に更新されるデータセットがあります。しかし、これら2つの監視タイプのインターフェースに関する作品は限られています。
研究者たちはすでに実世界の映画で細かい粒度のトラッカーをスパースな人手による注釈(BADJAとTAPVid)を持つ映画でテストし、非現実的な合成データ(FlyingThings++とKubric-MOVi-E)でそれらをトレーニングしています。合成データは、ランダムなオブジェクトがランダムなバックドロップ上で予期せぬ方向に移動するものです。これらのモデルが実際のビデオに一般化できるという事実は興味深いですが、このような基本的なトレーニングを使用することで、長期的なコンテキストとシーンレベルの意味理解の開発が妨げられます。彼らは、長距離ポイントトラッキングは光流の拡張として考えてはならず、自然主義が犠牲になってもネガティブな結果が発生しないと主張しています。
ビデオのピクセルは多少ランダムに動くかもしれませんが、その経路にはカメラの振動、オブジェクトレベルの移動と変形、社会的および物理的相互作用を含む多くのモデリング可能な要素が反映されています。進歩は、問題の重要性を認識することに依存しています。これは、データと方法論の両方の観点からの問題の重要性を人々が認識することに依存しています。スタンフォード大学の研究者たちは、PointOdysseyという長期的な細かい粒度のトラッキングのトレーニングと評価のための大規模な合成データセットを提案しています。彼らのコレクションには、リアルワールドのビデオの複雑さ、多様性、リアリズムがすべて表現されており、ピクセルパーフェクトな注釈はシミュレーションを通じてのみ実現可能です。
彼らは、ランダムまたは手動設計ではなく、リアルワールドのビデオとモーションキャプチャから採掘したモーション、シーンレイアウト、カメラの軌跡を使用しており、これは彼らの作業を以前の合成データセットと区別しています。また、環境マップ、照明、人間および動物の体、カメラの軌跡、材料など、さまざまなシーン属性でドメインのランダム化を使用しています。高品質なコンテンツとレンダリング技術のアクセス性の向上により、これまでに達成できなかったより写真的なリアリズムを提供することもできます。彼らのデータのモーションプロファイルは、大規模な人間および動物のモーションキャプチャデータセットから派生しています。これらのキャプチャを使用して、屋外環境でのヒューマノイドや他の動物のリアルな長距離軌跡を生成します。
屋外環境では、これらのアクターを地面にランダムに配置された3Dオブジェクトとペアにします。これらのオブジェクトは、キックされたり、足が接触すると蹴られたりするなど、物理的な反応を示します。次に、内部設定のモーションキャプチャを使用して、リアルな屋内シナリオを作成し、キャプチャ環境を手動で再現します。これにより、元のデータのシーン認識の性格を保ちながら、正確なモーションと相互作用を再現することができます。また、シチュエーションの複雑なマルチビューデータを提供するために、実際の映像から導かれたカメラの軌跡をインポートし、合成された存在の頭部に追加のカメラを接続します。KubricとFlyingThingsの主にランダムなモーションパターンとは対照的に、キャプチャ駆動アプローチを取っています。
彼らのデータは、従来のボトムアップの手がかり(特徴マッチングなど)だけに頼るのではなく、シーンレベルの手がかりを利用してトラックに強力なプライオリティを提供するトラッキング技術の開発を促進します。42種類のヒューマノイド形状、アーティストによって作成されたテクスチャ、7種類の動物、1K以上のオブジェクト/背景テクスチャ、1K以上のオブジェクト、20のオリジナル3Dシーン、50の環境マップなど、さまざまなシミュレートされたアセットの大規模なコレクションがデータに美的多様性を与えています。シーンの照明をランダム化して、さまざまな暗い場所と明るい場所を作成します。さらに、シーンにダイナミックな霧や煙の効果を追加し、FlyingThingsとKubricに完全に欠けている部分的な遮蔽のタイプを追加します。PointOdysseyが開く新しい問題の1つは、長距離の時間的コンテキストをどのように使用するかです。
たとえば、最先端のトラッキングアルゴリズムであるPersistent Independent Particles (PIPs)は、8フレームの時間ウィンドウを持っています。彼らは、任意の長さの時間的コンテキストを使用するための最初のステップとして、PIPにいくつかの変更を提案しています。これには、8フレームの時間範囲を大幅に拡張し、テンプレートの更新メカニズムを追加することが含まれます。実験結果によれば、彼らのソリューションは、PointOdysseyのテストセットおよび実世界のベンチマークにおいて、トラッキングの正確さにおいて他のすべての手法を上回るという結果です。結論として、本研究の主要な貢献である、リアルワールドの細かい粒度のモニタリングの難しさと機会を反映しようとする長期的なポイントトラッキングのための大規模な合成データセットであるPointOdysseyです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles