中国の最新のAI研究により、「OMMO」と呼ばれる大規模な屋外マルチモーダルデータセットと新しい視点合成および暗黙的なシーン再構築のためのベンチマークが紹介されました
中国の最新のAI研究により、新しいマルチモーダルデータセット「OMMO」とシーン再構築のためのベンチマークが紹介されました
最近の暗黙的な脳表現の進歩により、写真のような新しい視点の合成と高品質な表面再構築が可能になりました。残念ながら、現在使用されているアプローチのほとんどは、単一のアイテムや内部のシーンに重点を置いており、屋外の状況で使用すると合成のパフォーマンスが向上する可能性があります。現在の屋外シーンのデータセットは、仮想シーンをレンダリングしたり、基本的なシーンをいくつか収集することで、控えめな地理的スケールで作成されています。標準のベンチマークや大規模な屋外シーンのデータセットがないため、一部の最新のアプローチのパフォーマンスを評価することは不可能です。これらのアプローチは、大規模なシーンに適しており、この問題に取り組もうとしていますが、その効果を評価することができません。
BlendedMVSとUrbanScene3Dのコレクションには、本物のシーンとは異なるテクスチャや外観要素を持つ再構築または仮想シーンからのシーンの写真が含まれています。ImageNetやCOCOのようなインターネットからの画像収集は非常に効率的なデータセットを作成することができますが、シーンの常に変化するオブジェクトや照明条件のため、NeRFベースのジョブ評価には適していません。高精度な産業用レーザースキャナーによって撮影されたリアルな屋外の風景の基準として、Tanks and Templesが提供されています。ただし、そのシーンのスケールはまだ小さすぎます(平均463m2)し、単一の外部オブジェクトや構造にしか焦点を当てていません。
低照度で円形のカメラ軌跡を使用して撮影された都市のシーンのイラストです。カメラの軌跡、シーンの説明、およびマルチビューにキャリブレーションされた写真を表示します。私たちのデータセットはリアルで高品質なテクスチャの詳細を提供することができます。カラーボックス内のいくつかの特徴は、これを示すためにズームインされています。
- 「2023年の小売り向けデータストリーミングの状況」
- メタAIは、IMAGEBINDを紹介します:明示的な監督の必要性なく、一度に6つのモダリティからデータを結合できる最初のオープンソースAIプロジェクトです
- 「何を餌にしたの?このAIモデルは拡散モデルから訓練データを抽出できます」
彼らのデータ収集手法は、広範な現実世界の景色を記録するためにドローンのMega-NeRFを利用する方法に似ています。ただし、Mega-NeRFは2つの繰り返しシナリオのみを提供するため、一般的に受け入れられるベースラインとしては機能しません。したがって、屋外環境の大規模なNeRF研究は、単一のアイテムや内部のシーンに追いつく必要があります。彼らは、NeRFのベンチマーク用に開発された標準的でよく認識された大規模なシーンデータセットが存在しないという知識に基づいて、大規模な現実世界の屋外シーンデータセットの不足を解消するために、厳選されたフライビューマルチモーダルデータセットを提供します。上記の図に示されているように、データセットには33のシーンと迅速な注釈、タグ、および14Kのキャリブレーションされた写真が含まれています。上記の既存の手法とは異なり、彼らのシーンはインターネットや自分たちから獲得したものを含むさまざまなソースから取得されています。
また、網羅的で代表的な収集指標には、前のデータセットに含まれる必要があるさまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件、およびマルチモーダルデータが含まれています。彼らはまた、生成されたデータセットのNeRFに基づく視点合成、シーン表現、およびマルチモーダル合成の適合性とパフォーマンスを評価するための包括的なベンチマークを提供しています。さらに重要なことは、ドローンのオンラインビデオから現実世界のNeRFベースのデータを生成するための一般的なプロセスを提供し、コミュニティがデータセットを拡張することが簡単になることです。また、さまざまなシーンの種類、シーンのサイズ、カメラの軌跡、照明条件に応じた各タスクの細かい評価も含まれており、各アプローチの詳細な評価を提供しています。
まとめると、彼らの主な貢献は次のとおりです:
• 大規模なNeRF研究を促進するために、現在利用可能な屋外データセットよりも豊富で多様なマルチモーダルデータを備えた屋外シーンデータセットを提供します。
• 一般的な屋外NeRFアプローチのためのいくつかのベンチマーク割り当てを提供し、統一されたベンチマーク基準を確立します。多くのテストにより、彼らのデータセットが典型的なNeRFベースのタスクをサポートし、次の研究のための迅速な注釈を提供できることが示されています。
• データセットを簡単にスケーラブルにするために、彼らはインターネットから自由にダウンロードできる映画をNeRF用のトレーニングデータに変換するための低コストのパイプラインを提供しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles