UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

カリフォルニア大学サンディエゴ校とMeta AIの研究者たちは、MonoNeRFを紹介しました。この新しいアプローチにより、Neural Radiance Fields(NeRF)をモノクルビデオから学習することが可能になり、正確なカメラの位置情報に依存しなくなりました。

この研究では、NeRFは視点合成、シーンおよびオブジェクトの再構築、意味理解、ロボット工学など、さまざまなアプリケーションで有望な結果を示していることが強調されています。しかし、NeRFの構築には正確なカメラの位置情報の注釈が必要であり、単一のシーンに制約があり、時間のかかるトレーニングと大規模な制約のないビデオへの適用が制限されています。

これらの課題に対応するため、最近の研究では、複数のシーンからなるデータセットでトレーニングを行い、その後、個々のシーンで微調整することにより、一般化可能なNeRFの学習に焦点を当てています。この戦略により、ビュー入力が少ない状態でも再構築および視点合成が可能ですが、トレーニング中にカメラの位置情報が必要です。一部の研究者はカメラの位置情報なしでNeRFをトレーニングしようと試みていますが、これらのアプローチは特定のシーンに限定され、自己教師付きのキャリブレーションの複雑さにより、異なるシーン間での一般化が困難です。

MonoNeRFは、静止したシーンでのカメラの動きを捉えたモノクルビデオでトレーニングすることで、これらの制限を克服します。研究者たちは、現実のビデオは多様な視点ではなく、ゆっくりとしたカメラの変化を示すことを重要な観察とし、これを提案されたフレームワーク内で利用しています。この手法は、大規模な現実のビデオデータセットでトレーニングされたオートエンコーダベースのモデルを使用します。具体的には、深度エンコーダは各フレームの単眼の深度を推定し、カメラの位置エンコーダは連続するフレーム間の相対カメラの位置を決定します。これらの分離された表現は、各入力フレームのNeRF表現を構築するために利用され、推定されたカメラの位置に基づいて別の入力フレームをデコードするためにレンダリングされます。

モデルは、レンダリングされたフレームと入力フレームの一貫性を確保するための再構築損失を使用してトレーニングされます。ただし、再構築損失だけに依存すると、推定された単眼の深度、カメラの位置、およびNeRF表現が同じスケール上にない可能性があるため、ささいな解になる可能性があります。研究者たちは、トレーニング中にこれらの表現を整列させるための新しいスケールキャリブレーション手法を提案しています。彼らの提案されたフレームワークの主な利点は2つあります:3Dカメラの位置情報の必要性がなくなり、大規模なビデオデータセットでの効果的な一般化が実現し、転移性が向上します。

テスト時には、学習された表現を単眼の深度推定、カメラの位置推定、および単一画像の新しい視点合成など、さまざまな下流タスクに適用することができます。研究者たちは、主に屋内シーンで実験を行い、彼らのアプローチの有効性を示しています。彼らの手法は、Scannetのテストセットでの自己教師付き深度推定を大幅に改善し、NYU Depth V2に対して優れた一般化性能を示します。さらに、MonoNeRFは、カメラの位置推定においてRealEstate10Kデータセットを使用した以前のアプローチを一貫して上回っています。新しい視点合成では、カメラの位置の正確な情報なしで学習する方法や、正確なカメラの位置情報に依存する最近のアプローチよりも優れたパフォーマンスを発揮します。

まとめると、研究者たちは、正確なカメラの位置情報を必要とせずにモノクルビデオから一般化可能なNeRFを学習するための新しい実用的な解決策としてMonoNeRFを提案しています。彼らの手法は、以前のアプローチの制約を解決し、大規模なデータセットに関連する深度推定、カメラの位置推定、および新しい視点合成に関連するさまざまなタスクで優れた性能を発揮することを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「それはすでに人間ができることを遥かに超えている」:AIは建築家を一掃するのか?

「それは建物の革命を起こしていますが、AIは一つの職業を絶滅させる可能性がありますか?」

AIニュース

「Amazon SageMakerを使用して、Llama 2モデルのスループット性能を向上させる」

機械学習(ML)の普及において、私たちは興奮する転換点にいます私たちは、ほとんどの顧客の体験やアプリケーションが生成型A...

AI研究

このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います

アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定(EHPS)の画期的な分野...

機械学習

「簡単な英語プロンプトでLLMをトレーニング!gpt-llm-trainerと出会って、タスク固有のLLMをトレーニングする最も簡単な方法」

大規模な言語モデル(LLM)と呼ばれるAIの形式は、人間と同等のテキストを生成することが証明されています。しかし、LLMの訓...

AIニュース

Adobe Illustratorの「Generative Recolor」AIであなたの画像を変換しましょう

デザインソフトウェアの有名企業Adobeは、デザイナーとマーケターを強化する発表をしました。Adobe Illustratorの最先端のAI...

機械学習

「FC-CLIPによる全局セグメンテーションの革新:統一された単一段階人工知能AIフレームワーク」

イメージセグメンテーションは、画像を意味のある部分や領域に分割する基本的なコンピュータビジョンのタスクです。 それは、...