UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

カリフォルニア大学サンディエゴ校とMeta AIの研究者たちは、MonoNeRFを紹介しました。この新しいアプローチにより、Neural Radiance Fields(NeRF)をモノクルビデオから学習することが可能になり、正確なカメラの位置情報に依存しなくなりました。

この研究では、NeRFは視点合成、シーンおよびオブジェクトの再構築、意味理解、ロボット工学など、さまざまなアプリケーションで有望な結果を示していることが強調されています。しかし、NeRFの構築には正確なカメラの位置情報の注釈が必要であり、単一のシーンに制約があり、時間のかかるトレーニングと大規模な制約のないビデオへの適用が制限されています。

これらの課題に対応するため、最近の研究では、複数のシーンからなるデータセットでトレーニングを行い、その後、個々のシーンで微調整することにより、一般化可能なNeRFの学習に焦点を当てています。この戦略により、ビュー入力が少ない状態でも再構築および視点合成が可能ですが、トレーニング中にカメラの位置情報が必要です。一部の研究者はカメラの位置情報なしでNeRFをトレーニングしようと試みていますが、これらのアプローチは特定のシーンに限定され、自己教師付きのキャリブレーションの複雑さにより、異なるシーン間での一般化が困難です。

MonoNeRFは、静止したシーンでのカメラの動きを捉えたモノクルビデオでトレーニングすることで、これらの制限を克服します。研究者たちは、現実のビデオは多様な視点ではなく、ゆっくりとしたカメラの変化を示すことを重要な観察とし、これを提案されたフレームワーク内で利用しています。この手法は、大規模な現実のビデオデータセットでトレーニングされたオートエンコーダベースのモデルを使用します。具体的には、深度エンコーダは各フレームの単眼の深度を推定し、カメラの位置エンコーダは連続するフレーム間の相対カメラの位置を決定します。これらの分離された表現は、各入力フレームのNeRF表現を構築するために利用され、推定されたカメラの位置に基づいて別の入力フレームをデコードするためにレンダリングされます。

モデルは、レンダリングされたフレームと入力フレームの一貫性を確保するための再構築損失を使用してトレーニングされます。ただし、再構築損失だけに依存すると、推定された単眼の深度、カメラの位置、およびNeRF表現が同じスケール上にない可能性があるため、ささいな解になる可能性があります。研究者たちは、トレーニング中にこれらの表現を整列させるための新しいスケールキャリブレーション手法を提案しています。彼らの提案されたフレームワークの主な利点は2つあります:3Dカメラの位置情報の必要性がなくなり、大規模なビデオデータセットでの効果的な一般化が実現し、転移性が向上します。

テスト時には、学習された表現を単眼の深度推定、カメラの位置推定、および単一画像の新しい視点合成など、さまざまな下流タスクに適用することができます。研究者たちは、主に屋内シーンで実験を行い、彼らのアプローチの有効性を示しています。彼らの手法は、Scannetのテストセットでの自己教師付き深度推定を大幅に改善し、NYU Depth V2に対して優れた一般化性能を示します。さらに、MonoNeRFは、カメラの位置推定においてRealEstate10Kデータセットを使用した以前のアプローチを一貫して上回っています。新しい視点合成では、カメラの位置の正確な情報なしで学習する方法や、正確なカメラの位置情報に依存する最近のアプローチよりも優れたパフォーマンスを発揮します。

まとめると、研究者たちは、正確なカメラの位置情報を必要とせずにモノクルビデオから一般化可能なNeRFを学習するための新しい実用的な解決策としてMonoNeRFを提案しています。彼らの手法は、以前のアプローチの制約を解決し、大規模なデータセットに関連する深度推定、カメラの位置推定、および新しい視点合成に関連するさまざまなタスクで優れた性能を発揮することを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」

強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です...

機械学習

このAIの論文では、非英語の言語で事前学習されたLLMsを強化するために、言語間で意味の整合性を構築することを提案しています

ChatGPTで英語以外の言語で質問したことはありますか?おそらく、お問い合わせに対して奇妙で関連性のない回答を得ることがあ...

データサイエンス

データサイエンティストとして成功するために必要なソフトスキル

データサイエンティストとしてのキャリアを構築する際には、ハードスキルにフォーカスすることが簡単です非線形カーネルを持...

AIニュース

ChatGPTは自己を規制するための法律を作成する

コスタリカは、人工知能(AI)の規制において興味深い一歩を踏み出しました。法的な専門知識の源泉として予想外の存在であるC...

AI研究

マイクロソフトリサーチがBatteryMLを紹介:バッテリー劣化における機械学習のためのオープンソースツール

リチウムイオン電池は、高いエネルギー密度、長いサイクル寿命、低い自己放電率のおかげで、現代のエネルギー蓄積の要となっ...

AI研究

「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です

どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込み...