このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します

『パノラマニックNeRF(PERF):単一の画像を探索可能な3Dシーンに変換するAI研究』

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常、複数の画像やシーンのビューが必要です。NeRFは、異なる視点から撮影されたシーンの一連の画像を使用します。NeRFには、NeRF-Wなどの拡張や改良があり、より効率的で正確、さまざまなシナリオ、ダイナミックなシーン、リアルタイムのアプリケーションにも適用可能にすることを目指しています。その派生物は、コンピュータビジョン、コンピュータグラフィックス、3Dシーンの再構築の分野に大きな影響を与えました。

ただし、単一の画像があり、3Dの先行知識を組み込みたい場合、3D再構築の品質を向上させる必要があります。現在の技術は視野を制限するため、実世界の360度パノラマシナリオで大きなサイズを持つスケーラビリティを大幅に制限しています。研究者たちは、PERFと呼ばれる360度新規ビュー合成フレームワークを提案しています。Panoramic Neural Radiance field(パノラミックニューラルラディエンスフィールド)の略称です。彼らのフレームワークは、単一のパノラマからパノラミックニューラルラディエンスフィールドをトレーニングします。

パノラマイメージは、複数の画像を取り込んで、しばしば順番に撮影し、それらを縫い合わせて風景、都市景観、または他のシーンの無接続で広角の表現を形成することによって作成されます。研究チームは、訓練済みのStable Diffusion for RGB inpaintingを使用して、可視領域のRGBイメージと深度マップを補完するための共同RGBD inpainting手法を提案しています。また、入力パノラマからは見えない新しい外観と3D形状を生成するためのモノキュラーデプスエスティメータも訓練しました。

単一のパノラマからパノラミックニューラルラディエンスフィールド(NeRF)をトレーニングすることは、3D情報の欠如、大型オブジェクトの遮蔽、再構築と生成の関連問題、そしてインペイント中の可視領域と不可視領域の間のジオメトリの競合という課題に直面しています。これらの問題に対処するために、PERFは次の三つのステップから成り立っています:1)デプススーパビジョンによる単一ビューNeRFトレーニングの取得;2)ROIのRGBD inpaintingの共同作業;3)プログレッシブなインペイントとイレースのジェネレーションの使用。

ROIの予測されたデプスマップを最適化し、全体的なパノラマシーンと一貫性を持たせるために、彼らはインペイントとイレースの手法を提案しています。この手法では、不可視領域をランダムな視点からインペイントし、他の参照ビューから観測されるジオメトリの競合領域を消去することで、より良い3Dシーン補完を実現します。

研究者たちはReplicaデータセットとPERF-in-the-wildデータセットで実験を行いました。PERFは、新たなシングルビューパノラミックニューラルラディエンスフィールドの最新の状態であることを示しています。彼らはPERFがパノラマから3D、テキストから3D、3Dシーンのスタイル化のタスクに応用でき、いくつかの有望なアプリケーションで驚くべき結果が得られると述べています。

PERFはシングルショットNeRFの性能を大幅に向上させますが、デプスエスティメータとStable Diffusionの正確性に大きく依存します。したがって、チームは将来的な取り組みとして、デプスエスティメータと安定したディフュージョンモデルの正確性を向上させると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Microsoftは、AIの著作権争いを引き起こした場合でも、有料のCopilotの顧客を保護します」

「不運だね、ただ乗りの人たちよ:君たちは自力でやっていくしかないよ」

AI研究

研究者たちは、画像内の似たような材料を特定するためにAIを使用しています

この機械学習の手法は、ロボットのシーン理解、画像編集、オンライン推薦システムに役立つことができます

機械学習

このAIの論文では、プログラミング言語が指示調整を通じて互いを向上させる方法について説明しています

大型言語モデル(LLM)の導入は世界中で大きな話題となっています。これらのモデルは、人間のように独自で創造的なコンテンツ...

データサイエンス

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります...

データサイエンス

将来のPythonバージョン(3.12など)に一般のユーザーに先駆けてアクセスする方法

Python 3.12などの将来のバージョンを群衆より先にインストールしてテストする方法についてのチュートリアルで、新しい機能を...

機械学習

このAI論文は、大規模な言語モデルにおける長期的な会話の一貫性を向上させるための再帰的なメモリ生成手法を提案しています

チャットボットや他のオープンドメインのコミュニケーションシステムは、近年の関心と研究の急増を見ています。長期的な議論...