このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します

『パノラマニックNeRF(PERF):単一の画像を探索可能な3Dシーンに変換するAI研究』

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常、複数の画像やシーンのビューが必要です。NeRFは、異なる視点から撮影されたシーンの一連の画像を使用します。NeRFには、NeRF-Wなどの拡張や改良があり、より効率的で正確、さまざまなシナリオ、ダイナミックなシーン、リアルタイムのアプリケーションにも適用可能にすることを目指しています。その派生物は、コンピュータビジョン、コンピュータグラフィックス、3Dシーンの再構築の分野に大きな影響を与えました。

ただし、単一の画像があり、3Dの先行知識を組み込みたい場合、3D再構築の品質を向上させる必要があります。現在の技術は視野を制限するため、実世界の360度パノラマシナリオで大きなサイズを持つスケーラビリティを大幅に制限しています。研究者たちは、PERFと呼ばれる360度新規ビュー合成フレームワークを提案しています。Panoramic Neural Radiance field(パノラミックニューラルラディエンスフィールド)の略称です。彼らのフレームワークは、単一のパノラマからパノラミックニューラルラディエンスフィールドをトレーニングします。

パノラマイメージは、複数の画像を取り込んで、しばしば順番に撮影し、それらを縫い合わせて風景、都市景観、または他のシーンの無接続で広角の表現を形成することによって作成されます。研究チームは、訓練済みのStable Diffusion for RGB inpaintingを使用して、可視領域のRGBイメージと深度マップを補完するための共同RGBD inpainting手法を提案しています。また、入力パノラマからは見えない新しい外観と3D形状を生成するためのモノキュラーデプスエスティメータも訓練しました。

単一のパノラマからパノラミックニューラルラディエンスフィールド(NeRF)をトレーニングすることは、3D情報の欠如、大型オブジェクトの遮蔽、再構築と生成の関連問題、そしてインペイント中の可視領域と不可視領域の間のジオメトリの競合という課題に直面しています。これらの問題に対処するために、PERFは次の三つのステップから成り立っています:1)デプススーパビジョンによる単一ビューNeRFトレーニングの取得;2)ROIのRGBD inpaintingの共同作業;3)プログレッシブなインペイントとイレースのジェネレーションの使用。

ROIの予測されたデプスマップを最適化し、全体的なパノラマシーンと一貫性を持たせるために、彼らはインペイントとイレースの手法を提案しています。この手法では、不可視領域をランダムな視点からインペイントし、他の参照ビューから観測されるジオメトリの競合領域を消去することで、より良い3Dシーン補完を実現します。

研究者たちはReplicaデータセットとPERF-in-the-wildデータセットで実験を行いました。PERFは、新たなシングルビューパノラミックニューラルラディエンスフィールドの最新の状態であることを示しています。彼らはPERFがパノラマから3D、テキストから3D、3Dシーンのスタイル化のタスクに応用でき、いくつかの有望なアプリケーションで驚くべき結果が得られると述べています。

PERFはシングルショットNeRFの性能を大幅に向上させますが、デプスエスティメータとStable Diffusionの正確性に大きく依存します。したがって、チームは将来的な取り組みとして、デプスエスティメータと安定したディフュージョンモデルの正確性を向上させると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「タイムシリーズの拡張」

「拡張機能は、コンピュータビジョンパイプラインの領域において欠かせない要素となってきましたしかし、タイムシリーズなど...

コンピュータサイエンス

2050年までに、ロボットはワールドカップの優勝者に勝利するか?

ロボカップの夢は、数世代のロボティストたちにインスピレーションを与えてきました

機械学習

基本に戻る週3:機械学習の紹介

「VoAGIのバック・トゥ・ベーシックスシリーズの第3週へようこそ今週は、機械学習の世界にダイブしていきます」

機械学習

PoisonGPT ハギングフェイスのLLMがフェイクニュースを広める

大規模言語モデル(LLM)は、世界中で大きな人気を集めていますが、その採用にはトレース性とモデルの由来に関する懸念があり...

AI研究

最近の人類学的研究によれば、クロード2.1の戦略的な促進を通じて、プロンプトに単一の追加をすることで、LLMsの記憶容量を70%増加させることができると報告されました

以下のHTMLコードを日本語に翻訳します(HTMLコードは結果に含めます): この研究は、Claude 2.1の機能における固有の課題に...

AIニュース

「自動運転車の安全性について、ブリティッシュコロンビア州は意見が分かれている」

カナダのブリティッシュコロンビア大学の研究者による研究では、自動運転車に対して道路利用者が快適に感じるためには、段階...