このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF（PERF）を紹介します

『パノラマニックNeRF（PERF）：単一の画像を探索可能な3Dシーンに変換するAI研究』

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常、複数の画像やシーンのビューが必要です。NeRFは、異なる視点から撮影されたシーンの一連の画像を使用します。NeRFには、NeRF-Wなどの拡張や改良があり、より効率的で正確、さまざまなシナリオ、ダイナミックなシーン、リアルタイムのアプリケーションにも適用可能にすることを目指しています。その派生物は、コンピュータビジョン、コンピュータグラフィックス、3Dシーンの再構築の分野に大きな影響を与えました。

ただし、単一の画像があり、3Dの先行知識を組み込みたい場合、3D再構築の品質を向上させる必要があります。現在の技術は視野を制限するため、実世界の360度パノラマシナリオで大きなサイズを持つスケーラビリティを大幅に制限しています。研究者たちは、PERFと呼ばれる360度新規ビュー合成フレームワークを提案しています。Panoramic Neural Radiance field（パノラミックニューラルラディエンスフィールド）の略称です。彼らのフレームワークは、単一のパノラマからパノラミックニューラルラディエンスフィールドをトレーニングします。

パノラマイメージは、複数の画像を取り込んで、しばしば順番に撮影し、それらを縫い合わせて風景、都市景観、または他のシーンの無接続で広角の表現を形成することによって作成されます。研究チームは、訓練済みのStable Diffusion for RGB inpaintingを使用して、可視領域のRGBイメージと深度マップを補完するための共同RGBD inpainting手法を提案しています。また、入力パノラマからは見えない新しい外観と3D形状を生成するためのモノキュラーデプスエスティメータも訓練しました。

単一のパノラマからパノラミックニューラルラディエンスフィールド（NeRF）をトレーニングすることは、3D情報の欠如、大型オブジェクトの遮蔽、再構築と生成の関連問題、そしてインペイント中の可視領域と不可視領域の間のジオメトリの競合という課題に直面しています。これらの問題に対処するために、PERFは次の三つのステップから成り立っています：1）デプススーパビジョンによる単一ビューNeRFトレーニングの取得；2）ROIのRGBD inpaintingの共同作業；3）プログレッシブなインペイントとイレースのジェネレーションの使用。

ROIの予測されたデプスマップを最適化し、全体的なパノラマシーンと一貫性を持たせるために、彼らはインペイントとイレースの手法を提案しています。この手法では、不可視領域をランダムな視点からインペイントし、他の参照ビューから観測されるジオメトリの競合領域を消去することで、より良い3Dシーン補完を実現します。

研究者たちはReplicaデータセットとPERF-in-the-wildデータセットで実験を行いました。PERFは、新たなシングルビューパノラミックニューラルラディエンスフィールドの最新の状態であることを示しています。彼らはPERFがパノラマから3D、テキストから3D、3Dシーンのスタイル化のタスクに応用でき、いくつかの有望なアプリケーションで驚くべき結果が得られると述べています。

PERFはシングルショットNeRFの性能を大幅に向上させますが、デプスエスティメータとStable Diffusionの正確性に大きく依存します。したがって、チームは将来的な取り組みとして、デプスエスティメータと安定したディフュージョンモデルの正確性を向上させると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF（PERF）を紹介します

Was this article helpful?

デジタルワーカーやAIエージェントのレベルを定義する時が来ましたこれは自動運転車と同様のものですIDWAがプロセスをスタートします

「40歳以上の方にオススメのAIツール（2023年11月版）」

AI研究

「Neosyncをご紹介します：開発環境やテストにおいて、製造データを同期化し、匿名化するためのオープンソースソリューション」

今日、開発者の70%がAIを受け入れています：現在のテックの環境での大型言語モデル、LangChain、およびベクトルデータベースの台頭について探求する

エッジにおける生涯学習

「ChatGPTとAIでお金を稼ぐ3つの方法」

「自己教師あり学習とトランスフォーマー？ - DINO論文の解説」

「このように考えて私に答えてください：このAIアプローチは、大規模な言語モデルをガイドするためにアクティブなプロンプティングを使用します」