このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF(PERF)を紹介します
『パノラマニックNeRF(PERF):単一の画像を探索可能な3Dシーンに変換するAI研究』
NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常、複数の画像やシーンのビューが必要です。NeRFは、異なる視点から撮影されたシーンの一連の画像を使用します。NeRFには、NeRF-Wなどの拡張や改良があり、より効率的で正確、さまざまなシナリオ、ダイナミックなシーン、リアルタイムのアプリケーションにも適用可能にすることを目指しています。その派生物は、コンピュータビジョン、コンピュータグラフィックス、3Dシーンの再構築の分野に大きな影響を与えました。
ただし、単一の画像があり、3Dの先行知識を組み込みたい場合、3D再構築の品質を向上させる必要があります。現在の技術は視野を制限するため、実世界の360度パノラマシナリオで大きなサイズを持つスケーラビリティを大幅に制限しています。研究者たちは、PERFと呼ばれる360度新規ビュー合成フレームワークを提案しています。Panoramic Neural Radiance field(パノラミックニューラルラディエンスフィールド)の略称です。彼らのフレームワークは、単一のパノラマからパノラミックニューラルラディエンスフィールドをトレーニングします。
パノラマイメージは、複数の画像を取り込んで、しばしば順番に撮影し、それらを縫い合わせて風景、都市景観、または他のシーンの無接続で広角の表現を形成することによって作成されます。研究チームは、訓練済みのStable Diffusion for RGB inpaintingを使用して、可視領域のRGBイメージと深度マップを補完するための共同RGBD inpainting手法を提案しています。また、入力パノラマからは見えない新しい外観と3D形状を生成するためのモノキュラーデプスエスティメータも訓練しました。
- このAI研究は、高品質なビデオ生成のための2つの拡散モデル、テキストからビデオ(T2V)モデルと画像からビデオ(I2V)モデルを紹介します
- このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています
- このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています
単一のパノラマからパノラミックニューラルラディエンスフィールド(NeRF)をトレーニングすることは、3D情報の欠如、大型オブジェクトの遮蔽、再構築と生成の関連問題、そしてインペイント中の可視領域と不可視領域の間のジオメトリの競合という課題に直面しています。これらの問題に対処するために、PERFは次の三つのステップから成り立っています:1)デプススーパビジョンによる単一ビューNeRFトレーニングの取得;2)ROIのRGBD inpaintingの共同作業;3)プログレッシブなインペイントとイレースのジェネレーションの使用。
ROIの予測されたデプスマップを最適化し、全体的なパノラマシーンと一貫性を持たせるために、彼らはインペイントとイレースの手法を提案しています。この手法では、不可視領域をランダムな視点からインペイントし、他の参照ビューから観測されるジオメトリの競合領域を消去することで、より良い3Dシーン補完を実現します。
研究者たちはReplicaデータセットとPERF-in-the-wildデータセットで実験を行いました。PERFは、新たなシングルビューパノラミックニューラルラディエンスフィールドの最新の状態であることを示しています。彼らはPERFがパノラマから3D、テキストから3D、3Dシーンのスタイル化のタスクに応用でき、いくつかの有望なアプリケーションで驚くべき結果が得られると述べています。
PERFはシングルショットNeRFの性能を大幅に向上させますが、デプスエスティメータとStable Diffusionの正確性に大きく依存します。したがって、チームは将来的な取り組みとして、デプスエスティメータと安定したディフュージョンモデルの正確性を向上させると述べています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- オックスフォード大学の研究者たちは、DynPointという人工知能アルゴリズムを開発しましたこのアルゴリズムは、自由な単眼ビデオの新しい視点を迅速に合成することを目的としています
- 中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました
- マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介
- サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります
- COSPとUSPの内部:GoogleがLLMsの推論を進めるための新しい方法を研究する
- 「ビジョン・トランスフォーマーの内部機能」
- 「AWS 研究者がジェミニを紹介:大規模な深層学習トレーニングにおける画期的な高速障害回復」