新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに意識したグリッドベースのレンダリングにおけるニューラル輝度場の進化

新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに配慮したグリッドベースのレンダリングにおけるニューラル輝度場の進化

ニューラル・ラディアンス・フィールド(NeRF)は、シーン再構成時のスケールの変動とエイリアシングのアーティファクトを減らすためにどのように改善できるのでしょうか? CMUとMetaからの新しい研究論文では、ピラミッド状のニューラル・ラディアンス・フィールド(PyNeRF:Pyramidal Neural Radiance Fields)を提案することで、この問題に取り組んでいます。PyNeRFは、異なる空間グリッド解像度でモデルヘッドを訓練することにより、さまざまなカメラ距離でシーンを再構成する際に生じる視覚的な歪みを軽減するのに役立ちます。PyNeRFはパフォーマンスに大きな影響を与えることなく、NeRFを高速化しながら高品質のシーン再構成を維持する効果的な解決策です。

NeRFに触発されて、この研究ではボクセルグリッドやテンソル近似を使用して描画速度とメモリ効率を向上させるためのグリッドベースの手法(NSVF、Plenoxels、DVGO、TensoRF、K-Planes、Instant-NGP)を探求しています。PyNeRFは、速度の利点と品質の維持を兼ね備え、Instant-NGPやNerfactoなどの他の高速描画手法を凌駕し、描画品質とトレーニング速度で優れた結果を示します。

Nerfを含む最近のニューラルボリューメトリックレンダリングの進歩は、現実的な視点合成の進展をもたらしています。ただし、NeRFはMLP表現と仮定により遅いため、エイリアシングが発生します。Mip-NeRFなどのグリッドベースの手法はトレーニングを加速しますが、位置符号化との互換性に欠けます。PyNeRFは、分割と征服のNeRF拡張と古典的な技術からインスピレーションを受けています。PyNeRFのモデルピラミッドはレイに沿ってサンプリングされ、分割アプローチが採用されることにより、高速化されたNeRF実装の速度を維持しながら、描画品質が改善されます。効率的かつ高品質な新しい視点合成のための幅広い解決策を提供します。

研究では、より大きなボリュームサンプルの描画に向けて、グリッドベースのモデルを修正し、異なる空間グリッド解像度でモデルヘッドを訓練することを提案しています。バックボーンモデルとしてSUDSを使用し、徐々により高い解像度でトレーニングします。学習した特徴をボクセルグリッドやハッシュテーブルなどの構造に保存するさまざまなグリッドベースの加速手法について議論されています。研究者は、LaplacianPyNeRFや他の補間手法と比較して、特徴グリッドの再利用と2Dピクセル領域の使用の影響を評価しています。主な貢献は、既存のグリッド描画手法において描画速度を保持しながら視覚的な忠実度を向上させる多目的の分割手法です。

PyNeRFは、合成と実世界のシーンにおいて誤差率を20〜90%低下させ、パフォーマンスへの影響を最小限に抑えることで描画品質を大幅に向上させます。Mip-NeRFと比較して、トレーニング速度が60倍速い状態で誤差を20%削減します。PyNeRFは2時間でSUDS品質に収束し、さまざまなメトリックでベースラインを凌駕しますが、SUDSには4時間かかります。さまざまな合成およびマルチスケールブレンダーデータセットでのテストと評価によって、PyNeRFの高品質な再構築はArgoverse 2 Sensorデータセットでの評価に証明されています。

まとめると、PyNeRFは高速ボリューメトリックレンダラーのアンチエイリアシング機能の向上において印象的な進展を示し、さまざまなデータセットで優れた結果を示しています。この手法は、現実世界のキャプチャを共有することでニューラルボリューメトリックレンダリングの研究を更に進めることを提唱していますが、高品質なニューラル表現の効率的な構築におけるセキュリティとプライバシーのリスクにも言及しています。

今後の研究は、追加の実世界のキャプチャの共有や統合ボリュームを階層レベルに割り当てるための代替マッピング関数の探求から利益を得ることができるでしょう。モデルのトレーニング中にプライバシーフィルタリングのためにセマンティック情報を使用することも有益な調査方向です。将来の興味深い展望には、高速なNeRF手法において描画速度を保持しながら視覚的な忠実度を向上させるためのアーキテクチャのさらなる探求が含まれます。潜在的な研究領域には、ピラミッドアプローチを他の高速NeRF実装に適用し、そのパフォーマンスを評価することがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

メタAIがNougatをリリース:科学文書を処理するためのOCRを実行するビジュアルトランスフォーマーモデルで、マークアップ言語に変換します

人工知能の発展とともに、そのサブフィールドである自然言語処理、自然言語生成、コンピュータビジョンなどは、広範なユース...

AIニュース

「OpenAIがオープンソースのGPTモデルのリリースを予告」

人工知能の先駆的な存在であるOpenAIは、オープンソースのGPTモデルを公開する可能性によってテックコミュニティで話題となっ...

AI研究

Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました

Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推...

AIニュース

「アマゾン対Google対マイクロソフト:AIで医療を革新する競争」

人工知能(AI)を医療業界に統合することは、技術の進歩の時代においてますます普及しています。Amazon、Google、Microsoftな...

機械学習

「機械学習における確率的要素の本質を明らかにする」

導入 機械学習は、データから学習し知的な判断を行うことを可能にする分野です。様々な概念と技術を含んでいます。そのうちの...

機械学習

「大規模言語モデルのランドスケープをナビゲートする」

マイクロソフトとメタは最近、次世代のオープンソースの大規模言語モデル(LLM)であるLlama 2を発表しましたLlama 2には、事...