「リアルタイム1080pの新しい視点合成の革命：3Dガウスと可視性認識レンダリングによる突破」

Revolution in real-time 1080p perspective synthesis Breakthrough with 3D Gauss and visibility recognition rendering

メッシュとポイントは、明示的であり、高速なGPU/CUDAベースのラスタリゼーションに適しているため、最も一般的な3Dシーン表現です。一方、最近のニューラル輝度場（NeRF）の手法は、連続的なシーン表現をベースにしており、通常はキャプチャされたシーンの新たな視点合成のためにボリューメトリックなレイマーチングを使用してマルチレイヤパーセプトロン（MLP）を最適化します。同様に、最も効率的な輝度場の解決策も、ボクセル、ハッシュグリッド、またはポイントに格納された値を補完することで、連続的な表現を基に構築されます。これらの手法の定数的な性質は最適化を支援しますが、レンダリングに必要な確率的なサンプリングはコストがかかり、ノイズを引き起こす可能性があります。

Université Côte d’AzurとMax-Planck-Institut für Informatikの研究者は、両方の利点を組み合わせた新しいアプローチを紹介しています。彼らの3Dガウス表現は、最新の視覚品質と競争力のあるトレーニング時間で最適化を可能にします。同時に、彼らのタイルベースのスプラッティングソリューションは、以前に公開された複数のデータセットに対して1080p解像度でSOTA品質のリアルタイムレンダリングを実現します（図1を参照）。彼らの目標は、複数の写真でキャプチャされたシーンのためにリアルタイムレンダリングを可能にし、従来の実際のシーンの最も効率的な以前の手法と同様に最速の最適化時間で表現を作成することです。最近の手法では、高速なトレーニングを達成できますが、現在のSOTA NeRF手法で得られる視覚品質を達成するのは難しいです。つまり、Mip-NeRF360では最大48時間のトレーニングが必要です。

**図1:** このアプローチは、従来の方法と比較して最速の最適化時間と同等の品質で輝度場をリアルタイムにレンダリングします。ユニークな3Dガウスシーン表現とリアルタイム微分可能なレンダラーは、この性能を実現するために不可欠です。InstantNGPが同等のトレーニング時間で生成できる最高品質ですが、彼らは51分以内で最新のSOTA品質を得ることができます。これは、Mip-NeRF360よりもわずかに優れています。

高速であるが品質の低い輝度場の手法は、シーンによってはインタラクティブなレンダリング時間を達成できます（1秒あたり10〜15フレーム）。しかし、高解像度のリアルタイムレンダリングには達していません。彼らの解決策は、3つの主要な要素に基づいて構築されています。まず、柔軟で表現力豊かな3Dガウスをシーン表現として導入します。彼らは、以前のNeRFのような手法と同じ入力（Structure-from-Motion（SfM）でキャリブレーションされたカメラ）から始め、SfMプロセスの一部として無料で生成されるスパースなポイントクラウドで3Dガウスのセットを初期化します。MVS（Multi-View Stereo）データが必要なほとんどのポイントベースの解決策とは異なり、彼らはSfMポイントのみで高品質の結果を得ることができます。NeRFシンセティックデータセットの場合、彼らの手法はランダムな初期化でも高品質を実現します。

彼らは、3Dガウスが微分可能なボリューメトリック表現として優れた選択肢であることを示しています。それにもかかわらず、2Dに投影して標準的な𝛼ブレンディングを適用することで非常に効率的にラスタライズすることができます。これは、NeRFと同等の画像形成モデルを使用します。彼らの手法の2番目の要素は、3Dガウスのプロパティ（3D位置、不透明度𝛼、異方性共分散、球面調和（SH）係数）の最適化です。最適化手順では、適応的な密度制御ステップとともに、最適化中に3Dガウスを追加および削除します。最適化手順により、シーンの比較的コンパクトで非構造化で正確な表現（テストされたすべてのシーンについて1〜5百万のガウス）が生成されます。彼らの手法の第三および最後の要素は、最近の研究に基づいた高速なGPUソーティングアルゴリズムを使用したリアルタイムレンダリングソリューションです。

しかし、3Dガウス表現のおかげで、彼らは可視性の順序を尊重した異方性スプラッティングを行うことができます – ソートと𝛼-ブレンディングによるもの – そして必要なだけ多くのソートされたスプラットのトラバーサルを追跡することで、高速かつ正確な逆伝播を実現します。要約すると、彼らの貢献は以下のとおりです：

• ラジアンスフィールドの高品質な非構造化表現としての異方性3Dガウスの導入。

• 適応的密度制御と交互に行われる3Dガウスのプロパティの最適化手法により、キャプチャされたシーンの高品質な表現を作成します。

• GPUに対して可視性を考慮した高速な微分可能なレンダリング手法により、異方性スプラッティングと高品質な新しい視点合成を実現します。

彼らが以前に公開されたデータセットでの結果は、彼らが多視点キャプチャから3Dガウスを最適化し、以前の暗黙のラジアンスフィールド手法の中で最良の品質と同等またはそれ以上の品質を実現できることを示しています。また、彼らは最速の方法と同様のトレーニング速度と品質を実現し、重要なことに、高品質の新しい視点合成のためのリアルタイムレンダリングを提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「リアルタイム1080pの新しい視点合成の革命：3Dガウスと可視性認識レンダリングによる突破」

Was this article helpful?

「あらゆるプロジェクトに適した機械学習ライブラリ」

この秋登場予定：NVIDIA DLSS 3.5 が Chaos Vantage、D5 Render、Omniverse、そして人気のあるゲームタイトルに対応します

機械学習

AIの聴覚スキルを革命化する：清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

「AIオートメーションエージェンシーのリードを増やす方法（月間100件以上のミーティング）」

CLIP基礎モデル

OpenAIがグローバルイルミネーションを引き継ぎ、初の企業買収を祝います

データから洞察力へ：KubernetesによるAI/MLの活用