「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

「中国AI研究チームが導入した4K4Dハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現について」(China AI研究チームの果たした役割を強調し、4Dポイントクラウド表現に焦点を当てたタイトルに変更しました)

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとするコンピュータビジョンとグラフィックのタスクです。この技術の実用性は、高忠実度なリアルタイムレンダリング能力に依存しており、VR / AR、スポーツ放送、芸術的パフォーマンスキャプチャなどで使用されます。従来のアプローチでは、動的な3Dシーンをテクスチャ付きメッシュシーケンスとして表現し、複雑なハードウェアを使用して再構築しますが、制御された環境に限定されます。最近の研究では、RGBビデオから動的な3Dシーンを再構築するための暗黙のニューラル表現が、微分可能なレンダリングを通じて非常に成功しています。最近開発された手法では、対象シーンを動的な放射輝度場としてモデル化し、ボリュームレンダリングを使用して画像を合成し、最適化のために入力画像と比較します。動的ビューシンセシスで印象的な結果を達成しているにもかかわらず、既存の手法は通常、1080pの解像度で画像をレンダリングするために数秒または数分の時間を要します。

静的なビューシンセシスの手法に触発され、特定のダイナミックビューシンセシスのテクニックは、コストまたはネットワーク評価の数を減らすことによってレンダリング速度を向上させます。これらの戦略を採用することにより、MLPマップとして知られる表現は、ダイナミックな前景人物のためのレンダリング速度を41.7 fpsに達成します。ただし、レンダリング速度の課題は依然残ります。MLPマップは、中程度の解像度の画像(384×512)を合成する場合にのみリアルタイムのパフォーマンスを発揮します。4K解像度の画像をレンダリングする場合、その速度は1.3 FPSまで低下します。

この研究では、4K4Dという新しいニューラル表現を紹介し、動的な3Dシーンのモデリングとレンダリングに使用します。4K4Dは、レンダリングの速度を大幅に改善し、レンダリングの品質において競争力を維持しています。システムの概要を以下に示します。

このコアのイノベーションは、4Dポイントクラウド表現とハイブリッド外観モデルにあります。具体的には、動的なシーンでは、空間刻みアルゴリズムを使用して取得した荒いポイントクラウドシーケンスを使用し、各ポイントの位置を学習可能なベクトルとしてモデル化します。4D特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それをMLPネットワークに入力してポイントの半径、密度、および球面調和(SH)係数を予測します。 4D特徴グリッドは、ポイントクラウドに空間的正則化を自然に適用し、最適化のロバスト性を向上させます。さらに、異なる可能な深さの剥離アルゴリズムを開発し、ハードウェアラスタライザを使用して前例のないレンダリング速度を実現します。

研究では、MLPベースのSHモデルが動的シーンの外観を表現する際の課題を特定しています。これに対処するために、SHモデルを補完するための画像ブレンディングモデルを導入して、シーンの外観を表現します。重要な設計の選択肢により、画像ブレンディングネットワークは視線方向と独立しており、トレーニング後の事前計算を可能にし、レンダリング速度を向上させます。ただし、この戦略は、ビュー方向に沿った離散動作の課題を導入し、連続のSHモデルを使用して緩和されます。3Dガウススプラッティングとは異なり、SHモデルのみを使用するのではなく、このハイブリッド外観モデルは入力画像で捉えられた情報を十分に活用し、レンダリング品質を効果的に向上させます。

著者によって報告された広範な実験では、4K4Dは注目すべきレンダリング品質であると同時に、桁違いに高速なレンダリングを達成しています。RTX 4090 GPUを使用した場合、この手法は1080pの解像度で最大400 FPS、4Kの解像度で80 FPSに達するとのことです。

以下の画像は、最先端の技術との視覚的比較です。

これは4K4Dの概要であり、ハードウェアラスタライゼーションをサポートし、前例のない高速なレンダリングを可能にする革新的なAI 4Dポイントクラウドの表現です。詳細を知りたい方は、以下に引用されたリンクを参照していただくか、お気軽にお問い合わせください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「英国初のAIカメラ、わずか3日で300人の犯罪者を摘発」

イギリスの道路安全の風景は、フリースタンディングの人工知能(AI)道路安全カメラの登場によって革命的な変革を遂げていま...

機械学習

「AUDITに会おう:潜在拡散モデルに基づく指示に従ったオーディオ編集モデル」

拡散モデルは急速に進化し、人々の生活をより簡単にしています。自然言語処理や自然言語理解からコンピュータビジョンまで、...

機械学習

機械学習信頼性の向上:異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法

オブジェクトがそのカテゴリーの他のアイテムに似ている場合、それは典型的と見なされます。例えば、ペンギンは普通でない鳥...

機械学習

Amazon SageMaker JumpStartを使用した対話型ビジュアル言語処理

ビジュアル言語処理(VLP)は生成AIの最前線にあり、言語知能、ビジョン理解、処理を包括するマルチモーダル学習の進展を推進...

データサイエンス

「2023年に必要な機械学習エンジニアの10の必須スキル」

イントロダクション 現在の進化する環境では、組織はAI、ディープラーニング、および機械学習の潜在能力を引き出すために、チ...