「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」

「中国AI研究チームが導入した4K4Dハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現について」(China AI研究チームの果たした役割を強調し、4Dポイントクラウド表現に焦点を当てたタイトルに変更しました)

ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとするコンピュータビジョンとグラフィックのタスクです。この技術の実用性は、高忠実度なリアルタイムレンダリング能力に依存しており、VR / AR、スポーツ放送、芸術的パフォーマンスキャプチャなどで使用されます。従来のアプローチでは、動的な3Dシーンをテクスチャ付きメッシュシーケンスとして表現し、複雑なハードウェアを使用して再構築しますが、制御された環境に限定されます。最近の研究では、RGBビデオから動的な3Dシーンを再構築するための暗黙のニューラル表現が、微分可能なレンダリングを通じて非常に成功しています。最近開発された手法では、対象シーンを動的な放射輝度場としてモデル化し、ボリュームレンダリングを使用して画像を合成し、最適化のために入力画像と比較します。動的ビューシンセシスで印象的な結果を達成しているにもかかわらず、既存の手法は通常、1080pの解像度で画像をレンダリングするために数秒または数分の時間を要します。

静的なビューシンセシスの手法に触発され、特定のダイナミックビューシンセシスのテクニックは、コストまたはネットワーク評価の数を減らすことによってレンダリング速度を向上させます。これらの戦略を採用することにより、MLPマップとして知られる表現は、ダイナミックな前景人物のためのレンダリング速度を41.7 fpsに達成します。ただし、レンダリング速度の課題は依然残ります。MLPマップは、中程度の解像度の画像(384×512)を合成する場合にのみリアルタイムのパフォーマンスを発揮します。4K解像度の画像をレンダリングする場合、その速度は1.3 FPSまで低下します。

この研究では、4K4Dという新しいニューラル表現を紹介し、動的な3Dシーンのモデリングとレンダリングに使用します。4K4Dは、レンダリングの速度を大幅に改善し、レンダリングの品質において競争力を維持しています。システムの概要を以下に示します。

このコアのイノベーションは、4Dポイントクラウド表現とハイブリッド外観モデルにあります。具体的には、動的なシーンでは、空間刻みアルゴリズムを使用して取得した荒いポイントクラウドシーケンスを使用し、各ポイントの位置を学習可能なベクトルとしてモデル化します。4D特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それをMLPネットワークに入力してポイントの半径、密度、および球面調和(SH)係数を予測します。 4D特徴グリッドは、ポイントクラウドに空間的正則化を自然に適用し、最適化のロバスト性を向上させます。さらに、異なる可能な深さの剥離アルゴリズムを開発し、ハードウェアラスタライザを使用して前例のないレンダリング速度を実現します。

研究では、MLPベースのSHモデルが動的シーンの外観を表現する際の課題を特定しています。これに対処するために、SHモデルを補完するための画像ブレンディングモデルを導入して、シーンの外観を表現します。重要な設計の選択肢により、画像ブレンディングネットワークは視線方向と独立しており、トレーニング後の事前計算を可能にし、レンダリング速度を向上させます。ただし、この戦略は、ビュー方向に沿った離散動作の課題を導入し、連続のSHモデルを使用して緩和されます。3Dガウススプラッティングとは異なり、SHモデルのみを使用するのではなく、このハイブリッド外観モデルは入力画像で捉えられた情報を十分に活用し、レンダリング品質を効果的に向上させます。

著者によって報告された広範な実験では、4K4Dは注目すべきレンダリング品質であると同時に、桁違いに高速なレンダリングを達成しています。RTX 4090 GPUを使用した場合、この手法は1080pの解像度で最大400 FPS、4Kの解像度で80 FPSに達するとのことです。

以下の画像は、最先端の技術との視覚的比較です。

これは4K4Dの概要であり、ハードウェアラスタライゼーションをサポートし、前例のない高速なレンダリングを可能にする革新的なAI 4Dポイントクラウドの表現です。詳細を知りたい方は、以下に引用されたリンクを参照していただくか、お気軽にお問い合わせください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

機械学習

「低コスト四足ロボットはパルクールをマスターできるのか? アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...

機械学習

この人工知能ベースのタンパク質言語モデルは、汎用のシーケンスモデリングを解除します

人々が生命の言語を学ぶ方法は、自然言語の構文意味とタンパク質のシーケンス機能を比較することによって根本的に変わりまし...

機械学習

BQMLを使用した多変量時系列予測

GoogleのBQMLは、時系列モデルを作成するために使用することができます最近、マルチバリエート時系列モデルを作成するために...

AI研究

このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みまし...

AI研究

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取...