中国の新しいAI研究は、ハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4Dポイントクラウド表現である4K4Dを提案しています

中国の新たなAI研究:4K4Dはハードウェアラスタライゼーションをサポートし、前例のない速度でレンダリングする4Dポイントクラウド表現の提案

Dynamic view synthesisは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型の仮想再生を作成するプロセスです。このプロセスは、コンピュータビジョンとグラフィックスの分野で長年の研究問題であり、VR / AR、スポーツ放送、芸術的パフォーマンスキャプチャの分野で大きな約束を持っています。

動的な3Dシーンの表現には、テクスチャつきメッシュシーケンスを使用した従来の方法がありますが、これらの方法は複雑で計算コストが高く、リアルタイムアプリケーションでは実用的ではありません。

最近では、いくつかの手法が動的な視点合成に優れた結果を生み出しており、印象的なレンダリング品質を示しています。ただし、高品質のイメージをレンダリングする際のレイテンシーを改善する必要があるという点では、まだ改善の余地があります。この研究論文では、4K4Dという4Dポイントクラウド表現を紹介し、ハードウェアラスタ化をサポートし、迅速なレンダリングを可能にします。

4K4Dは、4つのフィーチャーのベクトルとして、4Dグリッドベースで3Dシーンを表現します。このような表現では、グリッド内のポイントを規則的にし、最適化しやすくします。モデルはまず、入力ビデオのオブジェクトのジオメトリと形状をスペースカービングアルゴリズムとニューラルネットワークを使用して表現し、ポイントクラウドから3Dシーンを表現する方法を学習します。次に、ポイントクラウド表現をレンダリングするために、差分深度ピーリングアルゴリズムが開発され、レンダリングスピードを向上させるためにハードウェアラスタイザが活用されます。

レンダリングスピードを向上させるために、次の加速技術を適用します:

  • 一部のモデルパラメータは事前に計算され、メモリに格納され、グラフィックスカードがシーンを高速にレンダリングできるようにします。
  • モデルの精度を32ビット浮動小数点から16ビット浮動小数点に減らします。これにより、パフォーマンスの損失を見えることなく、FPSが20増加します。
  • 最後に、差分深度ピーリングアルゴリズムに必要なレンダリングパスの数を減らし、品質には見えない変化があるまま、FPSが20増加します。

研究者は、4K4DのパフォーマンスをDNA-Rendering、ENeRF-Outdoorなどの複数のデータセットで評価しました。研究者の3Dシーンのレンダリング方法は、前者のデータセットでは1080pで400 FPS以上、後者のデータセットでは4Kで80 FPSでレンダリングすることができます。これは、最先端のリアルタイム動的視点合成方法ENeRFよりも30倍以上高速であり、さらに優れたレンダリング品質も提供しています。ENeRF Outdoorデータセットは、複数のアクターを含む比較的困難なものですが、4K4Dは他のモデルと比較しても優れた結果を生み出し、一部のレンダリングで画像の端周りに黒いアーティファクトが発生する他のモデルと比較しても、ぼやけた結果を生み出しました。

まとめると、4K4Dは、4K解像度でのリアルタイム視点合成において、遅いレンダリングスピードの問題に対処する新しいメソッドです。これは、状態-of-the-artのレンダリング品質を実現し、レンダリングスピードを30倍以上向上させるニューラルポイントクラウドベースの表現です。ただし、長時間のビデオに対する高いストレージ要件やフレーム間のポイント対応の確立など、いくつかの制限事項があり、研究者は将来の作業でこれらに対処する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AI 幻覚の危険性:課題と影響の解明

「AIの幻覚に魅了される探求に乗り出しましょう ― その複雑な原因を解明し、結果をナビゲートし、重要な保護策を見つけましょ...

機械学習

「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的...

機械学習

AWSにおけるマルチモデルエンドポイントのためのCI/CD

生産用機械学習ソリューションの再トレーニングと展開を自動化することは、モデルが共変量シフトを考慮しながら、誤りや不要...

人工知能

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテ...

AI研究

MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています

Large language models(LLMs)の導入により、人工知能の領域で大きな進歩がもたらされました。自然言語処理(NLP)、自然言...

機械学習

このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています

高品質のラベル付きデータは、特に分類器のトレーニングや教師なしモデルの有効性の評価には必要不可欠です。例えば、学術研...