「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

「GPSガウシアンとの出会い:新たな人工知能アプローチによるキャラクターのリアルタイム合成の新たな視点」

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。

最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。

哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。

研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。

実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。

彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

SIGGRAPH特別講演:NVIDIAのCEOがLAショーに生成AIをもたらす

生成AIがますますデジタルでハイパーコネクテッドな世界に広がる中、NVIDIAの創設者兼CEOであるJensen Huang氏は、世界最高の...

データサイエンス

自律AIエージェント:データサイエンスと技術の未来を切り拓く先駆者

イントロダクション テクノロジーのダイナミックな風景において、自律型AIエージェントは変革的な存在として登場し、データと...

データサイエンス

「AIと倫理の架け橋:医療実施における包括的な解決策」

「この記事では、AIの倫理的な考慮事項について掘り下げ、医療の分野でAIの力を責任を持ってかつ公正に活用する方法について...

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

人工知能

ミッドジャーニープロンプトのTシャツデザイン

Tシャツビジネス帝国を築きたい場合は、Midjourneyは美しいTシャツデザインを作成するための素晴らしいツールです

機械学習

「AIの進化と生成AIへの道のりとその仕組み」

この記事では、AI/MLの基礎、その使用方法、生成AIの進化、Prompt Engineering、およびLangChainについて説明しています