「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

「GPSガウシアンとの出会い:新たな人工知能アプローチによるキャラクターのリアルタイム合成の新たな視点」

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。

最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。

哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。

研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。

実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。

彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

プロンプトエンジニアリングの台頭や、言語モデルの大規模な成果により、私たちの問いに対する応答を生成する際の大変な成果...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

機械学習

「物理学と流体力学に応用されたディープラーニング」

数値シミュレーションは、物理システムの挙動を理解するために何年も使用されてきました流体が構造物と相互作用する方法、応...

機械学習

高性能意思決定のためのRLHF:戦略と最適化

はじめに 人間の要因/フィードバックからの強化学習(RLHF)は、RLの原則と人間のフィードバックを組み合わせた新興の分野で...

AIニュース

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう

Googleは、インド人と日本人が情報の広大な領域を探索する方法を再定義する画期的なイノベーションを発表しました。人工知能...

AIニュース

Windows 12はAIの魔法機能を搭載:テクノロジーの未来への一端

Microsoft(マイクロソフト)は、次世代のWindows OSの大規模なアップデート「ハドソンバレー」と呼ばれるものを熱心に開発し...