「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」
「GPSガウシアンとの出会い:新たな人工知能アプローチによるキャラクターのリアルタイム合成の新たな視点」
マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。
最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。
哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。
- 「Vchitectを紹介します:テキストからビデオ(T2V)およびイメージからビデオ(I2V)アプリケーションに適したオープンソースの大規模一般istビデオ作成システム」
- ジェミニに会ってください:Googleの画期的なマルチモーダルAIモデルが人工知能の未来を再定義する
- 「ビジュアルAIがカナダ最大かつ最も賑やかな空港で飛躍する」
研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。
実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。
彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles