「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

「GPSガウシアンとの出会い:新たな人工知能アプローチによるキャラクターのリアルタイム合成の新たな視点」

https://shunyuanzheng.github.io/GPS-Gaussianhttps://shunyuanzheng.github.io/GPS-Gaussian

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュー合成(NVS)です。人間のNVSのサブフィールドは、ホログラフィックコミュニケーション、ステージパフォーマンス、スポーツ放送のための3D / 4D没入型シーンキャプチャなどの領域で、リアルタイムの効率と一貫した3D外観に大きく貢献する可能性があります。従来の方法では、新しいビューを作成するために加重ブレンディングプロセスが使用されてきましたが、これらの方法は通常、非常に密な入力ビューまたは非常に正確なプロキシジオメトリのいずれかに依存していました。スパースビューカメラ設定下でNVSのために高品質な画像をレンダリングすることは依然として大きな課題です。

最近、ニューラルラディアンスフィールド(NeRF)などの暗黙の表現によって、いくつかのNVSタスクで優れたパフォーマンスが示されています。プロセスを高速化するための戦略の進化があったにもかかわらず、暗黙の表現を使用するNVSメソッドは、シーン空間の密なスポットをクエリするのにはまだ時間がかかります。一方、明示的な表現のリアルタイムおよび高速レンダリング能力、特にポイントクラウドは持続的な関心を集めています。ニューラルネットワークと組み合わせると、ポイントベースのグラフィックスは、人間のNVSテストでNeRFよりも現実的で効率的な明示的な表現を提供します。

哈尔滨工业大学と清华大学の新しい研究では、この論文ではパーサブジェクト最適化を使用せずに、前向きにガウスパラメータを回帰するための普遍的な3Dガウススプラットアプローチを目指しています。彼らの目標は、成功した学習ベースの人間再構成アプローチであるPIFuのような大規模な3D人間スキャンモデルを使用して、さまざまな人間のトポロジ、衣類スタイル、姿勢依存変形を作成するためにガウス表現の学習方法を学ぶことです。提案された手法は、これらの獲得した人間のプライオリティを利用して汎用的なガウスモデルによる人間の外観の迅速な描写を可能にします。

研究者たちは、無構造なポイントクラウドの代わりにソースビューの画像平面(位置、色、スケーリング、回転、不透明度)に定義された2Dガウスパラメータマップを提示しています。これらのガウスパラメータマップにより、ピクセルごとのパラメータを使用してキャラクターを描写することができます。また、3D演算子の代わりにコスト効率の良い2D畳み込みネットワークを使用することができます。2つのソースビューの両方に対して2ビューステレオを使用して深度マップを推定することで、2Dパラメータマップを3Dガウスポイントに変換します。これにより、ソースビューの両方からの未投影ガウスポイントによってキャラクターが表現され、スプラットアプローチを使用して新しいビューの画像が生成されます。人間のキャラクターに特有の自己遮蔽は、既存のカスケードコストボリュームアプローチでは深度推定を難しくします。したがって、チームは、このような大規模データ上のガウスパラメータ回帰および反復的なステレオマッチングベースの深度推定モジュールを同時にトレーニングすることを提案しています。ガウスモジュールのレンダリング損失の最小化により、深度推定によって引き起こされる可能性のあるアーティファクトを修正し、3Dガウス位置の精度を向上させます。このような協力的なアプローチのおかげで、トレーニングはより安定します。

実際には、チームは最新のグラフィックスカードを1枚だけ使用して、25 FPS以上のフレームレートで2Kの新しいビューを実現することができました。提案手法の広範な汎用性と高速レンダリング能力により、最適化や微調整なしで見たことのないキャラクターを瞬時にレンダリングすることができます。

彼らの論文で強調されているように、提案されたGPS-Gaussianは高品質の画像を合成しますが、いくつかの要素は手法の効果にまだ影響を与える可能性があります。例として、正確な前景マッティングは重要な前処理ステップです。また、ターゲットエリアが1つのビューでは完全に見えず、他のビューでは見える場合(6つのカメラセットアップなど)、この手法では適切に処理できません。研究者たちは、この困難を時系列データを使用することで解決できると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか?」

最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究に...

データサイエンス

「Microsoft AIが意図せずに秘密の情報を公開し、3年間にわたって38TBの機密データへのアクセス権を提供しました」

「過剰供給されたSASトークンが、約3年間にわたってGitHub上で38TBもの大量の個人データを公開していた物語」

機械学習

アーサーがベンチを発表:仕事に最適な言語モデルを見つけるためのAIツール

ニューヨーク市の通りでは、AIの新興スタートアップ「Arthur」が機械学習の世界で話題をさらっています。生成型AIに関するブ...

AIニュース

「英国初のAIカメラ、わずか3日で300人の犯罪者を摘発」

イギリスの道路安全の風景は、フリースタンディングの人工知能(AI)道路安全カメラの登場によって革命的な変革を遂げていま...

AI研究

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデ...

機械学習

Field Programmable Gate Array(FPGA)とは何ですか:人工知能(AI)におけるFPGA vs. GPU

フィールドプログラマブルゲートアレイ(FPGA)は、製造後に設定とカスタマイズが可能な集積回路です。これらのチップはこの...