このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです

ドライブ可能な3Dガウスアバター(D3GA):ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルを提案するこのAI研究

印象派は匿名の画家、彫刻家、版画家などからなる協会によって19世紀に創設された芸術運動であり、「かろうじて形を伝えることのできる、短く切れた筆使い」が特徴です。最近の研究では、印象派が避けたような写真で人間の主題をできるだけ現実的に描写することが可能になっています。

一眼カメラの技術では正確さに欠けるため、ドライブ可能(新しいコンテンツを生成するためにアニメーション化できる)な写真の人間を写実的に生成するには、現在は広範なマルチビューデータが必要です。さらに、現在の手法では正確な3Dレジストレーションなどの緻密な前処理が必要とされます。しかし、これらのレジストレーションを得るためには、エンドツーエンドのワークフローに容易に組み込むことができない反復プロセスを使用する必要があります。正確なレジストレーションを必要としない他のアプローチは、ニューラル輻射場(NeRFs)に基づいています。これらのアプローチは、特定の例外を除いて衣服のアニメーションを描写するのに苦労するか、リアルタイムの描写にはあまりにも遅すぎます。

Meta Reality Labs Research、Technical University of Darmstadt、Max Planck Institute for Intelligent Systemsの研究者たちは、放射場ではなく、3Dガウスを使用して3D人間の外見と変形を規範的な空間で表現しています。ガウス放射場は、生きている、再配置可能なキャラクターの体形と美的感覚に合うような、クイックな筆使いの代替として使用されます。ガウス放射場では、カメラの光線のサンプリングを含むいかなるハックも必要ありません。ドライブ可能なNeRF内のポイントは、リニアブレンドスキニング(LBS)を使用して観測空間から規範的な空間に変換されることがよくあります。一方、D3GAは、3Dガウス体積を用いてヒトをモデル化し、それゆえにボリュームから規範的な空間へのマッピングが必要です。

研究者たちはLBSの代わりに、ケージという他の確立された変形モデルを使用しており、このモデルはボリューム変換に適しています。ケージの変形勾配は、規範的な空間でのケージの変形によって生成されたものであり、3Dガウス表現に直接適用されます。このアプローチは、胴体、顔、衣服をケージを使用して別々に表現することができる合成構造に基づいて構築されています。ケージの歪みが発生する原因を特定するための残る謎があります。現在のドライブ可能なアバターの最先端は、RGB-D画像やマルチカメラセットアップなどの密な入力信号を要求しており、テレプレゼンスアプリケーションの低帯域幅接続には適さない場合があります。研究チームは、ヒトの姿勢に基づいたより短縮された入力を使用しました。この入力は骨格関節角度と3D顔のキーポイントのクォータニオン表現を含みます。彼らは9つの高品質なマルチビューシーケンスを使用して、どの主題からでも新しいポーズで駆動できる個人固有のモデルを学習しました。さまざまな体形、動き、衣服(きつくフィットする必要はない)をカバーしています。

この手法は高品質の出力を生成し、テスト時にFFDメッシュや画像などのより多くの情報を利用する方法と同等の入力と競合しながら、最先端の状態を上回る成果を挙げています。さらに、提案された技術はデータの処理時間を削減し、幾何学的な領域と外見モデリングにおいて有望な結果を得るために、正確なジオメトリ情報を必要としません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

ロボット犬は、人間よりも侵略的なヒアリの巣をより良く見つけることができます

中国とブラジルの科学者たちは、侵入した火蟻の巣を検出するために、ロボット犬と人工知能(AI)をテストしています

AIニュース

2023年のビデオ作成と編集のための40以上のAIツール

Adobe Premiere Pro Adobe Premiere Proは、AIの機能を備えたビデオ編集ソフトウェアで、ユーザーは素早く素晴らしいビデオを...

コンピュータサイエンス

2050年までに、ロボットはワールドカップの優勝者に勝利するか?

ロボカップの夢は、数世代のロボティストたちにインスピレーションを与えてきました

機械学習

検索の未来:ChatGPT、音声検索、画像検索がデジタルランドスケープを革新している方法

検索革命:Chat GPT、声、および画像技術は、オンラインでの検索方法を変革し、より自然で効率的で包括的なものにしています

AI研究

テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

テキストから画像への拡散モデルは、入力テキストの説明に基づいて多様で高品質な画像を生成することで印象的な成功を収めて...