このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです

ドライブ可能な3Dガウスアバター(D3GA):ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルを提案するこのAI研究

印象派は匿名の画家、彫刻家、版画家などからなる協会によって19世紀に創設された芸術運動であり、「かろうじて形を伝えることのできる、短く切れた筆使い」が特徴です。最近の研究では、印象派が避けたような写真で人間の主題をできるだけ現実的に描写することが可能になっています。

一眼カメラの技術では正確さに欠けるため、ドライブ可能(新しいコンテンツを生成するためにアニメーション化できる)な写真の人間を写実的に生成するには、現在は広範なマルチビューデータが必要です。さらに、現在の手法では正確な3Dレジストレーションなどの緻密な前処理が必要とされます。しかし、これらのレジストレーションを得るためには、エンドツーエンドのワークフローに容易に組み込むことができない反復プロセスを使用する必要があります。正確なレジストレーションを必要としない他のアプローチは、ニューラル輻射場(NeRFs)に基づいています。これらのアプローチは、特定の例外を除いて衣服のアニメーションを描写するのに苦労するか、リアルタイムの描写にはあまりにも遅すぎます。

Meta Reality Labs Research、Technical University of Darmstadt、Max Planck Institute for Intelligent Systemsの研究者たちは、放射場ではなく、3Dガウスを使用して3D人間の外見と変形を規範的な空間で表現しています。ガウス放射場は、生きている、再配置可能なキャラクターの体形と美的感覚に合うような、クイックな筆使いの代替として使用されます。ガウス放射場では、カメラの光線のサンプリングを含むいかなるハックも必要ありません。ドライブ可能なNeRF内のポイントは、リニアブレンドスキニング(LBS)を使用して観測空間から規範的な空間に変換されることがよくあります。一方、D3GAは、3Dガウス体積を用いてヒトをモデル化し、それゆえにボリュームから規範的な空間へのマッピングが必要です。

研究者たちはLBSの代わりに、ケージという他の確立された変形モデルを使用しており、このモデルはボリューム変換に適しています。ケージの変形勾配は、規範的な空間でのケージの変形によって生成されたものであり、3Dガウス表現に直接適用されます。このアプローチは、胴体、顔、衣服をケージを使用して別々に表現することができる合成構造に基づいて構築されています。ケージの歪みが発生する原因を特定するための残る謎があります。現在のドライブ可能なアバターの最先端は、RGB-D画像やマルチカメラセットアップなどの密な入力信号を要求しており、テレプレゼンスアプリケーションの低帯域幅接続には適さない場合があります。研究チームは、ヒトの姿勢に基づいたより短縮された入力を使用しました。この入力は骨格関節角度と3D顔のキーポイントのクォータニオン表現を含みます。彼らは9つの高品質なマルチビューシーケンスを使用して、どの主題からでも新しいポーズで駆動できる個人固有のモデルを学習しました。さまざまな体形、動き、衣服(きつくフィットする必要はない)をカバーしています。

この手法は高品質の出力を生成し、テスト時にFFDメッシュや画像などのより多くの情報を利用する方法と同等の入力と競合しながら、最先端の状態を上回る成果を挙げています。さらに、提案された技術はデータの処理時間を削減し、幾何学的な領域と外見モデリングにおいて有望な結果を得るために、正確なジオメトリ情報を必要としません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、検索エンジンに対して大規模な言語モデルが事実確認の効率性にどのように比較されるか、明らかにします

異なる大学の研究者たちは、言語モデル(LLM)と検索エンジンがファクトチェックにおいてどれほど効果的かを比較しています。...

機械学習

NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド

人工知能の絶えず進化する風景の中で、開発者やユーザーの双方を悩ませる課題があります: 大規模言語モデルからよりカスタマ...

データサイエンス

高度なRAG 01:小から大への検索

RAG(Retrieval-Augmented Generation)システムは、与えられた知識ベースから関連情報を検索することで、事実に基づいて文脈...

データサイエンス

偽預言者:回帰モデルとMeta's Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュア...

AI研究

スタンフォード研究所がFlashAttention-2を発表:長い文脈の言語モデルの速度と効率の飛躍

過去の1年間、自然言語処理は著しい進歩を遂げており、長い文脈を備えた言語モデルが登場しました。これらのモデルには、32k...

データサイエンス

‘LLMがデータアナリストを置き換えることはできるのか? LLMを活用したアナリストの構築’

私たちの中の誰もが、昨年の少なくとも1度は、ChatGPTがあなたの役割を置き換えることができるか(いや、むしろいつか)と考...