このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです
ドライブ可能な3Dガウスアバター(D3GA):ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルを提案するこのAI研究
印象派は匿名の画家、彫刻家、版画家などからなる協会によって19世紀に創設された芸術運動であり、「かろうじて形を伝えることのできる、短く切れた筆使い」が特徴です。最近の研究では、印象派が避けたような写真で人間の主題をできるだけ現実的に描写することが可能になっています。
一眼カメラの技術では正確さに欠けるため、ドライブ可能(新しいコンテンツを生成するためにアニメーション化できる)な写真の人間を写実的に生成するには、現在は広範なマルチビューデータが必要です。さらに、現在の手法では正確な3Dレジストレーションなどの緻密な前処理が必要とされます。しかし、これらのレジストレーションを得るためには、エンドツーエンドのワークフローに容易に組み込むことができない反復プロセスを使用する必要があります。正確なレジストレーションを必要としない他のアプローチは、ニューラル輻射場(NeRFs)に基づいています。これらのアプローチは、特定の例外を除いて衣服のアニメーションを描写するのに苦労するか、リアルタイムの描写にはあまりにも遅すぎます。
Meta Reality Labs Research、Technical University of Darmstadt、Max Planck Institute for Intelligent Systemsの研究者たちは、放射場ではなく、3Dガウスを使用して3D人間の外見と変形を規範的な空間で表現しています。ガウス放射場は、生きている、再配置可能なキャラクターの体形と美的感覚に合うような、クイックな筆使いの代替として使用されます。ガウス放射場では、カメラの光線のサンプリングを含むいかなるハックも必要ありません。ドライブ可能なNeRF内のポイントは、リニアブレンドスキニング(LBS)を使用して観測空間から規範的な空間に変換されることがよくあります。一方、D3GAは、3Dガウス体積を用いてヒトをモデル化し、それゆえにボリュームから規範的な空間へのマッピングが必要です。
- 複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換
- NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ
- マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
研究者たちはLBSの代わりに、ケージという他の確立された変形モデルを使用しており、このモデルはボリューム変換に適しています。ケージの変形勾配は、規範的な空間でのケージの変形によって生成されたものであり、3Dガウス表現に直接適用されます。このアプローチは、胴体、顔、衣服をケージを使用して別々に表現することができる合成構造に基づいて構築されています。ケージの歪みが発生する原因を特定するための残る謎があります。現在のドライブ可能なアバターの最先端は、RGB-D画像やマルチカメラセットアップなどの密な入力信号を要求しており、テレプレゼンスアプリケーションの低帯域幅接続には適さない場合があります。研究チームは、ヒトの姿勢に基づいたより短縮された入力を使用しました。この入力は骨格関節角度と3D顔のキーポイントのクォータニオン表現を含みます。彼らは9つの高品質なマルチビューシーケンスを使用して、どの主題からでも新しいポーズで駆動できる個人固有のモデルを学習しました。さまざまな体形、動き、衣服(きつくフィットする必要はない)をカバーしています。
この手法は高品質の出力を生成し、テスト時にFFDメッシュや画像などのより多くの情報を利用する方法と同等の入力と競合しながら、最先端の状態を上回る成果を挙げています。さらに、提案された技術はデータの処理時間を削減し、幾何学的な領域と外見モデリングにおいて有望な結果を得るために、正確なジオメトリ情報を必要としません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- アリババの研究者らがQwen-Audioシリーズを発表 ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット
- ペンシルバニア大学の研究者たちは、OpenAIのChatGPT-Visionに対して、一連のテストを実施することで、ビジョンベースのAI機能の有効性を評価するための機械学習フレームワークを開発しました
- UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました
- 南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク
- NVIDIAのAI研究者は、オブジェクト周囲の狭いバンドにボリューメトリックレンダリングを制限することで、効率的にNeRFレンダリングを行うための人工知能アプローチを提案しています
- このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します
- 「このAI研究は微生物学者が細菌を識別するのを助けます」