バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです

バイトダンスとCMUの研究者が新しいAIパイプラインを紹介しますこれは、テキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するものです

3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのインタラクションなど、様々な産業で広範に使用されています。高品質な3Dアバターの構築は、多くの関心を引き寄せています。これらの複雑な3Dモデルは従来、手作業で作成されており、訓練を受けたアーティストが数千時間をかけて作業する必要があります。このため、自然言語の説明だけを使用して高品質な3Dアバターの作成を自動化することが研究上のポテンシャルとリソースの節約につながると考えられています。

最近、マルチビュー映像やリファレンス写真から高品質な3Dアバターを再構築する技術には多くの注目が集まっています。ただし、これらの技術は、映画やリファレンス画像から得られた制約のあるビジュアルプライオリティに依存しているため、複雑なテキストの提示に基づいて想像力豊かなアバターを作成することはできません。拡散モデルは2D画像の生成時に驚くべき創造性を発揮しますが、多くの大規模なテキスト-イメージの組み合わせが利用可能であるためです。しかし、多様性の欠如と3Dモデルの不足により、3D拡散モデルの適切なトレーニングが困難です。

最近の研究では、事前に訓練されたテキスト-イメージ生成モデルを使用して高品質な3Dモデルを生成するためにニューラル放射線場を最適化することに焦点を当てています。しかし、ポーズや外見、形状が異なる堅牢な3Dアバターの作成はまだ困難です。一般的なスコア蒸留サンプリングを使用してNeRF最適化を指示する追加の制御なしに行うと、ジャヌスの問題が発生する可能性があります。さらに、現行の方法によって作成されたアバターは、しばしば粗さやぼやけが目立ち、高解像度の局所的なテクスチャの詳細やアクセサリーなどの重要な要素が欠けてしまいます。

ByteDanceとCMUの研究者は、これらの制約に対処するために、テキストの説明と位置のガイダンスだけを使用して高品質で信頼性のある3Dアバターを生成するための独自のフレームワーク「AvatarVerse」を提案しています。彼らはまず、800K以上の人間のDensePose画像を使用して新しいControlNetを訓練します。その後、ControlNetの上に2D DensePose信号に依存したSDS損失を実装します。これにより、すべての2Dビューと3D空間、および多くの2Dビュー間で正確なビュー対応が実現されます。彼らの技術は、以前のアプローチの大部分に影響を与えるジャヌスの問題を解消し、作成されたアバターのポーズ制御も可能にします。その結果、アバターの生成手順の信頼性と一貫性が保証されます。また、DensePoseによって提供される正確で適応性のある監視信号により、生成されたアバターはSMPLモデルの関節と良好に整列し、骨格のバインディングと制御が容易で効率的に行えます。

彼らは、局所的なジオメトリのリアリズムと詳細を向上させるためのプログレッシブな高解像度生成技術を提案しています。DensePoseに依存したControlNetだけを頼りにすると、局所的なアーティファクトが生じる場合があります。彼らは、計算効率の高い明示的なニューラル放射線場内の密度ボクセルグリッドの滑らかな勾配を促進するスムーズネス損失を使用して、作成されたアバターの粗さを減らします。

以下は、全体的な貢献内容です:

• 「AvatarVerse」を紹介し、単語の説明と参考人物の姿勢だけを使用して高品質な3Dアバターを自動的に作成する手法を提供します。

• ポーズに対応した3Dアバターの作成を容易にし、システムの安定性を向上させるためのDensePose-Conditioned Score Distillation Sampling Lossを提供します。

• 徹底的な高解像度生成プロセスにより、生成された3Dアバターの品質を向上させます。この技術は、手の部分、アクセサリーなどの細部を含む、厳密な粗いから細かい微調整プロセスを通じて、詳細にわたる3Dアバターを作成します。

• AvatarVerseは、品質と安定性の面で競合他社を凌駕します。徹底的なユーザー調査に基づく緻密な定性評価によって、高品質な3Dアバターの生成におけるAvatarVerseの優位性が示されています。

これにより、信頼性の高いゼロショット3Dアバター生成の新たな基準が設定されます。彼らは自分たちの技術のデモをGitHubのウェブサイトで公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「AIはどこで起こるのか?」

「将来の研究者はどの分野に集まるべきですか?学界か産業界か?」

AI研究

このAI研究は、大規模言語モデル(LLM)における合成的な人格特性を説明しています

個人の人格は、質、特性、思考方法のユニークな組み合わせから成り立ちます。共有の生物学的および環境的な歴史により、最も...

機械学習

「リトリーバル増強生成(RAG)とファインチューニング、どちらを選ぶべきですか?」

最近数ヶ月間、大型言語モデル(LLM)の人気が急上昇しています。自然言語処理、自然言語理解、自然言語生成の強みに基づいて...

データサイエンス

Btech卒業後に何をすべきですか?

Btechの後に何をすべきですか?このよくある質問は、最終学年や最近卒業した学生にとって悩みの種です。多くの人々が従来のキ...

機械学習

GPTとBERT:どちらが優れているのか?

生成AIの人気の高まりに伴い、大規模言語モデルの数も増加していますこの記事では、GPTとBERTの2つのモデルを比較しますGPT(...

人工知能

「AIは個人の知識管理をどのように変革しているのか?」

AIスタートアップは、ビジネスが知識ベースを整理しアクセスする方法を変革しようと努力していますが、個人が使用しているツ...