バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです

バイトダンスとCMUの研究者が新しいAIパイプラインを紹介しますこれは、テキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するものです

3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのインタラクションなど、様々な産業で広範に使用されています。高品質な3Dアバターの構築は、多くの関心を引き寄せています。これらの複雑な3Dモデルは従来、手作業で作成されており、訓練を受けたアーティストが数千時間をかけて作業する必要があります。このため、自然言語の説明だけを使用して高品質な3Dアバターの作成を自動化することが研究上のポテンシャルとリソースの節約につながると考えられています。

最近、マルチビュー映像やリファレンス写真から高品質な3Dアバターを再構築する技術には多くの注目が集まっています。ただし、これらの技術は、映画やリファレンス画像から得られた制約のあるビジュアルプライオリティに依存しているため、複雑なテキストの提示に基づいて想像力豊かなアバターを作成することはできません。拡散モデルは2D画像の生成時に驚くべき創造性を発揮しますが、多くの大規模なテキスト-イメージの組み合わせが利用可能であるためです。しかし、多様性の欠如と3Dモデルの不足により、3D拡散モデルの適切なトレーニングが困難です。

最近の研究では、事前に訓練されたテキスト-イメージ生成モデルを使用して高品質な3Dモデルを生成するためにニューラル放射線場を最適化することに焦点を当てています。しかし、ポーズや外見、形状が異なる堅牢な3Dアバターの作成はまだ困難です。一般的なスコア蒸留サンプリングを使用してNeRF最適化を指示する追加の制御なしに行うと、ジャヌスの問題が発生する可能性があります。さらに、現行の方法によって作成されたアバターは、しばしば粗さやぼやけが目立ち、高解像度の局所的なテクスチャの詳細やアクセサリーなどの重要な要素が欠けてしまいます。

ByteDanceとCMUの研究者は、これらの制約に対処するために、テキストの説明と位置のガイダンスだけを使用して高品質で信頼性のある3Dアバターを生成するための独自のフレームワーク「AvatarVerse」を提案しています。彼らはまず、800K以上の人間のDensePose画像を使用して新しいControlNetを訓練します。その後、ControlNetの上に2D DensePose信号に依存したSDS損失を実装します。これにより、すべての2Dビューと3D空間、および多くの2Dビュー間で正確なビュー対応が実現されます。彼らの技術は、以前のアプローチの大部分に影響を与えるジャヌスの問題を解消し、作成されたアバターのポーズ制御も可能にします。その結果、アバターの生成手順の信頼性と一貫性が保証されます。また、DensePoseによって提供される正確で適応性のある監視信号により、生成されたアバターはSMPLモデルの関節と良好に整列し、骨格のバインディングと制御が容易で効率的に行えます。

彼らは、局所的なジオメトリのリアリズムと詳細を向上させるためのプログレッシブな高解像度生成技術を提案しています。DensePoseに依存したControlNetだけを頼りにすると、局所的なアーティファクトが生じる場合があります。彼らは、計算効率の高い明示的なニューラル放射線場内の密度ボクセルグリッドの滑らかな勾配を促進するスムーズネス損失を使用して、作成されたアバターの粗さを減らします。

以下は、全体的な貢献内容です:

• 「AvatarVerse」を紹介し、単語の説明と参考人物の姿勢だけを使用して高品質な3Dアバターを自動的に作成する手法を提供します。

• ポーズに対応した3Dアバターの作成を容易にし、システムの安定性を向上させるためのDensePose-Conditioned Score Distillation Sampling Lossを提供します。

• 徹底的な高解像度生成プロセスにより、生成された3Dアバターの品質を向上させます。この技術は、手の部分、アクセサリーなどの細部を含む、厳密な粗いから細かい微調整プロセスを通じて、詳細にわたる3Dアバターを作成します。

• AvatarVerseは、品質と安定性の面で競合他社を凌駕します。徹底的なユーザー調査に基づく緻密な定性評価によって、高品質な3Dアバターの生成におけるAvatarVerseの優位性が示されています。

これにより、信頼性の高いゼロショット3Dアバター生成の新たな基準が設定されます。彼らは自分たちの技術のデモをGitHubのウェブサイトで公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新しいツールと機能の発表:責任あるAIイノベーションを可能にする

生成AIの急速な成長は、有望な新しいイノベーションをもたらし、同時に新たな課題も引き起こしていますこれらの課題には、生...

機械学習

「自然界がコンピュータビジョンの未来を支える」

オープンソースのソフトウェアシステムは、自然界の写実的なシーンの無限の数を素早く生成することにより、コンピュータビジ...

機械学習

テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う

ニューラル放射場(NeRF)は、正確で直感的な視覚化を作成する能力により、大いに人気が高まっています。これにより、イメー...

AI研究

「LangChainとGPT-4を使用した多言語対応のFEMAディザスターボットの研究」

この記事では、洪水や竜巻などの災害に備え、生き残るために、多言語対応のアメリカ連邦緊急事態管理庁(FEMA)の災害チャッ...

データサイエンス

エントロピーを使用した時系列複雑性解析

すべてのデータサイエンティストはこれを知っています:Machine Learningの問題の解決における最初のステップは、データの探...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...