バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです

バイトダンスとCMUの研究者が新しいAIパイプラインを紹介しますこれは、テキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するものです

3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのインタラクションなど、様々な産業で広範に使用されています。高品質な3Dアバターの構築は、多くの関心を引き寄せています。これらの複雑な3Dモデルは従来、手作業で作成されており、訓練を受けたアーティストが数千時間をかけて作業する必要があります。このため、自然言語の説明だけを使用して高品質な3Dアバターの作成を自動化することが研究上のポテンシャルとリソースの節約につながると考えられています。

最近、マルチビュー映像やリファレンス写真から高品質な3Dアバターを再構築する技術には多くの注目が集まっています。ただし、これらの技術は、映画やリファレンス画像から得られた制約のあるビジュアルプライオリティに依存しているため、複雑なテキストの提示に基づいて想像力豊かなアバターを作成することはできません。拡散モデルは2D画像の生成時に驚くべき創造性を発揮しますが、多くの大規模なテキスト-イメージの組み合わせが利用可能であるためです。しかし、多様性の欠如と3Dモデルの不足により、3D拡散モデルの適切なトレーニングが困難です。

最近の研究では、事前に訓練されたテキスト-イメージ生成モデルを使用して高品質な3Dモデルを生成するためにニューラル放射線場を最適化することに焦点を当てています。しかし、ポーズや外見、形状が異なる堅牢な3Dアバターの作成はまだ困難です。一般的なスコア蒸留サンプリングを使用してNeRF最適化を指示する追加の制御なしに行うと、ジャヌスの問題が発生する可能性があります。さらに、現行の方法によって作成されたアバターは、しばしば粗さやぼやけが目立ち、高解像度の局所的なテクスチャの詳細やアクセサリーなどの重要な要素が欠けてしまいます。

ByteDanceとCMUの研究者は、これらの制約に対処するために、テキストの説明と位置のガイダンスだけを使用して高品質で信頼性のある3Dアバターを生成するための独自のフレームワーク「AvatarVerse」を提案しています。彼らはまず、800K以上の人間のDensePose画像を使用して新しいControlNetを訓練します。その後、ControlNetの上に2D DensePose信号に依存したSDS損失を実装します。これにより、すべての2Dビューと3D空間、および多くの2Dビュー間で正確なビュー対応が実現されます。彼らの技術は、以前のアプローチの大部分に影響を与えるジャヌスの問題を解消し、作成されたアバターのポーズ制御も可能にします。その結果、アバターの生成手順の信頼性と一貫性が保証されます。また、DensePoseによって提供される正確で適応性のある監視信号により、生成されたアバターはSMPLモデルの関節と良好に整列し、骨格のバインディングと制御が容易で効率的に行えます。

彼らは、局所的なジオメトリのリアリズムと詳細を向上させるためのプログレッシブな高解像度生成技術を提案しています。DensePoseに依存したControlNetだけを頼りにすると、局所的なアーティファクトが生じる場合があります。彼らは、計算効率の高い明示的なニューラル放射線場内の密度ボクセルグリッドの滑らかな勾配を促進するスムーズネス損失を使用して、作成されたアバターの粗さを減らします。

以下は、全体的な貢献内容です:

• 「AvatarVerse」を紹介し、単語の説明と参考人物の姿勢だけを使用して高品質な3Dアバターを自動的に作成する手法を提供します。

• ポーズに対応した3Dアバターの作成を容易にし、システムの安定性を向上させるためのDensePose-Conditioned Score Distillation Sampling Lossを提供します。

• 徹底的な高解像度生成プロセスにより、生成された3Dアバターの品質を向上させます。この技術は、手の部分、アクセサリーなどの細部を含む、厳密な粗いから細かい微調整プロセスを通じて、詳細にわたる3Dアバターを作成します。

• AvatarVerseは、品質と安定性の面で競合他社を凌駕します。徹底的なユーザー調査に基づく緻密な定性評価によって、高品質な3Dアバターの生成におけるAvatarVerseの優位性が示されています。

これにより、信頼性の高いゼロショット3Dアバター生成の新たな基準が設定されます。彼らは自分たちの技術のデモをGitHubのウェブサイトで公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「テキストから音声を生成する方法:AIモデルBarkを使用する」

紹介 Barkは、Suno.aiが作成したオープンソースの完全生成的なテキストから音声へのモデルであり、背景音、音楽、単純な効果...

機械学習

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシ...

データサイエンス

「LLMの評価にLLMを使用する」

ChatGPTには何百万もの異なる方法で行動するように頼むことができます栄養士や言語講師、医者などとしての役割も果たしますOp...

機械学習

「GROOTに会おう:オブジェクト中心の3D先行条件と適応ポリシー汎化を備えたビジョンベースの操作のための堅牢な模倣学習フレームワーク」

人工知能の人気と利用事例の増加に伴い、模倣学習(IL)は複雑な操作タスクを実行するためのニューラルネットワークベースの...

データサイエンス

「データプラットフォームから機械学習プラットフォームへ」

データ/機械学習は、私たちのテクノロジーの風景では最も人気のあるトピックです私はデータ/機械学習プラットフォームの理解...

機械学習

「異常検知への推測を排除する:ヒストグラムが閾値を設定します」

『異常検知の領域において、隠れた異常を追求することは、データの広大な風景の中で隠された宝物を探し求めることに似ていま...