バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです

バイトダンスとCMUの研究者が新しいAIパイプラインを紹介しますこれは、テキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するものです

3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのインタラクションなど、様々な産業で広範に使用されています。高品質な3Dアバターの構築は、多くの関心を引き寄せています。これらの複雑な3Dモデルは従来、手作業で作成されており、訓練を受けたアーティストが数千時間をかけて作業する必要があります。このため、自然言語の説明だけを使用して高品質な3Dアバターの作成を自動化することが研究上のポテンシャルとリソースの節約につながると考えられています。

最近、マルチビュー映像やリファレンス写真から高品質な3Dアバターを再構築する技術には多くの注目が集まっています。ただし、これらの技術は、映画やリファレンス画像から得られた制約のあるビジュアルプライオリティに依存しているため、複雑なテキストの提示に基づいて想像力豊かなアバターを作成することはできません。拡散モデルは2D画像の生成時に驚くべき創造性を発揮しますが、多くの大規模なテキスト-イメージの組み合わせが利用可能であるためです。しかし、多様性の欠如と3Dモデルの不足により、3D拡散モデルの適切なトレーニングが困難です。

最近の研究では、事前に訓練されたテキスト-イメージ生成モデルを使用して高品質な3Dモデルを生成するためにニューラル放射線場を最適化することに焦点を当てています。しかし、ポーズや外見、形状が異なる堅牢な3Dアバターの作成はまだ困難です。一般的なスコア蒸留サンプリングを使用してNeRF最適化を指示する追加の制御なしに行うと、ジャヌスの問題が発生する可能性があります。さらに、現行の方法によって作成されたアバターは、しばしば粗さやぼやけが目立ち、高解像度の局所的なテクスチャの詳細やアクセサリーなどの重要な要素が欠けてしまいます。

ByteDanceとCMUの研究者は、これらの制約に対処するために、テキストの説明と位置のガイダンスだけを使用して高品質で信頼性のある3Dアバターを生成するための独自のフレームワーク「AvatarVerse」を提案しています。彼らはまず、800K以上の人間のDensePose画像を使用して新しいControlNetを訓練します。その後、ControlNetの上に2D DensePose信号に依存したSDS損失を実装します。これにより、すべての2Dビューと3D空間、および多くの2Dビュー間で正確なビュー対応が実現されます。彼らの技術は、以前のアプローチの大部分に影響を与えるジャヌスの問題を解消し、作成されたアバターのポーズ制御も可能にします。その結果、アバターの生成手順の信頼性と一貫性が保証されます。また、DensePoseによって提供される正確で適応性のある監視信号により、生成されたアバターはSMPLモデルの関節と良好に整列し、骨格のバインディングと制御が容易で効率的に行えます。

彼らは、局所的なジオメトリのリアリズムと詳細を向上させるためのプログレッシブな高解像度生成技術を提案しています。DensePoseに依存したControlNetだけを頼りにすると、局所的なアーティファクトが生じる場合があります。彼らは、計算効率の高い明示的なニューラル放射線場内の密度ボクセルグリッドの滑らかな勾配を促進するスムーズネス損失を使用して、作成されたアバターの粗さを減らします。

以下は、全体的な貢献内容です:

• 「AvatarVerse」を紹介し、単語の説明と参考人物の姿勢だけを使用して高品質な3Dアバターを自動的に作成する手法を提供します。

• ポーズに対応した3Dアバターの作成を容易にし、システムの安定性を向上させるためのDensePose-Conditioned Score Distillation Sampling Lossを提供します。

• 徹底的な高解像度生成プロセスにより、生成された3Dアバターの品質を向上させます。この技術は、手の部分、アクセサリーなどの細部を含む、厳密な粗いから細かい微調整プロセスを通じて、詳細にわたる3Dアバターを作成します。

• AvatarVerseは、品質と安定性の面で競合他社を凌駕します。徹底的なユーザー調査に基づく緻密な定性評価によって、高品質な3Dアバターの生成におけるAvatarVerseの優位性が示されています。

これにより、信頼性の高いゼロショット3Dアバター生成の新たな基準が設定されます。彼らは自分たちの技術のデモをGitHubのウェブサイトで公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「8月号:データサイエンティストのための夏の読書」

「魅力的な夏の読書とは何か再評価する時期でしょうか?私たちはそう考えています常識的な知恵(そして多くのマーケティング...

データサイエンス

「ETLとは何ですか?トップのETLツール」

抽出(Extract)、変換(Transform)、ロード(Load)は、ETLと呼ばれます。 ETLは、データを多数のソースから収集し、標準化...

機械学習

「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの...

AI研究

シリコンボレー:デザイナーがチップ支援のために生成AIを活用

今日公開された研究論文によれば、生成AIは、最も複雑なエンジニアリングプロジェクトの1つである半導体設計を支援できる方法...

データサイエンス

マイクロソフトの研究者たちは、ラベル付きトレーニングデータを使用せずにパレート最適な自己監督を用いたLLMキャリブレーションの新しいフレームワークを提案しています

最近の進展により、大規模言語モデル(LLM)の能力が著しく向上しており、生成事前トランスフォーマー(GPT)モデルは大きな...

AI研究

「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツ...