バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです
バイトダンスとCMUの研究者が新しいAIパイプラインを紹介しますこれは、テキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するものです
3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのインタラクションなど、様々な産業で広範に使用されています。高品質な3Dアバターの構築は、多くの関心を引き寄せています。これらの複雑な3Dモデルは従来、手作業で作成されており、訓練を受けたアーティストが数千時間をかけて作業する必要があります。このため、自然言語の説明だけを使用して高品質な3Dアバターの作成を自動化することが研究上のポテンシャルとリソースの節約につながると考えられています。
最近、マルチビュー映像やリファレンス写真から高品質な3Dアバターを再構築する技術には多くの注目が集まっています。ただし、これらの技術は、映画やリファレンス画像から得られた制約のあるビジュアルプライオリティに依存しているため、複雑なテキストの提示に基づいて想像力豊かなアバターを作成することはできません。拡散モデルは2D画像の生成時に驚くべき創造性を発揮しますが、多くの大規模なテキスト-イメージの組み合わせが利用可能であるためです。しかし、多様性の欠如と3Dモデルの不足により、3D拡散モデルの適切なトレーニングが困難です。
最近の研究では、事前に訓練されたテキスト-イメージ生成モデルを使用して高品質な3Dモデルを生成するためにニューラル放射線場を最適化することに焦点を当てています。しかし、ポーズや外見、形状が異なる堅牢な3Dアバターの作成はまだ困難です。一般的なスコア蒸留サンプリングを使用してNeRF最適化を指示する追加の制御なしに行うと、ジャヌスの問題が発生する可能性があります。さらに、現行の方法によって作成されたアバターは、しばしば粗さやぼやけが目立ち、高解像度の局所的なテクスチャの詳細やアクセサリーなどの重要な要素が欠けてしまいます。
- 中国からの新しいAI研究が、RecycleGPTを紹介しましたRecycleGPTは、完全なモデルを複数のステップで実行せずに、事前生成されたモデルの状態をリサイクルすることで、高速なデコーディングスピード(1.4倍)を持つ生成言語モデルです
- 研究者たちは、肩越しに画面をのぞき見する人々から身を守るためのスクリーン保護システムを開発しました
- このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています
ByteDanceとCMUの研究者は、これらの制約に対処するために、テキストの説明と位置のガイダンスだけを使用して高品質で信頼性のある3Dアバターを生成するための独自のフレームワーク「AvatarVerse」を提案しています。彼らはまず、800K以上の人間のDensePose画像を使用して新しいControlNetを訓練します。その後、ControlNetの上に2D DensePose信号に依存したSDS損失を実装します。これにより、すべての2Dビューと3D空間、および多くの2Dビュー間で正確なビュー対応が実現されます。彼らの技術は、以前のアプローチの大部分に影響を与えるジャヌスの問題を解消し、作成されたアバターのポーズ制御も可能にします。その結果、アバターの生成手順の信頼性と一貫性が保証されます。また、DensePoseによって提供される正確で適応性のある監視信号により、生成されたアバターはSMPLモデルの関節と良好に整列し、骨格のバインディングと制御が容易で効率的に行えます。
彼らは、局所的なジオメトリのリアリズムと詳細を向上させるためのプログレッシブな高解像度生成技術を提案しています。DensePoseに依存したControlNetだけを頼りにすると、局所的なアーティファクトが生じる場合があります。彼らは、計算効率の高い明示的なニューラル放射線場内の密度ボクセルグリッドの滑らかな勾配を促進するスムーズネス損失を使用して、作成されたアバターの粗さを減らします。
以下は、全体的な貢献内容です:
• 「AvatarVerse」を紹介し、単語の説明と参考人物の姿勢だけを使用して高品質な3Dアバターを自動的に作成する手法を提供します。
• ポーズに対応した3Dアバターの作成を容易にし、システムの安定性を向上させるためのDensePose-Conditioned Score Distillation Sampling Lossを提供します。
• 徹底的な高解像度生成プロセスにより、生成された3Dアバターの品質を向上させます。この技術は、手の部分、アクセサリーなどの細部を含む、厳密な粗いから細かい微調整プロセスを通じて、詳細にわたる3Dアバターを作成します。
• AvatarVerseは、品質と安定性の面で競合他社を凌駕します。徹底的なユーザー調査に基づく緻密な定性評価によって、高品質な3Dアバターの生成におけるAvatarVerseの優位性が示されています。
これにより、信頼性の高いゼロショット3Dアバター生成の新たな基準が設定されます。彼らは自分たちの技術のデモをGitHubのウェブサイトで公開しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「AIがPowerPointと出会う」
- 腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法
- AIは人間過ぎるようになったのでしょうか?Google AIの研究者は、LLMsがツールのドキュメントだけでMLモデルやAPIを利用できるようになったことを発見しました!
- 「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」
- Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています
- ETHチューリッヒの研究者が、バイオミメティックな腱駆動式ファイブハンドを紹介:高次元自由度の3Dプリンタ対応設計で、器用な手の回転スキルを持つ
- 拡張版:NVIDIAがビデオ編集のためのMaxineを拡大し、3D仮想会議の研究を披露