このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

このAI研究では、結束力のある高精細な3Dモデル生成のための階層的手法「DreamCraft3D」を紹介!

“`

2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリックの作成にはまだ深層生成ネットワークに多くの困難があります。ゲーム、映画、バーチャルリアリティなどのアプリケーションには欠かせない要素です。一部のカテゴリでは3D生成モデリングが素晴らしい結果を生み出しているものの、広範な3Dモデルを生成するにはさらなる3Dデータが必要です。事前学習済みのテキストから画像への生成モデルは、最近の研究でガイドとして使用され、励ましの結果をもたらしています。DreamFusionは初めて事前学習済みのテキストから画像へのモデル(T2I)を3Dクリエーションに使用することを提案した会社です。ランダムな視点での3Dモデルの表現が強力なT2I拡散モデルによって解釈されるテキスト条件付きの画像分布に適合するように3Dモデルを改善するために、スコア蒸留サンプリング(SDS)ロスが実装されています。

DreamFusionは、2D生成モデルの創造的なポテンシャルを保持しながら、信じられないほどの発明的な3D素材を生み出すことができます。最近の研究では、階段状の最適化手法を使用したり、ブラーと過飽和の懸念に対処するために2D蒸留ロスを向上させたりしていますが、既存の研究のほとんどは2D生成モデルと同じ方法で複雑な素材を合成することができません。さらに、これらの研究は、3D表現が個別には信頼性のあるものの、全体としてスタイリスティックまたは意味的なエラーがあることがわかった場合に「Janusの問題」に陥ることがよくあります。本論文では、清華大学とDeepSeek AIの研究者が、包括的な3Dの一貫性を維持しながら複雑な3Dオブジェクトを作成するための方法として、DreamCraft3Dを提案しています。

彼らは階層的な生成の可能性を調査しています。具体的なアイデアが最初に2Dの下書きになるような手動の創造プロセスに影響を受けています。荒いジオメトリが彫り上げられ、ジオメトリの詳細が磨かれ、高品質のテクスチャが描かれます。彼らは同様のアプローチを取り、3Dクリエーションの難しいタスクを消化可能な部分に分解します。テキストの入力から高品質の2Dリファレンス画像を作成し、テクスチャを強化し、ジオメトリを彫刻する手順を使用して3Dに持ち込みます。他の手法とは異なり、彼らの研究は、各レベルでの細心の注意が階層的な生成のポテンシャルを最大化し、最高品質の3Dクリエーションを生み出すことができることを示しています。ジオメトリ彫刻の目標は、2Dリファレンス画像を一貫性があり信じられる3Dジオメトリに変換することです。

参照ビューと新しいビューにおけるフォトメトリックロスやSDSロス以外にも、ジオメトリの一貫性を高めるための他の戦術を提示しています。まず、Zero-1-to-3オフシェルフのビューポイント条件付き画像変換モデルを使用して、リファレンス画像に基づいた一意の意見の分布をシミュレートします。このビューポイント条件付きの拡散モデルは、さまざまな3D入力で訓練されているため、2D拡散を強化する豊かな3D事前知識を提供します。彼らはまた、徐々にトレーニングビューを増やし、サンプルのタイムステップをアニーリングすることが一貫性のさらなる強化に不可欠であることを発見しました。粗いから細かいジオメトリの調整の最適化中に、暗黙の表面表現からメッシュ表現に移行します。これらの手法を使用すると、ジオメトリ彫刻ステップは、ほとんどのジオメトリアーティファクトを効果的に抑えながら、正確で詳細なジオメトリを生成します。

さらに、テクスチャを大幅に改善するためにブートストラップスコア蒸留を使用することを提案しています。現代の2D拡散モデルの忠実度は、限られた3Dで訓練されたビューポイント条件付きの拡散モデルによってしばしば凌駕されます。代わりに、最適化中の3Dインスタンスの多視点表現を使用して拡散モデルを微調整します。このビューコンシステンシーを意識したカスタマイズされた3D拡散事前知識は、3Dテクスチャの向上に重要な役割を果たします。さらに、彼らは、生成的先行と3D表現を交互に改善することで相互に補完する利点を発見しました。より優れた多視点レンダリングでのトレーニングは、拡散モデルに役立ち、3Dテクスチャの最適化により良い方向性を提供します。

“`

図1:DreamCraft3Dは2D写真を3Dに拡大することで、豊富な特徴とリアリティのある3D一貫性を持つ3Dを生成します。詳細な内容については、デモビデオと付録をご覧ください。

以前の試みと異なり、彼らは固定された目標分布から学ぶのではなく、最適化状態に基づいて徐々に進化させることでそれを実現しています。「ブートストラップ」法により、彼らはビジョンの一貫性を保ちながら、ますます詳細なテクスチャをキャプチャできます。図1に示されているように、彼らの技法は複雑な幾何学的形状とリアルな素材を360度一貫して提示することで、想像力豊かな3Dオブジェクトを作成することができます。最適化ベースの代替手法と比較して、彼らの手法ははるかに優れたテクスチャと複雑さを提供します。一方、彼らの取り組みは画像から3Dへのプロセスと比較して、今までにないほどリアルな360°表現を生成することに優れています。これらの研究結果は、DreamCraft3Dが3Dコンテンツ制作の新しい創造的な道を切り拓く巨大な潜在能力を示しています。この実装は一般の方々にもアクセスできるようになります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「2023年における最高のAIファイナンスツール」

DataRails  DataRailsは、財務計画と分析のためのデータの統合とレポート作成を効率化し自動化するFP&Aプラットフォーム...

データサイエンス

「AIと.NETの連携による現実世界のソリューションを強化する」

テクノロジーの絶えず進化する風景において、人工知能(AI)と.NETフレームワークの融合は、画期的な革新の道を切り開いてき...

AI研究

『キャタリスト研究の変革:テキスト入力を使用したエネルギー予測のために設計された Transformer ベースの AI モデル、CatBERTaに出会ってください』

化学触媒の研究は、常に新しい長期的な解決策が求められるダイナミックな分野です。現代の産業の基盤である触媒は、化学反応...

AIニュース

「GPT-4とXGBoost 2.0の詳細な情報:AIの新たなフロンティア」

イントロダクション AIは、GPT-4などのLLMの出現により、人間の言語の理解と生成を革新し、大きな変化を経験しています。同時...

AI研究

「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」

ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んでき...

AI研究

このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限...