このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています
このAI研究では、結束力のある高精細な3Dモデル生成のための階層的手法「DreamCraft3D」を紹介!
“`
2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリックの作成にはまだ深層生成ネットワークに多くの困難があります。ゲーム、映画、バーチャルリアリティなどのアプリケーションには欠かせない要素です。一部のカテゴリでは3D生成モデリングが素晴らしい結果を生み出しているものの、広範な3Dモデルを生成するにはさらなる3Dデータが必要です。事前学習済みのテキストから画像への生成モデルは、最近の研究でガイドとして使用され、励ましの結果をもたらしています。DreamFusionは初めて事前学習済みのテキストから画像へのモデル(T2I)を3Dクリエーションに使用することを提案した会社です。ランダムな視点での3Dモデルの表現が強力なT2I拡散モデルによって解釈されるテキスト条件付きの画像分布に適合するように3Dモデルを改善するために、スコア蒸留サンプリング(SDS)ロスが実装されています。
DreamFusionは、2D生成モデルの創造的なポテンシャルを保持しながら、信じられないほどの発明的な3D素材を生み出すことができます。最近の研究では、階段状の最適化手法を使用したり、ブラーと過飽和の懸念に対処するために2D蒸留ロスを向上させたりしていますが、既存の研究のほとんどは2D生成モデルと同じ方法で複雑な素材を合成することができません。さらに、これらの研究は、3D表現が個別には信頼性のあるものの、全体としてスタイリスティックまたは意味的なエラーがあることがわかった場合に「Janusの問題」に陥ることがよくあります。本論文では、清華大学とDeepSeek AIの研究者が、包括的な3Dの一貫性を維持しながら複雑な3Dオブジェクトを作成するための方法として、DreamCraft3Dを提案しています。
彼らは階層的な生成の可能性を調査しています。具体的なアイデアが最初に2Dの下書きになるような手動の創造プロセスに影響を受けています。荒いジオメトリが彫り上げられ、ジオメトリの詳細が磨かれ、高品質のテクスチャが描かれます。彼らは同様のアプローチを取り、3Dクリエーションの難しいタスクを消化可能な部分に分解します。テキストの入力から高品質の2Dリファレンス画像を作成し、テクスチャを強化し、ジオメトリを彫刻する手順を使用して3Dに持ち込みます。他の手法とは異なり、彼らの研究は、各レベルでの細心の注意が階層的な生成のポテンシャルを最大化し、最高品質の3Dクリエーションを生み出すことができることを示しています。ジオメトリ彫刻の目標は、2Dリファレンス画像を一貫性があり信じられる3Dジオメトリに変換することです。
- 中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです
- 中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」
- このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています
参照ビューと新しいビューにおけるフォトメトリックロスやSDSロス以外にも、ジオメトリの一貫性を高めるための他の戦術を提示しています。まず、Zero-1-to-3オフシェルフのビューポイント条件付き画像変換モデルを使用して、リファレンス画像に基づいた一意の意見の分布をシミュレートします。このビューポイント条件付きの拡散モデルは、さまざまな3D入力で訓練されているため、2D拡散を強化する豊かな3D事前知識を提供します。彼らはまた、徐々にトレーニングビューを増やし、サンプルのタイムステップをアニーリングすることが一貫性のさらなる強化に不可欠であることを発見しました。粗いから細かいジオメトリの調整の最適化中に、暗黙の表面表現からメッシュ表現に移行します。これらの手法を使用すると、ジオメトリ彫刻ステップは、ほとんどのジオメトリアーティファクトを効果的に抑えながら、正確で詳細なジオメトリを生成します。
さらに、テクスチャを大幅に改善するためにブートストラップスコア蒸留を使用することを提案しています。現代の2D拡散モデルの忠実度は、限られた3Dで訓練されたビューポイント条件付きの拡散モデルによってしばしば凌駕されます。代わりに、最適化中の3Dインスタンスの多視点表現を使用して拡散モデルを微調整します。このビューコンシステンシーを意識したカスタマイズされた3D拡散事前知識は、3Dテクスチャの向上に重要な役割を果たします。さらに、彼らは、生成的先行と3D表現を交互に改善することで相互に補完する利点を発見しました。より優れた多視点レンダリングでのトレーニングは、拡散モデルに役立ち、3Dテクスチャの最適化により良い方向性を提供します。
“`
図1:DreamCraft3Dは2D写真を3Dに拡大することで、豊富な特徴とリアリティのある3D一貫性を持つ3Dを生成します。詳細な内容については、デモビデオと付録をご覧ください。
以前の試みと異なり、彼らは固定された目標分布から学ぶのではなく、最適化状態に基づいて徐々に進化させることでそれを実現しています。「ブートストラップ」法により、彼らはビジョンの一貫性を保ちながら、ますます詳細なテクスチャをキャプチャできます。図1に示されているように、彼らの技法は複雑な幾何学的形状とリアルな素材を360度一貫して提示することで、想像力豊かな3Dオブジェクトを作成することができます。最適化ベースの代替手法と比較して、彼らの手法ははるかに優れたテクスチャと複雑さを提供します。一方、彼らの取り組みは画像から3Dへのプロセスと比較して、今までにないほどリアルな360°表現を生成することに優れています。これらの研究結果は、DreamCraft3Dが3Dコンテンツ制作の新しい創造的な道を切り拓く巨大な潜在能力を示しています。この実装は一般の方々にもアクセスできるようになります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム
- CMU(カーネギーメロン大学)およびNYU(ニューヨーク大学)の研究者たちは、大規模言語モデル(LLM)を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています
- シリコンボレー:デザイナーがチップ支援のために生成AIを活用
- バイデン大統領がAI実行命令を発布し、安全評価、市民権のガイダンス、労働市場への影響に関する研究を要求しています
- コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです