ドリームクラフト3D：ブートストラップされた拡散先行での階層的3D生成

夢のクラフト3D：ヒエラルキカルな3D生成に先駆けたブートストラップ

ジェネレーティブAIモデルは、AI業界内で長い間議論の的となってきました。2Dのジェネレーティブモデルの最近の成功は、現在の視覚コンテンツの作成に使用される手法の道を開きました。AIコミュニティは2Dジェネレーティブモデルで素晴らしい成功を収めていますが、3Dコンテンツの生成は、深層ジェネレーティブAIフレームワークのための重要な課題です。特に、ビジュアルゲーム、アプリケーション、仮想現実、さらには映画など、さまざまなビジュアルコンテンツの需要が過去最高に高まっていることは注目に値します。特定のカテゴリやタスクに対して受け入れ可能な結果を提供する3DジェネレーティブAIフレームワークは存在しますが、効率的な3Dオブジェクトの生成はできていません。その原因は、フレームワークの訓練に十分な3Dデータがないことによるものです。最近、開発者は事前トレーニングされたテキストから画像へのAIジェネレーティブモデルが提供するガイダンスを活用することを提案しており、これは有望な結果を示しています。

この記事では、3Dコンテンツの生成のための階層モデルであるDreamCraft3Dフレームワークについて詳しく説明します。DreamCraft3Dフレームワークは、2Dの参照画像を使用してジオメトリの彫刻段階をガイドし、現行のフレームワークや手法で遭遇する一貫性の問題に対処するためにテクスチャを強化します。さらに、DreamCraft3Dフレームワークはスコア蒸留サンプリングにおいてビューに依存した拡散モデルを使用し、一貫したレンダリングに貢献するジオメトリの彫刻を支援します。

DreamCraft3Dフレームワークの3Dコンテンツ生成について詳しく見ていきます。さらに、事前トレーニングされたテキストから画像（T2I）モデルを3Dコンテンツ生成に活用する概念を探り、DreamCraft3Dフレームワークがどのようにこのアプローチを利用して現実的な3Dコンテンツを生成するかを調査します。

DreamCraft3D：イントロダクション

DreamCraft3Dは、3Dコンテンツを生成するための階層的なパイプラインです。DreamCraft3Dフレームワークは、最先端のT2I（テキストから画像）生成フレームワークを活用して、テキストプロンプトを使用して高品質な2D画像を作成しようとします。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで説明される視覚の意味論を最新の2D拡散モデルで表現する能力を最大限に活用し、同時にこれらの2DのAIジェネレーティブフレームワークが提供する創造的な自由を保持できます。生成された画像は、階層的な幾何学的テクスチャのブースティングや幾何学的な彫刻フェーズにより3D化され、各ステージで特殊な技術が問題を分解する支援されます。

ジオメトリに関しては、DreamCraft3Dフレームワークは主に全体的な3D構造とマルチビューの整合性に焦点を当て、画像の詳細なテクスチャには妥協の余地を設けています。フレームワークがジオメトリに関連する問題を解決すると、一貫したかつリアルなテクスチャの最適化に焦点を当て、3Dの最適化アプローチをブートストラップする3D対応の拡散を実装します。ジオメトリの彫刻とテクスチャのブースティングの2つの最適化フェーズに対する2つの主要な設計上の考慮事項があります。

以上のことから、DreamCraft3Dを、階層的な3Dコンテンツ生成パイプラインを活用して2D画像を3D化するAIジェネレーティブフレームワークとして説明するのは安全でしょう。それにより、全体的な3Dの一貫性を保ちながら、2Dから3Dへの変換を実現します。

事前トレーニングされたT2I（テキストから画像）モデルの活用

DreamFusionフレームワークによる事前トレーニングされたT2I（テキストから画像）モデルを利用して3Dコンテンツを生成するアイデアは、2022年に初めて導入されました。DreamFusionフレームワークは、スコア蒸留サンプル損失（SDS）を強制することで、ランダムな視点でのレンダリングが効率的なテキストから画像への拡散フレームワークによって解釈されるテキスト条件つき画像分布と一致するように3Dフレームワークを最適化しようと試みました。DreamFusionのアプローチはまずまずの結果をもたらしましたが、ぼやけ具合と過剰な彩度の2つの主要な問題がありました。これらの問題に対処するため、最近の研究では、段階的な最適化戦略を実装し、2Dの蒸留損失を改善することにより、より高品質でリアルな3D生成画像を得ることを目指しています。

ただし、これらのフレームワークの最近の成功にもかかわらず、2Dのジェネレーティブフレームワークの複雑なコンテンツ合成能力には及びません。さらに、これらのフレームワークはしばしば「Janus Issue」と呼ばれる問題に直面しています。これは、個別には合理的に見える3Dレンダリングが全体として見るとスタイリスティックな一貫性や意味の一貫性が欠けている状態を指します。

従来の作品で直面する問題に取り組むため、DreamCraft3Dフレームワークは、包括的で階層的な3Dコンテンツ生成パイプラインの可能性を探求し、その前段階として概念が2Dのドラフトに書き留められ、その後アーティストが粗いジオメトリを彫り、ジオメトリの詳細を磨き、高精細なテクスチャをペイントするという手作業の芸術的なプロセスからインスピレーションを得ることを目指しています。同じアプローチに従い、DreamCraft3Dフレームワークは、疲れるほどの3Dコンテンツまたは画像生成タスクをさまざまな管理可能なステップに分割します。まず、テキストプロンプトを使用して高品質な2D画像を生成し、次にテクスチャブースティングとジオメトリスカルプティングを使用して、画像を3Dの段階に引き上げます。プロセスを後続の段階に分割することで、DreamCraft2Dフレームワークは階層的な生成の潜在能力を最大限に活用し、最終的に優れた品質の3D画像生成を実現します。

最初の段階では、DreamCraft3Dフレームワークは、2D画像を参照として使用して一貫性のあるおよび合理的な3Dジオメトリシェイプを生成するためにジオメトリスカルプティングを展開します。さらに、この段階では、SDS損失をフォトメトリック損失と参照ビューでの新しいビューに使用するだけでなく、ジオメトリの一貫性を促進するためのさまざまな戦略も導入されます。このフレームワークは、新しいビューの分布をモデル化するために参照イメージを使用するために、視点条件付きの既製の画像変換モデルであるZero-1-to-3を活用することを目指しています。さらに、このフレームワークは、粗いから細かいジオメトリの改良のために、暗黙的な表面表現からメッシュ表現に移行することにも取り組んでいます。

DreamCraft3Dフレームワークの第二の段階では、現在のビュー条件つき拡散モデルが制限された量の3Dデータでトレーニングされるため、画像のテクスチャをブーストするためにブートストラップスコア蒸留アプローチを使用します。この制限により、DreamCraft3Dフレームワークは、最適化されている3Dインスタンスのマルチビュー画像に合わせて拡散モデルを微調整し、このアプローチによってマルチビューの一貫性を維持しながら3Dテクスチャを拡充するのに役立ちます。拡散モデルがこれらのマルチビューレンダリングでトレーニングされると、3Dテクスチャの最適化に対してより良いガイダンスを提供し、このアプローチによってDreamCraft3Dフレームワークは視認性のあるテクスチャ詳細を維持しながら極めて多くのテクスチャを生成することができます。

上記の画像からわかるように、DreamCraft3Dフレームワークは、リアルなテクスチャと複雑なジオメトリ構造を持つ創造的な3Dイメージとコンテンツを生成することができます。最初の画像では、アニメキャラクターの孫悟空の体と暴れ回るイノシシの頭が組み合わさっています。一方、2枚目の画像では、探偵の服装をしたビーグルが描かれています。以下はいくつかの追加例です。

DreamCraft3Dの動作とアーキテクチャ

DreamCraft3Dフレームワークは、最新のT2I（テキストから画像への変換）またはテキストから画像を生成するジェネレーティブフレームワークを活用し、テキストプロンプトを使用して高品質な2D画像を作成しようとします。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで説明された視覚的な意味を表現するために最先端の2D拡散モデルの能力を最大限に活用する一方で、これらの2D AI生成フレームワークが提供する創造の自由を保持します。生成された画像は、階層的な幾何学的テクスチャブースティングと幾何学的スカルプティングのフェーズを経て、3Dに引き上げられ、問題を分解するための専門的な技術が各段階で適用されます。以下の画像は、DreamCraft3Dフレームワークの動作を簡潔にまとめたものです。

次に、テクスチャブースティングと幾何学的スカルプティングのフェーズの主要な設計考慮事項について詳しく見ていきましょう。

ジオメトリスカルプティング

ジオメトリスカルプティングは最初のステージであり、DreamCraft3Dフレームワークが、参照画像の外観と同じ参照ビューで3Dモデルを作成し、異なる視点でさえ最大限の信憑性を確保する方法です。最大の信憑性を確保するために、フレームワークはSDS損失を使用して、事前にトレーニングされた拡散モデルが認識できるすべての個別のサンプルビューに対して信憑性のある画像レンダリングを促すようにします。さらに、参照イメージからのガイダンスを効果的に利用するために、フレームワークは参照ビューでの参照画像とレンダリングされた画像間のフォトメトリックの違いを罰則にし、その損失はビューの前景領域のみで計算されます。さらに、シーンの希薄性を促進するために、フレームワークはシルエットを描画するマスク損失も実装しています。ただし、外部ビュー全体で外観と意味を一貫して維持することは依然として課題であり、フレームワークは詳細で一貫したジオメトリを生成するために追加のアプローチを採用しています。

3D Aware Diffusion Prior

3D最適化の方法は、単独での視点監視のみを使用した場合に不適切な制約が生じます。そのため、DreamCraft3Dフレームワークでは、Zero-1-to-3という視点条件付けの拡散モデルを使用しています。Zero-1-to-3フレームワークはより大規模な3Dデータ資産でトレーニングされているため、視点の認識度を向上させることができます。さらに、Zero-1-to-3フレームワークは、参照画像に基づいてカメラポーズと関連付けられたイメージを幻想的に生成する微調整された拡散モデルです。

Progressive View Training

360度直接的に自由視点を導出することは、幾何学的なアーティファクトや不一致（例：椅子に余分な脚）を引き起こす可能性があります。この課題に対処するため、DreamCraft3Dフレームワークは、訓練視点を徐々に拡大して確立された幾何学を徐々に展開し、360度の結果を得る方法を採用しています。

Diffusion Time Step Annealing

DreamCraft3Dフレームワークでは、3D最適化の粗視化から洗練への進行に合わせて、拡散時間ステップの緩和戦略を採用しています。最適化プロセスの開始時には、フレームワークはグローバルな構造を提供するために大きな拡散時間ステップのサンプリングに優先します。フレームワークはトレーニングプロセスを進行させるにつれて、サンプリング範囲を数百のイテレーションの間に線形的に緩和します。緩和戦略により、フレームワークは初期の最適化ステップで妥当なグローバルジオメトリを確立し、その後に構造的な詳細を洗練します。

Detailed Structural Enhancement

DreamCraft3Dフレームワークは、初期に暗黙の表面表現を最適化して粗い構造を確立します。その後、この結果と変形可能な四面体グリッド（DMTet）を組み合わせて、テクスチャとジオメトリの学習を分離したテクスチャ付きの3Dメッシュ表現を初期化します。フレームワークが構造的な強化を完了すると、モデルはテクスチャを洗練することで参照画像から得られた高周波の詳細を保持できます。

Texture Boosting using Bootstrapped Score Sampling

幾何学的な形状を学習する際に、テクスチャが一定程度にぼやける可能性があります。これは、フレームワークが粗い解像度で動作する2D事前モデルと、3D拡散モデルの提供する限られた鮮明さによるものです。さらに、大規模な分類器フリーガイダンスにより、飽和や過度の平滑化など、一般的なテクスチャの問題が発生する場合があります。

フレームワークはテクスチャのリアリズムを向上させるために、VSD（Variational Score Distillation）損失を使用します。この特定のフェーズでは、高解像度の勾配を得るためにStable Diffusionモデルを選択します。さらに、フレームワークは四面体グリッドを固定してリアルなレンダリングを推進し、メッシュの全体的な構造を最適化します。DreamCraft3Dフレームワークは、テクスチャの品質に悪影響を与えるため、学習段階ではZero-1-to-3フレームワークを使用しません。これにより、一貫性のないテクスチャが再発し、奇妙な3D出力が生成される可能性があります。

Experiments and Results

DreamCraft3Dフレームワークの性能を評価するために、現在の最先端フレームワークと比較し、定性的および定量的な結果を分析します。

Comparison with Baseline Models

パフォーマンスを評価するため、DreamCraft3DフレームワークはDreamFusion、Magic3D、ProlificDreamer、Magic123、Make-it-3Dなど、5つの最先端フレームワークと比較されます。テストベンチマークには、現実世界の画像とStable Diffusionフレームワークで生成された画像が混在した300枚の入力画像が含まれます。テストベンチマークの各画像には、テキストプロンプト、予測された深度マップ、および前景のアルファマスクがあります。フレームワークは、実際の画像のテキストプロンプトを画像キャプションフレームワークから取得します。

Qualitative Analysis

次の画像は、DreamCraft3Dフレームワークと現行のベースラインモデルとの比較を示しています。テキストから3Dへのアプローチに依存するフレームワークは、しばしば複数の視点の整合性の問題に直面します。

一方、リアルな質感を提供するProlificDreamerフレームワークがありますが、信憑性のある3Dオブジェクトの生成には不十分です。Make-it-3Dフレームワークのように、画像から3Dオブジェクトを生成するメソッドに頼るフレームワークは、高品質な正面図を作成することができますが、イメージの理想的なジオメトリを保てません。Magic123フレームワークによって生成された画像は、ジオメトリの正規化が向上している一方で、過度に飽和し、滑らかなジオメトリの質感とディテールが生成されます。これらのフレームワークと比較して、ブートストラップスコア蒸留メソッドを使用するDreamCraft3Dフレームワークは、意味論の一貫性を保ちつつ、全体的な創造力の多様性を向上させることができます。

定量的分析

入力参照画像に似た魅力的な3Dイメージを生成し、さまざまな視点で一貫して意味を伝えることを目指すDreamCraft3Dフレームワークの手法は、ベースラインモデルと比較され、評価プロセスにはPSNRとLPIPSを用いた信頼性の測定、コンテキスト距離を用いたピクセルレベルの整合性の評価、および意味的な一貫性を見積もるCLIPが用いられています。結果は以下の画像で示されています。

結論

この記事では、3Dコンテンツを生成するための階層的なパイプラインであるDreamCraft3Dについて説明しました。DreamCraft3Dフレームワークは、テキストプロンプトを使用して高品質な2Dイメージを生成するために最先端のテキストから画像への変換（T2I）ジェネレータフレームワークを利用することを目指しています。このアプローチにより、DreamCraft3Dフレームワークは、テキストプロンプトで説明される視覚的な意味を表現するための最新の2D拡散モデルの機能を最大限に活用しながら、これらの2D AIジェネレータフレームワークが提供する創造的な自由度を保持することができます。生成された画像は、連鎖的なジオメトリテクスチャブースティングおよびジオメトリスカルプティング段階を通じて3Dに変換されます。各段階で専門技術が適用され、問題の分解によって支援されます。このアプローチの結果、DreamCraft3Dフレームワークは、複数の角度から見ることができる、高品質で一貫した3Dアセットを魅力的なテクスチャとともに生成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

ドリームクラフト3D：ブートストラップされた拡散先行での階層的3D生成

DreamCraft3D：イントロダクション

事前トレーニングされたT2I（テキストから画像）モデルの活用

DreamCraft3Dの動作とアーキテクチャ

ジオメトリスカルプティング

3D Aware Diffusion Prior

Progressive View Training

Diffusion Time Step Annealing

Detailed Structural Enhancement

Texture Boosting using Bootstrapped Score Sampling

Experiments and Results

Comparison with Baseline Models

Qualitative Analysis

定量的分析

結論

Was this article helpful?

「音で見る：GPT-4V（イジョン）とテキスト読み上げ技術による視覚障がい者のサポート」

バーゼル大学病院が、「TotalSegmentator」を発表：体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

ギル・ジェロン、Orca SecurityのCEO＆共同創設者-インタビューシリーズ

「3つの質問：ロボットの認識とマッピングの研磨」

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ