Magic123とは、高品質で高解像度の3Dジオメトリとテクスチャを生成するために、二段階の粗-細最適化プロセスを使用する新しい画像から3Dへのパイプラインです

'Magic123は、高品質で高解像度の3Dジオメトリとテクスチャを生成するために、二段階の最適化プロセスを使用する新しい画像から3Dへのパイプラインです'

2次元の世界しか見ることができないにもかかわらず、人間は3次元の環境でナビゲーションしたり、思考したり、相互作用したりする能力に長けています。これは、人間の本質的な認識能力の一環である3D環境の特性や動作に対する深く根付いた認識を示唆しています。単一の写真から詳細な3D再現を作成できるアーティストは、このスキルを新たなレベルに引き上げています。一方で、数十年にわたる研究と進歩にもかかわらず、非構造化画像からの3D再構築、ジオメトリとテクスチャの生成を含む、3D再構築は、コンピュータビジョンにおいて未解決である問題です。最近のディープラーニングの進展により、多くの3D生成活動は学習ベースで行うことができるようになりました。

ディープラーニングは画像の識別と生成において大きな進歩を遂げていますが、現実世界の特定の課題である単一画像からの3D再構築においては、さらなる改善が必要です。人間と機械の3D再構築能力の大きなギャップは、以下の2つの主要な問題に原因があるとされています：(i) 大規模な3Dジオメトリの学習を妨げる大規模な3Dデータセットの不足、および (ii) 3Dデータに取り組む際の詳細レベルとコンピュータリソースのトレードオフ。この問題を解決するための一つの戦略として、2Dの事前知識を利用する方法があります。オンラインには豊富な実際の2D画像データがあります。CLIPやStable Diffusionなどの最先端の画像解釈と生成アルゴリズムを訓練するための最も包括的なテキスト-画像ペアのデータセットの一つがLAIONです。

2D生成モデルの一般化能力の向上に伴い、2Dモデルを事前知識として使用した3D素材の作成に関する戦略が増加しています。DreamFusionは、テキストから3D作成のためのこの2D事前知識ベースの技術を先駆的に開発しました。この手法は、ゼロショットの状況でユニークな視点を指示し、ニューラル輝度場（NeRF）を強化する驚異的な能力を示しています。DreamFusionを基にした最近の研究では、RealFusionやNeuralLiftを使用して、これらの2D事前知識を単一の画像からの3D再構築に適応しようと試みています。別の戦略として、3D事前知識を使用する方法もあります。以前の取り組みでは、トポロジカル制約などの3D事前知識が3D作成を支援するために使用されました。これらの手作りの3D事前知識は一部の3Dコンテンツを作成することができますが、より良い3Dコンテンツを作成することができます。

最近、2D拡散モデルがビュー依存性に変更され、このビュー依存性拡散がZero-1-to-3や3Dimなどの3D事前知識として使用されました。彼らの行動分析によると、2D事前知識と3D事前知識の両方には利点と欠点があります。3D事前知識に比べて、2D事前知識は3D作成において優れた一般化能力を持っており、図1のドラゴン像の例で示されています。2D事前知識に完全に依存するアプローチは、限られた3D理解力のために最終的に3Dの精度と一貫性を失い、多くの面（ジャヌスの問題）、異なるサイズ、不均一なテクスチャなどの非現実的なジオメトリ結果をもたらします。図1のテディベアの例は失敗例です。

しかし、3Dトレーニングデータの量が少ないため、野外再構築には3D事前知識への厳しい依存以上のものが必要です。その結果、図1に示すように、3D事前知識を基にした解決策は一般的なアイテム（上段のテディベアの例など）をうまく処理できますが、より頻度の低いものには苦労し、単純化しすぎて場合によっては平坦な3Dジオメトリ（左下のドラゴン像など）を生成します。この研究では、King Abdullah University of Science and Technology（KAUST）、Snap Inc.、およびVisual Geometry Group、University of Oxfordの研究者たちは、2Dまたは3D事前知識に単純に依存するのではなく、画像から3D作成において革新的な視点を導くために両方の事前知識を同時に使用することを推進しています。2Dと3Dの事前知識の間の有用なトレードオフパラメータを変化させることで、生成された3Dジオメトリにおける探索と活用のバランスを制御することができます。

図1は、Magic123の2Dと3Dの事前情報のトレードオフを示しています。テディベア（頻繁に出現するアイテム）、積み重ねられたドーナツ2つ（あまり一般的ではないもの）、ドラゴンの像（一般的ではないオブジェクト）の3つのシナリオについて、単一画像の再構築を比較しています。右側に示されているように、2Dの背景のみを持つMagic123は、幾何学的な探索を重視し、より創造性のある3Dマテリアルを作成しますが、一貫性が低いかもしれません。一方、3Dの事前情報のみを持つMagic123（左側）は、幾何学的な利用を優先し、正確ですがより単純なジオメトリと特徴の少ないものになります。

2Dの事前情報を優先することで、各2D画像の部分的な3D情報を補完し、創造的な3Dスキルを向上させることができます。ただし、これにより3Dジオメトリの正確性が低下する可能性があります。一方、3Dの事前情報を優先すると、より3D制約のある解とより正確な3Dジオメトリが得られますが、創造性が低下し、困難で異常な状況に対して適切な解を見つける能力が低下する可能性があります。彼らはMagic123を提案し、2Dと3Dの事前情報の両方を使用する2段階の細粒度最適化手法を使用して、高品質な3D出力を生成する最先端の画像から3Dへのパイプラインを提供します。

彼らは粗い段階でニューラル放射場（NeRF）を洗練させます。NeRFは複雑なジオメトリを学習するための暗黙のボリューム表現を効果的に学習します。ただし、NeRFは多くのメモリを使用するため、低解像度の生成画像が拡散モデルに送信され、画像から3Dへのプロセスの出力品質が低下します。より効率的なリソースであるInstant-NGPは、16GBのメモリGPU上で128×128の解像度の画像から3Dへのパイプラインに制限されています。そのため、彼らは第2のステップを追加し、メモリ効率の良いテクスチャ分解されたSDF-Meshハイブリッド表現であるDeep Marching Tetrahedra（DMTet）を使用して3Dコンテンツの品質を向上させます。

この手法の助けを借りて、彼らはNeRFのジオメトリとテクスチャの洗練を分離し、解像度を1Kに向上させることができます。彼らは両方のフェーズで2Dと3Dの事前情報を組み合わせて革新的な視点を導くために使用します。彼らは以下の貢献の要約を提供しています：

• Magic123という革新的な画像から3Dへのパイプラインを提供し、2段階の細粒度最適化手法を使用して高品質で高解像度の3Dジオメトリとテクスチャを作成します。

• 与えられた任意の画像から正確な3Dコンテンツを作成するために、2Dと3Dの事前情報を同時に使用することを提案します。事前情報の強度パラメータは、ジオメトリの探索と使用のトレードオフを可能にします。ユーザーはこのトレードオフパラメータを試すことで必要な3Dコンテンツを作成することができます。

• 2Dと3Dの事前情報のバランスの取れたトレードオフを見つけることができ、比較的現実的で詳細な3D再構築を実現します。Magic123は、リアルワールドと合成コンテキストでの単一の非ポーズ写真からの3D再構築において、すべてのサンプルに対して同じパラメータセットを使用し、さらなる再構成なしで最先端の結果を生み出します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Magic123とは、高品質で高解像度の3Dジオメトリとテクスチャを生成するために、二段階の粗-細最適化プロセスを使用する新しい画像から3Dへのパイプラインです

Was this article helpful?

スキル開発のための集中的な機械学習ブートキャンプ

Pythonプロジェクトのセットアップ：パートV

機械学習

AIを使ってYouTubeショートを作成する

テキストブック品質の合成データを使用して言語モデルをトレーニングする

このAIニュースレターは、あなたが必要とするすべてです＃71

「ChatGPTとCanvaを使用して1分で100のInstagram投稿を作成する方法」

第四次産業革命：AIと自動化

「LangChainとOpenAI APIを使用した生成型AIアプリケーションの構築」