バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

バイトダンスとUCSDの研究者は、マルチビュー拡散モデルを提案していますこれは、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができます

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業であり、熟練したデザイナーが数時間または数日の労力を費やして1つの3Dアイテムを作成する必要があります。したがって、非専門的なユーザーが簡単に3D素材を作成できるシステムは非常に価値があります。既存の3Dオブジェクト作成技術には、テンプレートベースの生成パイプライン、3D生成モデル、2Dリフティング技術の3つのカテゴリがあります。テンプレートベースのジェネレータや3D生成モデルは、利用可能な3Dモデルの数が限られており、データの複雑さが大きいため、任意のオブジェクトの生成にはまれにしか対応できません。これらが作成する素材は、外の世界からの単純なトポロジーとテクスチャを持つ一部の一般的なオブジェクトのカテゴリに制限されることが多いです。

しかし、ビジネスでは、人気のある3Dアセットはしばしば複雑で創造的であり、現実的ではない構造とスタイルを組み合わせています(Ske)。最近の2Dリフティング技術の研究によると、事前学習済みの2D生成モデルを使用して3D生成が可能です。一般的な表現には、DreamfusionやMagic3Dシステムなどがあります。これらは、2D拡散モデルを使用してNeRFなどの3D表現の改善のための教師信号として機能し、テキスト入力によって定義される仮説的で見たことのない状況を生成することができます。これらの2Dモデルは、大規模な2D画像データセットを使用して開発されており、優れた汎化性能を持ち、美的な3Dアセットを生成するための効果的なツールとなっています。

ただし、これらのモデルは単一の視点の教師信号しか提供することができず、生成されたアセットは多視点の一貫性の問題に影響を受けやすいです。これにより、生成は非常に不安定であり、製品には深刻なアーティファクトが頻繁に存在します。2Dリフティング手法には問題があります。スコア蒸留は、徹底的な多視点の知識や3Dの認識なしには困難です。これには次のような問題があります。(1) 多面体を持つジャヌス問題。システムは定期的にテキストプロンプトで表されるコンテンツを再生成します。(2) 異なる視点でコンテンツが交差します。Figure 1に例が示されています。多面体の問題にはいくつかの潜在的な原因があります。例えば、特定の角度では刃物のようなアイテムはほとんど検出できません。

図1は、3D生成の多視点の一貫性の問題に対する典型的な2Dリフティング手法を示しています。左側には「木で作ったハクトウワシ」が、2つの面を持っています。右側には「鶏とワッフルにメープルシロップをかけた皿のDSLR画像」があり、鶏肉が徐々にワッフルに変わります。

ただし、他の視点からは、キャラクターや動物の重要な側面が見えなくなるか、自己遮蔽されることがあります。2D拡散モデルは、人間ができるように、これらのことをいくつかの視点から評価することができるため、冗長で一貫性のない素材を提供する傾向があります。ByteDanceとUCSDの研究者は、これらの問題に対する解決策として、マルチビューの拡散モデルを提案しています。これにより、相互に一貫したマルチビューのコレクションが同時に生成されます。彼らは、マルチイメージ生成のための2Dイメージ拡散のアーキテクチャ設計を主に維持しています。これにより、以前に学習した2D拡散モデルの汎化性を引き継ぐことができます。彼らは、実際の3Dデータセットであるobverseからマルチビューの画像のコレクションを生成し、モデルのマルチビューの一貫性を保証します。

彼らは、モデルを実際の写真とマルチビューの画像の両方で同時にトレーニングすることで、モデルが高い一貫性と汎化性能を達成できることを発見しました。彼らはまた、これらのモデルを3D作成に適用するためにマルチビュースコア蒸留を使用しています。単一視点の2D拡散モデルとは異なり、彼らのモデルのマルチビューの教師信号ははるかに安定しています。彼らはまた、純粋な2D拡散モデルを使用して仮説的で見たことのない3Dコンテンツを生成することもできます。彼らは、DreamBoothとDreamBooth3Dから適応したマルチビュー拡散モデルを使用して、提供された写真のセットから識別データを抽出し、それを少数のショーファインチューニングに従って強いマルチビューの一貫性を示します。彼らのモデルであるMVDreamは、3D作成プロセスに組み込まれた場合、ジャヌスの問題を抱えずに3D Nerfモデルを効果的に構築します。それは他の先進的な技術で見つかる多様性を超えるパフォーマンスを発揮します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「高度なデータサイエンス技術を用いたEコマース詐欺の検出」

「電子商取引詐欺のダイナミクスと監視および非監視の機械学習によるデータサイエンス技術の活用による絶えず進化する詐欺へ...

機械学習

「コンピュータビジョン、言語モデルが見たものを理解するのをサポートする」

マサチューセッツ工科大学と他の研究者たちは、コンピュータ生成データを使用して、ビジョンと言語モデルが概念をより良く理...

データサイエンス

3つの季節性のタイプとその検出方法

季節性は、時系列を構成する主要な要素の1つです季節性は、一定の期間で繰り返され、似た強度で発生する系統的な動きを指しま...

データサイエンス

「AGIに向かって:LLMと基礎モデルが人生の学びの革命で果たす役割」

過去10年間、特にディープラーニングの成功を受けて、人工汎用知能(AGI)の構築の可能性について議論が続いています最終目標...

機械学習

「このAI論文は、超人的な数学システムの追求において、認知科学と機械学習の融合を探る」という記事です

MIT BCS、ケンブリッジ大学、アラン・チューリング研究所の研究者たちは、人工知能における自動化数学者の歴史的追求を探求し...

AI研究

「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」

セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分...