バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

バイトダンスとUCSDの研究者は、マルチビュー拡散モデルを提案していますこれは、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができます

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業であり、熟練したデザイナーが数時間または数日の労力を費やして1つの3Dアイテムを作成する必要があります。したがって、非専門的なユーザーが簡単に3D素材を作成できるシステムは非常に価値があります。既存の3Dオブジェクト作成技術には、テンプレートベースの生成パイプライン、3D生成モデル、2Dリフティング技術の3つのカテゴリがあります。テンプレートベースのジェネレータや3D生成モデルは、利用可能な3Dモデルの数が限られており、データの複雑さが大きいため、任意のオブジェクトの生成にはまれにしか対応できません。これらが作成する素材は、外の世界からの単純なトポロジーとテクスチャを持つ一部の一般的なオブジェクトのカテゴリに制限されることが多いです。

しかし、ビジネスでは、人気のある3Dアセットはしばしば複雑で創造的であり、現実的ではない構造とスタイルを組み合わせています(Ske)。最近の2Dリフティング技術の研究によると、事前学習済みの2D生成モデルを使用して3D生成が可能です。一般的な表現には、DreamfusionやMagic3Dシステムなどがあります。これらは、2D拡散モデルを使用してNeRFなどの3D表現の改善のための教師信号として機能し、テキスト入力によって定義される仮説的で見たことのない状況を生成することができます。これらの2Dモデルは、大規模な2D画像データセットを使用して開発されており、優れた汎化性能を持ち、美的な3Dアセットを生成するための効果的なツールとなっています。

ただし、これらのモデルは単一の視点の教師信号しか提供することができず、生成されたアセットは多視点の一貫性の問題に影響を受けやすいです。これにより、生成は非常に不安定であり、製品には深刻なアーティファクトが頻繁に存在します。2Dリフティング手法には問題があります。スコア蒸留は、徹底的な多視点の知識や3Dの認識なしには困難です。これには次のような問題があります。(1) 多面体を持つジャヌス問題。システムは定期的にテキストプロンプトで表されるコンテンツを再生成します。(2) 異なる視点でコンテンツが交差します。Figure 1に例が示されています。多面体の問題にはいくつかの潜在的な原因があります。例えば、特定の角度では刃物のようなアイテムはほとんど検出できません。

図1は、3D生成の多視点の一貫性の問題に対する典型的な2Dリフティング手法を示しています。左側には「木で作ったハクトウワシ」が、2つの面を持っています。右側には「鶏とワッフルにメープルシロップをかけた皿のDSLR画像」があり、鶏肉が徐々にワッフルに変わります。

ただし、他の視点からは、キャラクターや動物の重要な側面が見えなくなるか、自己遮蔽されることがあります。2D拡散モデルは、人間ができるように、これらのことをいくつかの視点から評価することができるため、冗長で一貫性のない素材を提供する傾向があります。ByteDanceとUCSDの研究者は、これらの問題に対する解決策として、マルチビューの拡散モデルを提案しています。これにより、相互に一貫したマルチビューのコレクションが同時に生成されます。彼らは、マルチイメージ生成のための2Dイメージ拡散のアーキテクチャ設計を主に維持しています。これにより、以前に学習した2D拡散モデルの汎化性を引き継ぐことができます。彼らは、実際の3Dデータセットであるobverseからマルチビューの画像のコレクションを生成し、モデルのマルチビューの一貫性を保証します。

彼らは、モデルを実際の写真とマルチビューの画像の両方で同時にトレーニングすることで、モデルが高い一貫性と汎化性能を達成できることを発見しました。彼らはまた、これらのモデルを3D作成に適用するためにマルチビュースコア蒸留を使用しています。単一視点の2D拡散モデルとは異なり、彼らのモデルのマルチビューの教師信号ははるかに安定しています。彼らはまた、純粋な2D拡散モデルを使用して仮説的で見たことのない3Dコンテンツを生成することもできます。彼らは、DreamBoothとDreamBooth3Dから適応したマルチビュー拡散モデルを使用して、提供された写真のセットから識別データを抽出し、それを少数のショーファインチューニングに従って強いマルチビューの一貫性を示します。彼らのモデルであるMVDreamは、3D作成プロセスに組み込まれた場合、ジャヌスの問題を抱えずに3D Nerfモデルを効果的に構築します。それは他の先進的な技術で見つかる多様性を超えるパフォーマンスを発揮します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「CassIO OpenAIに触発されたジェネラティブAIのための最高のライブラリ」

ChatGPTは直感的で使いやすいライブラリを備えているため、開発者のエクスペリエンスを変革しましたそのため、あなたの開発ニ...

AI研究

「AIモデルは強力ですが、生物学的に妥当でしょうか?」

「神経科学と機械学習を結ぶ新たな研究が、アストロサイトが人間の脳における潜在的な役割についての洞察を提供しています」

コンピュータサイエンス

72歳で亡くなったダグラス・レナット氏、人間に似たAIを作ろうとした人

彼は数十年間、人工知能に取り組み、日常の感覚を再現できるコンピュータを作り出すことに努めました

AI研究

新しいAI研究がREVを紹介:AI研究における画期的な変革 - 自由文テキストの合理的な情報に関する新しい情報理論的指標の評価

モデルの説明は、自然言語処理(NLP)における信頼性と解釈性において重要であることが証明されています。モデルの予測の自然...

機械学習

「IBMのワトソンXコードアシスタントと出会おう:AIパワーの助けを借りてエンタープライズコーディングを革新する」

今日の高速なソフトウェア開発の世界では、企業が抱える主要な課題の一つは、素早く正確にコーディングする必要があることで...

AI研究

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキ...