バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

バイトダンスとUCSDの研究者は、マルチビュー拡散モデルを提案していますこれは、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができます

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業であり、熟練したデザイナーが数時間または数日の労力を費やして1つの3Dアイテムを作成する必要があります。したがって、非専門的なユーザーが簡単に3D素材を作成できるシステムは非常に価値があります。既存の3Dオブジェクト作成技術には、テンプレートベースの生成パイプライン、3D生成モデル、2Dリフティング技術の3つのカテゴリがあります。テンプレートベースのジェネレータや3D生成モデルは、利用可能な3Dモデルの数が限られており、データの複雑さが大きいため、任意のオブジェクトの生成にはまれにしか対応できません。これらが作成する素材は、外の世界からの単純なトポロジーとテクスチャを持つ一部の一般的なオブジェクトのカテゴリに制限されることが多いです。

しかし、ビジネスでは、人気のある3Dアセットはしばしば複雑で創造的であり、現実的ではない構造とスタイルを組み合わせています(Ske)。最近の2Dリフティング技術の研究によると、事前学習済みの2D生成モデルを使用して3D生成が可能です。一般的な表現には、DreamfusionやMagic3Dシステムなどがあります。これらは、2D拡散モデルを使用してNeRFなどの3D表現の改善のための教師信号として機能し、テキスト入力によって定義される仮説的で見たことのない状況を生成することができます。これらの2Dモデルは、大規模な2D画像データセットを使用して開発されており、優れた汎化性能を持ち、美的な3Dアセットを生成するための効果的なツールとなっています。

ただし、これらのモデルは単一の視点の教師信号しか提供することができず、生成されたアセットは多視点の一貫性の問題に影響を受けやすいです。これにより、生成は非常に不安定であり、製品には深刻なアーティファクトが頻繁に存在します。2Dリフティング手法には問題があります。スコア蒸留は、徹底的な多視点の知識や3Dの認識なしには困難です。これには次のような問題があります。(1) 多面体を持つジャヌス問題。システムは定期的にテキストプロンプトで表されるコンテンツを再生成します。(2) 異なる視点でコンテンツが交差します。Figure 1に例が示されています。多面体の問題にはいくつかの潜在的な原因があります。例えば、特定の角度では刃物のようなアイテムはほとんど検出できません。

図1は、3D生成の多視点の一貫性の問題に対する典型的な2Dリフティング手法を示しています。左側には「木で作ったハクトウワシ」が、2つの面を持っています。右側には「鶏とワッフルにメープルシロップをかけた皿のDSLR画像」があり、鶏肉が徐々にワッフルに変わります。

ただし、他の視点からは、キャラクターや動物の重要な側面が見えなくなるか、自己遮蔽されることがあります。2D拡散モデルは、人間ができるように、これらのことをいくつかの視点から評価することができるため、冗長で一貫性のない素材を提供する傾向があります。ByteDanceとUCSDの研究者は、これらの問題に対する解決策として、マルチビューの拡散モデルを提案しています。これにより、相互に一貫したマルチビューのコレクションが同時に生成されます。彼らは、マルチイメージ生成のための2Dイメージ拡散のアーキテクチャ設計を主に維持しています。これにより、以前に学習した2D拡散モデルの汎化性を引き継ぐことができます。彼らは、実際の3Dデータセットであるobverseからマルチビューの画像のコレクションを生成し、モデルのマルチビューの一貫性を保証します。

彼らは、モデルを実際の写真とマルチビューの画像の両方で同時にトレーニングすることで、モデルが高い一貫性と汎化性能を達成できることを発見しました。彼らはまた、これらのモデルを3D作成に適用するためにマルチビュースコア蒸留を使用しています。単一視点の2D拡散モデルとは異なり、彼らのモデルのマルチビューの教師信号ははるかに安定しています。彼らはまた、純粋な2D拡散モデルを使用して仮説的で見たことのない3Dコンテンツを生成することもできます。彼らは、DreamBoothとDreamBooth3Dから適応したマルチビュー拡散モデルを使用して、提供された写真のセットから識別データを抽出し、それを少数のショーファインチューニングに従って強いマルチビューの一貫性を示します。彼らのモデルであるMVDreamは、3D作成プロセスに組み込まれた場合、ジャヌスの問題を抱えずに3D Nerfモデルを効果的に構築します。それは他の先進的な技術で見つかる多様性を超えるパフォーマンスを発揮します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

AIニュース

新技術による道路と橋の建設および修復のためのツール:人工知能

「ペンシルベニア州とその他の地域で、AIが国の老朽化したインフラに適用されていますそれは賢明な判断でしょうか?」

機械学習

「ファインチューニング中に埋め込みのアニメーションを作成する方法」

「機械学習の分野では、ビジョントランスフォーマー(ViT)は画像分類に使用されるモデルの一種です従来の畳み込みニューラル...

AI研究

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキ...

機械学習

「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」

チューリッヒ大学の研究者たちは、GPT-4などの大規模言語モデル(LLM)が自律的なファクトチェックにおいてどのような役割を...

データサイエンス

AIの障壁を越える:OpenAIがLLMsをメインストリームの成功へ導くまで

「ML開発者ツール(広くはMLOpsとして分類される)が単体のビジネスとして成り立つかどうかについては常々懐疑的な意見を述べ...