バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

バイトダンスとUCSDの研究者は、マルチビュー拡散モデルを提案していますこれは、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができます

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業であり、熟練したデザイナーが数時間または数日の労力を費やして1つの3Dアイテムを作成する必要があります。したがって、非専門的なユーザーが簡単に3D素材を作成できるシステムは非常に価値があります。既存の3Dオブジェクト作成技術には、テンプレートベースの生成パイプライン、3D生成モデル、2Dリフティング技術の3つのカテゴリがあります。テンプレートベースのジェネレータや3D生成モデルは、利用可能な3Dモデルの数が限られており、データの複雑さが大きいため、任意のオブジェクトの生成にはまれにしか対応できません。これらが作成する素材は、外の世界からの単純なトポロジーとテクスチャを持つ一部の一般的なオブジェクトのカテゴリに制限されることが多いです。

しかし、ビジネスでは、人気のある3Dアセットはしばしば複雑で創造的であり、現実的ではない構造とスタイルを組み合わせています(Ske)。最近の2Dリフティング技術の研究によると、事前学習済みの2D生成モデルを使用して3D生成が可能です。一般的な表現には、DreamfusionやMagic3Dシステムなどがあります。これらは、2D拡散モデルを使用してNeRFなどの3D表現の改善のための教師信号として機能し、テキスト入力によって定義される仮説的で見たことのない状況を生成することができます。これらの2Dモデルは、大規模な2D画像データセットを使用して開発されており、優れた汎化性能を持ち、美的な3Dアセットを生成するための効果的なツールとなっています。

ただし、これらのモデルは単一の視点の教師信号しか提供することができず、生成されたアセットは多視点の一貫性の問題に影響を受けやすいです。これにより、生成は非常に不安定であり、製品には深刻なアーティファクトが頻繁に存在します。2Dリフティング手法には問題があります。スコア蒸留は、徹底的な多視点の知識や3Dの認識なしには困難です。これには次のような問題があります。(1) 多面体を持つジャヌス問題。システムは定期的にテキストプロンプトで表されるコンテンツを再生成します。(2) 異なる視点でコンテンツが交差します。Figure 1に例が示されています。多面体の問題にはいくつかの潜在的な原因があります。例えば、特定の角度では刃物のようなアイテムはほとんど検出できません。

図1は、3D生成の多視点の一貫性の問題に対する典型的な2Dリフティング手法を示しています。左側には「木で作ったハクトウワシ」が、2つの面を持っています。右側には「鶏とワッフルにメープルシロップをかけた皿のDSLR画像」があり、鶏肉が徐々にワッフルに変わります。

ただし、他の視点からは、キャラクターや動物の重要な側面が見えなくなるか、自己遮蔽されることがあります。2D拡散モデルは、人間ができるように、これらのことをいくつかの視点から評価することができるため、冗長で一貫性のない素材を提供する傾向があります。ByteDanceとUCSDの研究者は、これらの問題に対する解決策として、マルチビューの拡散モデルを提案しています。これにより、相互に一貫したマルチビューのコレクションが同時に生成されます。彼らは、マルチイメージ生成のための2Dイメージ拡散のアーキテクチャ設計を主に維持しています。これにより、以前に学習した2D拡散モデルの汎化性を引き継ぐことができます。彼らは、実際の3Dデータセットであるobverseからマルチビューの画像のコレクションを生成し、モデルのマルチビューの一貫性を保証します。

彼らは、モデルを実際の写真とマルチビューの画像の両方で同時にトレーニングすることで、モデルが高い一貫性と汎化性能を達成できることを発見しました。彼らはまた、これらのモデルを3D作成に適用するためにマルチビュースコア蒸留を使用しています。単一視点の2D拡散モデルとは異なり、彼らのモデルのマルチビューの教師信号ははるかに安定しています。彼らはまた、純粋な2D拡散モデルを使用して仮説的で見たことのない3Dコンテンツを生成することもできます。彼らは、DreamBoothとDreamBooth3Dから適応したマルチビュー拡散モデルを使用して、提供された写真のセットから識別データを抽出し、それを少数のショーファインチューニングに従って強いマルチビューの一貫性を示します。彼らのモデルであるMVDreamは、3D作成プロセスに組み込まれた場合、ジャヌスの問題を抱えずに3D Nerfモデルを効果的に構築します。それは他の先進的な技術で見つかる多様性を超えるパフォーマンスを発揮します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました

現代の機械学習は、コンピュータビジョン、自然言語処理、強化学習など、さまざまな分野で難しい問題に効果的な解答を提供す...

AI研究

このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています

メッシュGPTは、ドイツ工科大学ミュンヘン校、トリノ工科大学、アウディAGの研究者によって提案された三角形メッシュの自己回...

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」

AI研究

トロント大学の研究者たちは、3300万以上の細胞リポジトリ上で生成事前学習トランスフォーマーに基づいたシングルセル生物学のための基礎モデルであるscGPTを紹介しました

自然言語処理とコンピュータビジョンは、生成学習済みモデルが驚異的に成功した分野の例の一部です。特に、基盤モデルを構築...

機械学習

vLLMについて HuggingFace Transformersの推論とサービングを加速化するオープンソースLLM推論ライブラリで、最大24倍高速化します

大規模言語モデル、略してLLMは、人工知能(AI)の分野において画期的な進歩として登場しました。GPT-3などのこのようなモデル...

データサイエンス

「医療機械学習におけるバイアスのある臨床データをどのように見るべきか?考古学的な視点への呼びかけ」

MIT、ジョンズ・ホプキンズ大学、アラン・チューリング研究所の研究者は、AIシステムにおける偏った医療データの扱いは、「ゴ...