バイトダンスとUCSDの研究者は、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができるマルチビュー拡散モデルを提案しています

バイトダンスとUCSDの研究者は、マルチビュー拡散モデルを提案していますこれは、与えられたテキストからオブジェクト/シーンのセットのマルチビュー画像を生成することができます

現代のゲームやメディア業界のパイプラインにおいて重要な段階であるにもかかわらず、3Dコンテンツの作成は時間のかかる作業であり、熟練したデザイナーが数時間または数日の労力を費やして1つの3Dアイテムを作成する必要があります。したがって、非専門的なユーザーが簡単に3D素材を作成できるシステムは非常に価値があります。既存の3Dオブジェクト作成技術には、テンプレートベースの生成パイプライン、3D生成モデル、2Dリフティング技術の3つのカテゴリがあります。テンプレートベースのジェネレータや3D生成モデルは、利用可能な3Dモデルの数が限られており、データの複雑さが大きいため、任意のオブジェクトの生成にはまれにしか対応できません。これらが作成する素材は、外の世界からの単純なトポロジーとテクスチャを持つ一部の一般的なオブジェクトのカテゴリに制限されることが多いです。

しかし、ビジネスでは、人気のある3Dアセットはしばしば複雑で創造的であり、現実的ではない構造とスタイルを組み合わせています(Ske)。最近の2Dリフティング技術の研究によると、事前学習済みの2D生成モデルを使用して3D生成が可能です。一般的な表現には、DreamfusionやMagic3Dシステムなどがあります。これらは、2D拡散モデルを使用してNeRFなどの3D表現の改善のための教師信号として機能し、テキスト入力によって定義される仮説的で見たことのない状況を生成することができます。これらの2Dモデルは、大規模な2D画像データセットを使用して開発されており、優れた汎化性能を持ち、美的な3Dアセットを生成するための効果的なツールとなっています。

ただし、これらのモデルは単一の視点の教師信号しか提供することができず、生成されたアセットは多視点の一貫性の問題に影響を受けやすいです。これにより、生成は非常に不安定であり、製品には深刻なアーティファクトが頻繁に存在します。2Dリフティング手法には問題があります。スコア蒸留は、徹底的な多視点の知識や3Dの認識なしには困難です。これには次のような問題があります。(1) 多面体を持つジャヌス問題。システムは定期的にテキストプロンプトで表されるコンテンツを再生成します。(2) 異なる視点でコンテンツが交差します。Figure 1に例が示されています。多面体の問題にはいくつかの潜在的な原因があります。例えば、特定の角度では刃物のようなアイテムはほとんど検出できません。

図1は、3D生成の多視点の一貫性の問題に対する典型的な2Dリフティング手法を示しています。左側には「木で作ったハクトウワシ」が、2つの面を持っています。右側には「鶏とワッフルにメープルシロップをかけた皿のDSLR画像」があり、鶏肉が徐々にワッフルに変わります。

ただし、他の視点からは、キャラクターや動物の重要な側面が見えなくなるか、自己遮蔽されることがあります。2D拡散モデルは、人間ができるように、これらのことをいくつかの視点から評価することができるため、冗長で一貫性のない素材を提供する傾向があります。ByteDanceとUCSDの研究者は、これらの問題に対する解決策として、マルチビューの拡散モデルを提案しています。これにより、相互に一貫したマルチビューのコレクションが同時に生成されます。彼らは、マルチイメージ生成のための2Dイメージ拡散のアーキテクチャ設計を主に維持しています。これにより、以前に学習した2D拡散モデルの汎化性を引き継ぐことができます。彼らは、実際の3Dデータセットであるobverseからマルチビューの画像のコレクションを生成し、モデルのマルチビューの一貫性を保証します。

彼らは、モデルを実際の写真とマルチビューの画像の両方で同時にトレーニングすることで、モデルが高い一貫性と汎化性能を達成できることを発見しました。彼らはまた、これらのモデルを3D作成に適用するためにマルチビュースコア蒸留を使用しています。単一視点の2D拡散モデルとは異なり、彼らのモデルのマルチビューの教師信号ははるかに安定しています。彼らはまた、純粋な2D拡散モデルを使用して仮説的で見たことのない3Dコンテンツを生成することもできます。彼らは、DreamBoothとDreamBooth3Dから適応したマルチビュー拡散モデルを使用して、提供された写真のセットから識別データを抽出し、それを少数のショーファインチューニングに従って強いマルチビューの一貫性を示します。彼らのモデルであるMVDreamは、3D作成プロセスに組み込まれた場合、ジャヌスの問題を抱えずに3D Nerfモデルを効果的に構築します。それは他の先進的な技術で見つかる多様性を超えるパフォーマンスを発揮します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者...

AI研究

「ハギングフェイスの研究者たちは、Distil-Whisperを紹介しました:高性能でリソースが限られた環境におけるギャップを埋めるコンパクトな音声認識モデル」

ハギングフェイスの研究者たちは、リソース制約のある環境での大規模な事前学習済音声認識モデルの展開の問題に取り組んでき...

機械学習

鑑識分類器をだます:敵対的な顔生成における生成モデルの力

ディープラーニング(DL)の最近の進歩、特に生成的対抗ネットワーク(GAN)の領域では、存在しない高度にリアルかつ多様な人...

AI研究

NVIDIAの最高科学者、ビル・ダリー氏がHot Chipsで基調講演を行う

ビル・ダリー(NVIDIAの研究部門の責任者であり、世界有数のコンピュータ科学者の一人)は、Hot Chipsという年次のプロセッサ...

人工知能

オムニヴォアに出会おう:スタートアップが開発したアプリは、スマートフォンだけでオブジェクトを3Dモデルに変換することができます

編集者注:この投稿は、NVIDIA Omniverse(Universal Scene Description、OpenUSDとも呼ばれる)上に構築された開発プラット...

機械学習

アデプトAIはFuyu-8Bをオープンソース化しました:人工知能エージェントのためのマルチモーダルアーキテクチャ

人工知能において、テキストと視覚データのシームレスな融合は長い間複雑な課題でした。特に高効率なデジタルエージェントの...