このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

このAI論文は、革新的なニューラルネットワークアーキテクチャーMVControlを紹介し、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を進化させます

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化(SDS)ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。

過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。

ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。

これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。

まとめると、以下が彼らの主な貢献です。

・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。

・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。

• 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。

• SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIによって設計されたカードゲーム、I/O FLIPをプレイしましょう

Google I/O 2023に間に合うように、生成AIで構築されたオンラインカードゲームI/O FLIPをお試しください

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...

データサイエンス

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか

パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから...

データサイエンス

埋め込みの類似検索:データ分析の画期的な変革

オラクルは、意味に基づいて文書を取り込み、保存し、取り出すための生成的AI機能を、クラウドデータ分析サービスに追加しました

AIテクノロジー

プロンプトからテキストを生成するためのモデルの作成

導入 急速に進化するGenerative AIの風景において、新たな時代が訪れました。この変革的なシフトにより、AIアプリケーション...