このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています
このAI論文は、革新的なニューラルネットワークアーキテクチャーMVControlを紹介し、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を進化させます
最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化(SDS)ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。
過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。
ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。
- 「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」
- 「ハグフェース上のトップ10大きな言語モデル」
- メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました
これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。
まとめると、以下が彼らの主な貢献です。
・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。
・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。
• 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。
• SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- NexusRaven-V2をご紹介します:13B LLMは、ゼロショット機能呼び出しでGPT-4を凌駕し、ナチュラルランゲージの指示を実行可能なコードに変換する能力を持っています
- 機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索
- 機械学習信頼性の向上:異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法
- メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます
- 「機械学習における確率的要素の本質を明らかにする」
- 2024年のインフラストラクチャー予測
- 「シュレディンガー・ブリッジはテキスト・トゥ・スピーチ(TTS)合成において拡散モデルに勝るものになっていますか?」