このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

このAI論文は、革新的なニューラルネットワークアーキテクチャーMVControlを紹介し、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を進化させます

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化(SDS)ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。

過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。

ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。

これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。

まとめると、以下が彼らの主な貢献です。

・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。

・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。

• 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。

• SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

PyTorchモデルのパフォーマンス分析と最適化—Part2

これは、GPU上で実行されるPyTorchモデルの分析と最適化に関する一連の投稿の第二部です最初の投稿では、プロセスとその重要...

データサイエンス

自分のドキュメントで春のAIとOpenAI GPTが有用になるようにRAGを作成する

「RAGを使用して、Spring AIとOpenAI GPTを活用してドキュメント検索のエクスペリエンスを向上させる方法を発見しましょう自...

人工知能

カートゥーンキャラクターの中間プロンプト

Midjourneyは、芸術的なスキルや背景がなくても、漫画キャラクターを作成するのに役立つ素晴らしいツールです

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...

データサイエンス

人工知能は人間を置き換えるのか?

はじめに 皆さんはご存知のとおり、AIは飛躍的な進歩を遂げ、科学者や一般の人々の想像をとらえています。ニュースやソーシャ...

AIニュース

「AnthropicがClaude 2を発表:コーディングを革新する次世代AIチャットプログラム」

人工知能スタートアップのAnthropicは、テックジャイアントのGoogleによるバックアップを受けて、人気のあるチャットプログラ...