新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用

Using the new AI method, StyleAvatar3D, to generate stylized 3D avatar images with a text diffusion model and GAN-based 3D generation network.

大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生成する上で非常に進歩を遂げています。これらのモデルにより、ユーザーはテキストの手がかりから現実的なビジュアルを作成することができ、手動の関与を排除することができます。しかし、2Dの対応物と比較して、3Dの生成モデルは多様性とアクセシビリティの点で重要な問題に直面しています。ソフトウェアエンジンでの3Dアセットの手作業による開発の難しさと高度な専門知識により、高品質な3Dモデルの入手が制限されています。

この問題に対処するため、研究者は最近、高品質な3Dモデルを生成するための事前学習された画像とテキストの生成方法を調査しています。これらのモデルには、アイテムのジオメトリと外観の詳細な事前知識が含まれており、現実的かつ多様な3Dモデルの作成を容易にすることができます。この研究では、テンセント、南洋理工大学、復旦大学、浙江大学の研究者が、既にトレーニングを終えたテキストから画像への拡散モデルを使用して、ユーザーがテキストプロンプトを通じてアバターのスタイルと顔の特徴を選択できる3Dスタイルのアバターを作成するためのユニークな方法を提案しています。彼らはEG3DというGANベースの3D生成ネットワークを使用しており、これにはいくつかの利点があります。

まず、EG3Dはトレーニングに3Dデータではなく校正写真を使用しているため、改善された画像データを使用して3Dモデルのバラエティとリアリティを持続的に向上させることができます。このことは2Dの写真に対しては非常に簡単です。また、彼らは各視点を独立して生成することができ、トレーニングに使用される画像は外観の多視点均一性を厳密に要求されないため、画像形成中のランダム性を効果的に制御することができます。彼らの手法では、StableDiffusionに基づくControlNetを使用して、予め決められた姿勢によって指示された画像生成を許可し、EG3Dのトレーニング用の校正済み2Dトレーニング画像を作成しています。

姿勢写真からカメラの特性を再利用することで、現在のエンジンのアバターから合成または取得することができます。しかし、正確な姿勢写真を使用していても、ControlNetは頭の後ろなどの大きな角度での視点を作成するのに苦労することがよくあります。これらの失敗した出力によって、完全な3Dモデルの生成が改善される必要があります。彼らはこの問題に対処するために、2つの異なるアプローチを採用しています。まず、画像生成中の失敗の発生を大幅に減らすために、さまざまな視点のためのビュー固有のプロンプトを作成しました。視点固有の手がかりを使用していても、合成された写真は姿勢写真と部分的に一致する場合があります。

この不一致を解消するために、彼らは3D GANトレーニングのための粗いから細かいポーズ認識器を作成しました。彼らのシステムの各画像データには粗い姿勢と細かい姿勢の注釈があります。GANトレーニング中にランダムにトレーニング注釈を選択します。正面の顔などの確信度の高い視点には、良いポーズの注釈を採用する可能性が高いですが、他の視点の学習は粗いアイデアによります。この方法により、入力写真に乱雑な注釈が含まれている場合でも、より正確かつ多様な3Dモデルを生成することができます。さらに、彼らはStyleGANの潜在的なスタイル空間における条件付き3D生成を可能にする潜在的な拡散モデルを作成しました。

スタイルコードの低次元、高い表現力、コンパクトさにより、拡散モデルは高速にトレーニングすることができます。彼らはトレーニング済みの3Dジェネレータから直接画像とスタイルコードのペアリングをサンプリングして拡散モデルを学習します。彼らは多数の大規模なデータセットで包括的なテストを実施し、提案された戦略の有効性を評価しました。その結果、彼らの手法は視覚的な品質と多様性の点で現代の最先端の技術を上回っていることがわかりました。結論として、この研究は訓練済みの画像とテキストの拡散モデルを使用して高品質な3Dアバターを生成するユニークな手法を紹介しています。

彼らのアーキテクチャは、スタイルや顔の特徴をテキストの手がかりによって決定することで、アバターの制作の柔軟性を大幅に向上させます。また、画像の位置の誤った配置の問題に対処するために、粗いから細かい姿勢認識器を提案しています。これにより、誤った姿勢注釈を持つ画像データをより良い方法で使用することができます。さらに、画像入力を使用して条件付きの3D生成を可能にする追加の条件付き生成モジュールも作成しました。

スタイル空間の潜在的な拡散モデルとしてのこのモジュールは、フレームワークの適応性をさらに高め、ユーザーが好みに合わせてカスタマイズされた3Dモデルを作成することができます。彼らはコードをオープンソース化する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「PyTorch ProfilerとTensorBoardを使用して、データ入力パイプラインのボトルネックを解消する」

「これは、GPUベースのPyTorchワークロードのパフォーマンス分析と最適化に関するシリーズ投稿の4番目の投稿ですこの投稿では...

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

AI研究

「SimCLRの最大の問題を修正する〜BYOL論文の解説」

SimCLRは対比学習のアイデアを成功裏に実装し、当時新たな最先端の性能を達成しました!それにもかかわらず、このアイデアに...

人工知能

「IntelのOpenVINOツールキットを使用したAI最適化と展開のマスタリング」

イントロダクション 人間の労働力を置き換えるAIの影響が増しているため、私たちはほぼ毎日AIについて話題にしています。AIを...

データサイエンス

このAI研究は、近くの電話によって記録されたキーストロークを聞くことで、95%の正確さでデータを盗むことができるディープラーニングモデルを紹介しています

ディープラーニングの進歩とマイクロフォンの普及に伴い、個人デバイスを通じたオンラインサービスの人気が高まる中、キーボ...

AI研究

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク...