新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用
Using the new AI method, StyleAvatar3D, to generate stylized 3D avatar images with a text diffusion model and GAN-based 3D generation network.
大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生成する上で非常に進歩を遂げています。これらのモデルにより、ユーザーはテキストの手がかりから現実的なビジュアルを作成することができ、手動の関与を排除することができます。しかし、2Dの対応物と比較して、3Dの生成モデルは多様性とアクセシビリティの点で重要な問題に直面しています。ソフトウェアエンジンでの3Dアセットの手作業による開発の難しさと高度な専門知識により、高品質な3Dモデルの入手が制限されています。
この問題に対処するため、研究者は最近、高品質な3Dモデルを生成するための事前学習された画像とテキストの生成方法を調査しています。これらのモデルには、アイテムのジオメトリと外観の詳細な事前知識が含まれており、現実的かつ多様な3Dモデルの作成を容易にすることができます。この研究では、テンセント、南洋理工大学、復旦大学、浙江大学の研究者が、既にトレーニングを終えたテキストから画像への拡散モデルを使用して、ユーザーがテキストプロンプトを通じてアバターのスタイルと顔の特徴を選択できる3Dスタイルのアバターを作成するためのユニークな方法を提案しています。彼らはEG3DというGANベースの3D生成ネットワークを使用しており、これにはいくつかの利点があります。
まず、EG3Dはトレーニングに3Dデータではなく校正写真を使用しているため、改善された画像データを使用して3Dモデルのバラエティとリアリティを持続的に向上させることができます。このことは2Dの写真に対しては非常に簡単です。また、彼らは各視点を独立して生成することができ、トレーニングに使用される画像は外観の多視点均一性を厳密に要求されないため、画像形成中のランダム性を効果的に制御することができます。彼らの手法では、StableDiffusionに基づくControlNetを使用して、予め決められた姿勢によって指示された画像生成を許可し、EG3Dのトレーニング用の校正済み2Dトレーニング画像を作成しています。
- 「OpenAIは、パーソナライズされたAIインタラクションのためのChatGPTのカスタムインストラクションを開始」
- 「CHARMに会ってください:手術中に脳がんのゲノムを解読し、リアルタイムの腫瘍プロファイリングを行う新しい人工知能AIツール」
- 「SwiggyがZomatoとBlinkitに続き、生成AIを統合する」
姿勢写真からカメラの特性を再利用することで、現在のエンジンのアバターから合成または取得することができます。しかし、正確な姿勢写真を使用していても、ControlNetは頭の後ろなどの大きな角度での視点を作成するのに苦労することがよくあります。これらの失敗した出力によって、完全な3Dモデルの生成が改善される必要があります。彼らはこの問題に対処するために、2つの異なるアプローチを採用しています。まず、画像生成中の失敗の発生を大幅に減らすために、さまざまな視点のためのビュー固有のプロンプトを作成しました。視点固有の手がかりを使用していても、合成された写真は姿勢写真と部分的に一致する場合があります。
この不一致を解消するために、彼らは3D GANトレーニングのための粗いから細かいポーズ認識器を作成しました。彼らのシステムの各画像データには粗い姿勢と細かい姿勢の注釈があります。GANトレーニング中にランダムにトレーニング注釈を選択します。正面の顔などの確信度の高い視点には、良いポーズの注釈を採用する可能性が高いですが、他の視点の学習は粗いアイデアによります。この方法により、入力写真に乱雑な注釈が含まれている場合でも、より正確かつ多様な3Dモデルを生成することができます。さらに、彼らはStyleGANの潜在的なスタイル空間における条件付き3D生成を可能にする潜在的な拡散モデルを作成しました。
スタイルコードの低次元、高い表現力、コンパクトさにより、拡散モデルは高速にトレーニングすることができます。彼らはトレーニング済みの3Dジェネレータから直接画像とスタイルコードのペアリングをサンプリングして拡散モデルを学習します。彼らは多数の大規模なデータセットで包括的なテストを実施し、提案された戦略の有効性を評価しました。その結果、彼らの手法は視覚的な品質と多様性の点で現代の最先端の技術を上回っていることがわかりました。結論として、この研究は訓練済みの画像とテキストの拡散モデルを使用して高品質な3Dアバターを生成するユニークな手法を紹介しています。
彼らのアーキテクチャは、スタイルや顔の特徴をテキストの手がかりによって決定することで、アバターの制作の柔軟性を大幅に向上させます。また、画像の位置の誤った配置の問題に対処するために、粗いから細かい姿勢認識器を提案しています。これにより、誤った姿勢注釈を持つ画像データをより良い方法で使用することができます。さらに、画像入力を使用して条件付きの3D生成を可能にする追加の条件付き生成モジュールも作成しました。
スタイル空間の潜在的な拡散モデルとしてのこのモジュールは、フレームワークの適応性をさらに高め、ユーザーが好みに合わせてカスタマイズされた3Dモデルを作成することができます。彼らはコードをオープンソース化する予定です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「私たちはLLMがツールを使うことを知っていますが、LLMが新しいツールを作ることもできることを知っていますか? LLMツールメーカー(LATM)としての出会い:LLMが自分自身の再利用可能なツールを作ることを可能にするクローズドループシステム」
- 類似検索、パート6:LSHフォレストによるランダム射影
- このAI論文では、「Retentive Networks(RetNet)」を大規模言語モデルの基礎アーキテクチャとして提案していますトレーニングの並列化、低コストの推論、そして良好なパフォーマンスを実現しています
- マルチディフュージョンによる画像生成のための統一されたAIフレームワーク、事前学習されたテキストから画像へのディフュージョンモデルを使用して、多目的かつ制御可能な画像生成を実現します
- 「機械学習モデルのバリデーション方法」
- メタの戦略的な優れた点:Llama 2は彼らの新しいソーシャルグラフかもしれません
- 「TableGPTという統合された微調整フレームワークにより、LLMが外部の機能コマンドを使用してテーブルを理解し、操作できるようになります」