新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用

Using the new AI method, StyleAvatar3D, to generate stylized 3D avatar images with a text diffusion model and GAN-based 3D generation network.

大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生成する上で非常に進歩を遂げています。これらのモデルにより、ユーザーはテキストの手がかりから現実的なビジュアルを作成することができ、手動の関与を排除することができます。しかし、2Dの対応物と比較して、3Dの生成モデルは多様性とアクセシビリティの点で重要な問題に直面しています。ソフトウェアエンジンでの3Dアセットの手作業による開発の難しさと高度な専門知識により、高品質な3Dモデルの入手が制限されています。

この問題に対処するため、研究者は最近、高品質な3Dモデルを生成するための事前学習された画像とテキストの生成方法を調査しています。これらのモデルには、アイテムのジオメトリと外観の詳細な事前知識が含まれており、現実的かつ多様な3Dモデルの作成を容易にすることができます。この研究では、テンセント、南洋理工大学、復旦大学、浙江大学の研究者が、既にトレーニングを終えたテキストから画像への拡散モデルを使用して、ユーザーがテキストプロンプトを通じてアバターのスタイルと顔の特徴を選択できる3Dスタイルのアバターを作成するためのユニークな方法を提案しています。彼らはEG3DというGANベースの3D生成ネットワークを使用しており、これにはいくつかの利点があります。

まず、EG3Dはトレーニングに3Dデータではなく校正写真を使用しているため、改善された画像データを使用して3Dモデルのバラエティとリアリティを持続的に向上させることができます。このことは2Dの写真に対しては非常に簡単です。また、彼らは各視点を独立して生成することができ、トレーニングに使用される画像は外観の多視点均一性を厳密に要求されないため、画像形成中のランダム性を効果的に制御することができます。彼らの手法では、StableDiffusionに基づくControlNetを使用して、予め決められた姿勢によって指示された画像生成を許可し、EG3Dのトレーニング用の校正済み2Dトレーニング画像を作成しています。

姿勢写真からカメラの特性を再利用することで、現在のエンジンのアバターから合成または取得することができます。しかし、正確な姿勢写真を使用していても、ControlNetは頭の後ろなどの大きな角度での視点を作成するのに苦労することがよくあります。これらの失敗した出力によって、完全な3Dモデルの生成が改善される必要があります。彼らはこの問題に対処するために、2つの異なるアプローチを採用しています。まず、画像生成中の失敗の発生を大幅に減らすために、さまざまな視点のためのビュー固有のプロンプトを作成しました。視点固有の手がかりを使用していても、合成された写真は姿勢写真と部分的に一致する場合があります。

この不一致を解消するために、彼らは3D GANトレーニングのための粗いから細かいポーズ認識器を作成しました。彼らのシステムの各画像データには粗い姿勢と細かい姿勢の注釈があります。GANトレーニング中にランダムにトレーニング注釈を選択します。正面の顔などの確信度の高い視点には、良いポーズの注釈を採用する可能性が高いですが、他の視点の学習は粗いアイデアによります。この方法により、入力写真に乱雑な注釈が含まれている場合でも、より正確かつ多様な3Dモデルを生成することができます。さらに、彼らはStyleGANの潜在的なスタイル空間における条件付き3D生成を可能にする潜在的な拡散モデルを作成しました。

スタイルコードの低次元、高い表現力、コンパクトさにより、拡散モデルは高速にトレーニングすることができます。彼らはトレーニング済みの3Dジェネレータから直接画像とスタイルコードのペアリングをサンプリングして拡散モデルを学習します。彼らは多数の大規模なデータセットで包括的なテストを実施し、提案された戦略の有効性を評価しました。その結果、彼らの手法は視覚的な品質と多様性の点で現代の最先端の技術を上回っていることがわかりました。結論として、この研究は訓練済みの画像とテキストの拡散モデルを使用して高品質な3Dアバターを生成するユニークな手法を紹介しています。

彼らのアーキテクチャは、スタイルや顔の特徴をテキストの手がかりによって決定することで、アバターの制作の柔軟性を大幅に向上させます。また、画像の位置の誤った配置の問題に対処するために、粗いから細かい姿勢認識器を提案しています。これにより、誤った姿勢注釈を持つ画像データをより良い方法で使用することができます。さらに、画像入力を使用して条件付きの3D生成を可能にする追加の条件付き生成モジュールも作成しました。

スタイル空間の潜在的な拡散モデルとしてのこのモジュールは、フレームワークの適応性をさらに高め、ユーザーが好みに合わせてカスタマイズされた3Dモデルを作成することができます。彼らはコードをオープンソース化する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

機械学習

一緒にAIを学ぶ- Towards AIコミュニティニュースレター#3

おはようございます、AI愛好家のみなさん!今週のポッドキャストエピソードをシェアできることをとても嬉しく思います今回は...

機械学習

「Java での AI:Spring Boot と LangChain を使用して ChatGPT のクローンを構築する」

「Spring Boot、LangChain、Hillaを使用してJavaでChatGPTのクローンを作成する方法を学びましょう同期チャットの補完と高度...

機械学習

CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コン...

AIニュース

「Azure OpenAIを使用した企業文書とのチャット」

大規模言語モデル(LLM)のようなChatGPTは、インターネット上の大量のテキストから訓練される際に、数十億のパラメータ内に...

AI研究

「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」

深層学習の最近の進展は、計算画像処理、顕微鏡、ホログラフィ関連の分野に大きな影響を与えています。これらの技術は、バイ...