新しいAIメソッド、StyleAvatar3Dによるスタイル化された3Dアバターの生成画像テキスト拡散モデルとGANベースの3D生成ネットワークを使用

Using the new AI method, StyleAvatar3D, to generate stylized 3D avatar images with a text diffusion model and GAN-based 3D generation network.

大規模な画像とテキストのペアリング、拡散モデルなどの洗練された生成モデルの進化により、生成モデルは高品質な2D画像を生成する上で非常に進歩を遂げています。これらのモデルにより、ユーザーはテキストの手がかりから現実的なビジュアルを作成することができ、手動の関与を排除することができます。しかし、2Dの対応物と比較して、3Dの生成モデルは多様性とアクセシビリティの点で重要な問題に直面しています。ソフトウェアエンジンでの3Dアセットの手作業による開発の難しさと高度な専門知識により、高品質な3Dモデルの入手が制限されています。

この問題に対処するため、研究者は最近、高品質な3Dモデルを生成するための事前学習された画像とテキストの生成方法を調査しています。これらのモデルには、アイテムのジオメトリと外観の詳細な事前知識が含まれており、現実的かつ多様な3Dモデルの作成を容易にすることができます。この研究では、テンセント、南洋理工大学、復旦大学、浙江大学の研究者が、既にトレーニングを終えたテキストから画像への拡散モデルを使用して、ユーザーがテキストプロンプトを通じてアバターのスタイルと顔の特徴を選択できる3Dスタイルのアバターを作成するためのユニークな方法を提案しています。彼らはEG3DというGANベースの3D生成ネットワークを使用しており、これにはいくつかの利点があります。

まず、EG3Dはトレーニングに3Dデータではなく校正写真を使用しているため、改善された画像データを使用して3Dモデルのバラエティとリアリティを持続的に向上させることができます。このことは2Dの写真に対しては非常に簡単です。また、彼らは各視点を独立して生成することができ、トレーニングに使用される画像は外観の多視点均一性を厳密に要求されないため、画像形成中のランダム性を効果的に制御することができます。彼らの手法では、StableDiffusionに基づくControlNetを使用して、予め決められた姿勢によって指示された画像生成を許可し、EG3Dのトレーニング用の校正済み2Dトレーニング画像を作成しています。

姿勢写真からカメラの特性を再利用することで、現在のエンジンのアバターから合成または取得することができます。しかし、正確な姿勢写真を使用していても、ControlNetは頭の後ろなどの大きな角度での視点を作成するのに苦労することがよくあります。これらの失敗した出力によって、完全な3Dモデルの生成が改善される必要があります。彼らはこの問題に対処するために、2つの異なるアプローチを採用しています。まず、画像生成中の失敗の発生を大幅に減らすために、さまざまな視点のためのビュー固有のプロンプトを作成しました。視点固有の手がかりを使用していても、合成された写真は姿勢写真と部分的に一致する場合があります。

この不一致を解消するために、彼らは3D GANトレーニングのための粗いから細かいポーズ認識器を作成しました。彼らのシステムの各画像データには粗い姿勢と細かい姿勢の注釈があります。GANトレーニング中にランダムにトレーニング注釈を選択します。正面の顔などの確信度の高い視点には、良いポーズの注釈を採用する可能性が高いですが、他の視点の学習は粗いアイデアによります。この方法により、入力写真に乱雑な注釈が含まれている場合でも、より正確かつ多様な3Dモデルを生成することができます。さらに、彼らはStyleGANの潜在的なスタイル空間における条件付き3D生成を可能にする潜在的な拡散モデルを作成しました。

スタイルコードの低次元、高い表現力、コンパクトさにより、拡散モデルは高速にトレーニングすることができます。彼らはトレーニング済みの3Dジェネレータから直接画像とスタイルコードのペアリングをサンプリングして拡散モデルを学習します。彼らは多数の大規模なデータセットで包括的なテストを実施し、提案された戦略の有効性を評価しました。その結果、彼らの手法は視覚的な品質と多様性の点で現代の最先端の技術を上回っていることがわかりました。結論として、この研究は訓練済みの画像とテキストの拡散モデルを使用して高品質な3Dアバターを生成するユニークな手法を紹介しています。

彼らのアーキテクチャは、スタイルや顔の特徴をテキストの手がかりによって決定することで、アバターの制作の柔軟性を大幅に向上させます。また、画像の位置の誤った配置の問題に対処するために、粗いから細かい姿勢認識器を提案しています。これにより、誤った姿勢注釈を持つ画像データをより良い方法で使用することができます。さらに、画像入力を使用して条件付きの3D生成を可能にする追加の条件付き生成モジュールも作成しました。

スタイル空間の潜在的な拡散モデルとしてのこのモジュールは、フレームワークの適応性をさらに高め、ユーザーが好みに合わせてカスタマイズされた3Dモデルを作成することができます。彼らはコードをオープンソース化する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

機械学習

ウェイト、バイアス、ロスのアンボクシング:ディープラーニングに集中する

ディープラーニングは、大量のデータを自動的に利用して、コンピュータが人間と同様に学ぶために層状のニューラルネットワー...

人工知能

ネットワークの強化:異常検知におけるML、AI、およびDLの力を解き放つ

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

AIニュース

「4つのテック巨人 - OpenAI、Google、Microsoft、Anthropicが安全なAIのために結集」

人工知能の世界で最も有名な4社が、先進的なAIモデルの責任ある開発を確保するための強力な業界団体の設立を目指し、連携する...