「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

TADA Powerful AI method to convert spoken explanations into expressive 3D avatars.

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合する道が開かれました。その最良の例は、DeepSDF、NeRF、DMTETです。これらにより、テキストの説明のみから正確な3Dモデルを作成することが可能になりました。これらの進歩は人工知能コミュニティに大きな進歩をもたらしましたが、形状とテクスチャに関しては、生成されたオブジェクトやキャラクターは頻繁に現実的な3Dアバターを作り出すのに十分な品質を持っていません。また、これらのキャラクターは従来のコンピュータグラフィックスワークフローには適合していない場合もあります。

最近の研究では、研究チームがTADA(Text to Animatable Digital Avatars)を紹介しました。これは、口頭の説明を表現力豊かな3Dアバターに変換するためのシンプルで非常に強力な手法です。これらのアバターは従来のグラフィックス手法を使用してアニメーション化することができ、視覚的にも魅力的です。テキストからキャラクターを生成する既存の技術では、ジオメトリとテクスチャの品質に問題があります。これらの技術は、ジオメトリとテクスチャの不一致、特に顔の部分でリアルなアニメーション化に問題を抱えています。TADAは、2D拡散モデルとパラメトリックボディモデルの間に強力なシナジーを形成することによって、これらの問題に対処しています。

TADAの発明には、洗練されたアバター表現の作成が鍵となります。チームは、SMPL-Xボディモデルに変位レイヤーとテクスチャマップを追加して改善しました。その結果、SMPL-Xはより高解像度の形式で生成され、より細かいテクスチャと特徴を捉えることができます。詳細で包括的なアバターの特徴を実現するために、階層的なレンダリング方法とスコア蒸留サンプリング(SDS)が導入されました。

アバターのジオメトリとテクスチャを整合させるために、チームはSDSの最適化プロセス中に作成されたキャラクターのレンダリングされた法線とRGB画像の潜在的な埋め込みを使用しました。特に顔の領域で問題となっていた整列の問題を、整列戦略の実装により解決しました。また、最適化プロセス中にいくつかの表情を使用することで、キャラクターの表情と意味を一貫させる努力がなされました。この方法により、最終的なアバターは元のSMPL-Xモデルの意味的な統一性を保ち、リアルで有機的に整列したアニメーションが可能となります。

TADAは、スコア蒸留サンプリング(SDS)という技術を使用して実施されました。主な貢献は次のとおりです。-

  1. 階層的最適化によるハイブリッドメッシュ表現:特に顔において高品質の詳細を実現します。
  1. ジオメトリとテクスチャの一貫した整列:生成されたキャラクターを、事前定義されたSMPL-Xボディポーズと顔の表情を使用して変形する最適化プロセスにより、ジオメトリとテクスチャの整列を実現します。
  1. 意味的な一貫性とアニメーション:生成されたキャラクターがSMPL-Xと意味的に一貫性を保ち、簡単で正確なアニメーションが可能となります。

チームは、TADAの代替手法と比較してどれだけ優れているかを評価するために、定性的および定量的な評価を行いました。TADAの能力はアバターの製作にとどまらず、アニメーションとレンダリングの両方に適したデジタルキャラクターの大規模な構築を可能にします。また、ユーザーに大きなパワーとカスタマイズの機能を提供するテキストガイド付きの編集も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「生成AIの規制」

生成型の人工知能(AI)が注目を集める中、この技術を規制する必要性が高まっていますなぜなら、この技術は大規模な人口に対...

データサイエンス

「機械学習アルゴリズムとGAN」

「GANとさまざまな機械学習アルゴリズムについて詳しく学びましょう」(GANとさまざまなきかいがくしゅうアルゴリズムについて...

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...

機械学習

「検索増強生成によるAIの幻覚の軽減」

「この新しく考案された技術は、独自のデータをプロンプトに追加することで、LLM(Language Model)の知識を増やす可能性を示...

機械学習

PaLM AI | Googleの自家製生成AI

イントロダクション OpenAIによるGPT(Generative Pre-trained Transformers)モデル、特にChatGPTなどのような生成型AIモデ...

人工知能

AIがDevSecOpsを再構築する3つの方法

開発者は、これらの3つのAI駆動のDevSecOpsトレンドを使用して、組織のセキュリティポスチャを評価することができます