「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

TADA Powerful AI method to convert spoken explanations into expressive 3D avatars.

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合する道が開かれました。その最良の例は、DeepSDF、NeRF、DMTETです。これらにより、テキストの説明のみから正確な3Dモデルを作成することが可能になりました。これらの進歩は人工知能コミュニティに大きな進歩をもたらしましたが、形状とテクスチャに関しては、生成されたオブジェクトやキャラクターは頻繁に現実的な3Dアバターを作り出すのに十分な品質を持っていません。また、これらのキャラクターは従来のコンピュータグラフィックスワークフローには適合していない場合もあります。

最近の研究では、研究チームがTADA(Text to Animatable Digital Avatars)を紹介しました。これは、口頭の説明を表現力豊かな3Dアバターに変換するためのシンプルで非常に強力な手法です。これらのアバターは従来のグラフィックス手法を使用してアニメーション化することができ、視覚的にも魅力的です。テキストからキャラクターを生成する既存の技術では、ジオメトリとテクスチャの品質に問題があります。これらの技術は、ジオメトリとテクスチャの不一致、特に顔の部分でリアルなアニメーション化に問題を抱えています。TADAは、2D拡散モデルとパラメトリックボディモデルの間に強力なシナジーを形成することによって、これらの問題に対処しています。

TADAの発明には、洗練されたアバター表現の作成が鍵となります。チームは、SMPL-Xボディモデルに変位レイヤーとテクスチャマップを追加して改善しました。その結果、SMPL-Xはより高解像度の形式で生成され、より細かいテクスチャと特徴を捉えることができます。詳細で包括的なアバターの特徴を実現するために、階層的なレンダリング方法とスコア蒸留サンプリング(SDS)が導入されました。

アバターのジオメトリとテクスチャを整合させるために、チームはSDSの最適化プロセス中に作成されたキャラクターのレンダリングされた法線とRGB画像の潜在的な埋め込みを使用しました。特に顔の領域で問題となっていた整列の問題を、整列戦略の実装により解決しました。また、最適化プロセス中にいくつかの表情を使用することで、キャラクターの表情と意味を一貫させる努力がなされました。この方法により、最終的なアバターは元のSMPL-Xモデルの意味的な統一性を保ち、リアルで有機的に整列したアニメーションが可能となります。

TADAは、スコア蒸留サンプリング(SDS)という技術を使用して実施されました。主な貢献は次のとおりです。-

  1. 階層的最適化によるハイブリッドメッシュ表現:特に顔において高品質の詳細を実現します。
  1. ジオメトリとテクスチャの一貫した整列:生成されたキャラクターを、事前定義されたSMPL-Xボディポーズと顔の表情を使用して変形する最適化プロセスにより、ジオメトリとテクスチャの整列を実現します。
  1. 意味的な一貫性とアニメーション:生成されたキャラクターがSMPL-Xと意味的に一貫性を保ち、簡単で正確なアニメーションが可能となります。

チームは、TADAの代替手法と比較してどれだけ優れているかを評価するために、定性的および定量的な評価を行いました。TADAの能力はアバターの製作にとどまらず、アニメーションとレンダリングの両方に適したデジタルキャラクターの大規模な構築を可能にします。また、ユーザーに大きなパワーとカスタマイズの機能を提供するテキストガイド付きの編集も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「予算の制約を持つ学生や起業家のための7つの最高の無料AIツール」

「無料で利用できる最高の7つのAIツールを一つ一つ選びました何もありません何もない」

人工知能

「ChatGPTの使い方:高度なプロンプトエンジニアリングの方法」

「ChatGPTからより良い結果を得たい場合は、より良いChatGPTプロンプトの書き方を学ぶ必要があります以下には7つの実行可能な...

機械学習

より強力な言語モデルが本当に必要なのでしょうか?

大規模な言語モデルはますます人気が高まっていますしかし、それらの開発には特定の課題にも直面することになりますGPTモデル...

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...

AI研究

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域...

機械学習

TaatikNet(ターティクネット):ヘブライ語の翻字のためのシーケンス・トゥ・シーケンス学習

この記事では、TaatikNetとseq2seqモデルの簡単な実装方法について説明していますコードとドキュメントについては、TaatikNet...