ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

X-Avatarは、ETHチューリッヒとマイクロソフトの研究者が提案したアニメーション可能な人間アバターモデルで、体の姿勢と顔の表情をキャプチャできます

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対象となっています。非言語の信号を正確に記録し、解釈し、作成することは、テレプレゼンス、拡張現実(AR)、仮想現実(VR)の環境でのアバターのリアリズムを大幅に向上させる可能性があります。

SMPLファミリーなどの既存の最先端のアバターモデルは、現実的なポジションで異なる人間のボディ形状を正しく描写することができます。しかし、彼らは使用するメッシュベースの表現と3Dメッシュの品質によって制限されています。さらに、このようなモデルは通常、裸の身体のみをシミュレートし、衣服や髪を描写しないため、結果のリアリズムが低下します。

ETH ZurichとMicrosoftの研究者が開発した革新的なモデルであるX-Avatarを紹介します。このモデルは、デジタルアバターで人間の表現の完全な範囲を捉え、リアルなテレプレゼンス、拡張現実、仮想現実の環境を作成することができます。X-Avatarは、高精度な人体と手の動き、顔の感情、その他の外見の特徴を捉えることができる表現的な暗黙の人間アバターモデルです。この技術は、完全な3DスキャンまたはRGB-Dデータのいずれかから学習し、ボディ、手、顔の感情、外見の包括的なモデルを生成することができます。

研究者は、SMPL-Xパラメータ空間を制御するパート認識学習前方スキニングモジュールを提案し、X-Avatarの表現的なアニメーションを可能にしています。研究者は、パート認識サンプリングと初期化アルゴリズムを提案し、形状と変形フィールドを効果的にトレーニングします。研究者は、位置、顔の表情、形状、変形した表面の法線によって条件付けられたテクスチャネットワークでジオメトリと変形フィールドを拡張し、高周波数の詳細を持つアバターの外観を捉えます。これにより、特により小さな体の部分において改善された忠実度の結果が得られます。研究者は、データ領域の両方で強力なベースラインと比較したときに、アニメーションタスクでアプローチが優れた定量的および定性的結果を達成することを経験的に示しています。

研究者は、将来の表現的なアバターに関する研究を支援するために、20人の被験者から233の高品質なテクスチャ付きスキャンのシーケンスを含む新しいデータセット「X-Humans」を提案します。X-Avatarは、衣服を着た個人の多様なトポロジーに対応する関節ニューラル暗黙の表面で特徴付けられる人間モデルを提案しています。同時に、ユニークなパート認識の初期化方法により、より小さな体の部分のサンプル率を上げることで、結果のリアリズムを大幅に向上させています。

結果は、X-Avatarが人間の体のポーズ、手のポーズ、顔の表情、外見を正確に記録し、より表現豊かでリアルなアバターを作成することができることを示しています。このイニシアチブの背後にあるグループは、彼らの手法がより多くの研究にAIにより多くの個性を与えることを期待しています。

利用されたデータセット

高品質のテクスチャ付きスキャンとSMPL[-X]登録;20人の被験者;233のシーケンス;35,427のフレーム;ボディ位置+手のジェスチャー+顔の表情;幅広いアパレルとヘアスタイルのオプション;幅広い年齢層

特徴

  • X-Avatarsを教えるためのいくつかの方法が存在します。
  • トレーニングに使用された3Dスキャンの画像、右上。下部:テストポーズ駆動のアバター。
  • 教育目的のためのRGB-D情報、上部。ポーズテストのアバターは低いレベルで動作します。
  • このアプローチは、モノクルRGB映画から回復した動きを使用してPyMAF-Xによって回復した手の関節と顔の表情を他のベースラインよりも正確に回復します。これにより、アニメーション化されたX-Avatarsが可能になります。

制約事項

X-Avatarは、オフショルダートップやパンツ(例:スカート)のモデリングに難があります。しかし、研究者は通常、1人の被験者に対して1つのモデルのみを訓練するため、単一の個人を超えて一般化する能力はまだ拡大する必要があります。

貢献

  • X-Avatarは、ボディポーズ、手のポーズ、表情、外見を包括的に捉える最初の表現的な暗黙の人間アバターモデルです。
  • 基礎となる構造を考慮した初期化とサンプリング手法は、出力品質を向上させ、訓練効率を維持します。
  • X-Humansは、20人の人々の高品質なテクスチャスキャンの233シーケンス、合計35,500フレームで構成される全く新しいデータセットであり、様々なボディや手の動き、表情を表示しています。

X-Avatarは、ボディの姿勢、手のポーズ、表情、全体的な外見を捉える際には無類です。最近リリースされたX-Humansデータセットを使用して、研究者はこの手法の優位性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

人工知能

信頼性のある世代をチェーンオブバーニケーションを通じて解放する 迅速なエンジニアリングの飛躍

大規模言語モデルにおける幻覚を減らすための重要な手段である「Chain-of-Verification Prompt Engineering(検証チェーン・プ...

データサイエンス

「バリー・ディラー対生成AI:著作権法的な戦い」

メディアの大物であるバリー・ディラー氏と一部の著名な出版社は、人工知能(AI)システムのトレーニングで公開された作品の...

機械学習

「SEINEをご紹介します:シーン間のスムーズでクリエイティブなトランジションがある高品質な拡張ビデオのためのショートトゥロングビデオ拡散モデル」

テキストから画像を生成する拡散モデルの成功を受けて、ビデオ生成技術が急速に発展し、この領域での興味深い応用が見られる...

機械学習

「TikTokがAI生成コンテンツのためのAIラベリングツールを導入」

近年、AIによって生成されたコンテンツの爆発的な増加により、創造的な表現の新たな領域が開かれました。しかしこの合成メデ...

機械学習

「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」

「大規模言語モデル」の深層学習は、入力に基づいて自然言語のコンテンツを予測するために開発されました。これらのモデルの...

データサイエンス

「RAGを紹介します データソースから自然言語を使用してRAGパイプラインを作成するStreamlitアプリ」

GPTはNLPタスクにおいて人工知能の分野で際立っています。ただし、GPTを使用して構築および展開されるパイプラインは長く複雑...