ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

X-Avatarは、ETHチューリッヒとマイクロソフトの研究者が提案したアニメーション可能な人間アバターモデルで、体の姿勢と顔の表情をキャプチャできます

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対象となっています。非言語の信号を正確に記録し、解釈し、作成することは、テレプレゼンス、拡張現実（AR）、仮想現実（VR）の環境でのアバターのリアリズムを大幅に向上させる可能性があります。

SMPLファミリーなどの既存の最先端のアバターモデルは、現実的なポジションで異なる人間のボディ形状を正しく描写することができます。しかし、彼らは使用するメッシュベースの表現と3Dメッシュの品質によって制限されています。さらに、このようなモデルは通常、裸の身体のみをシミュレートし、衣服や髪を描写しないため、結果のリアリズムが低下します。

ETH ZurichとMicrosoftの研究者が開発した革新的なモデルであるX-Avatarを紹介します。このモデルは、デジタルアバターで人間の表現の完全な範囲を捉え、リアルなテレプレゼンス、拡張現実、仮想現実の環境を作成することができます。X-Avatarは、高精度な人体と手の動き、顔の感情、その他の外見の特徴を捉えることができる表現的な暗黙の人間アバターモデルです。この技術は、完全な3DスキャンまたはRGB-Dデータのいずれかから学習し、ボディ、手、顔の感情、外見の包括的なモデルを生成することができます。

研究者は、SMPL-Xパラメータ空間を制御するパート認識学習前方スキニングモジュールを提案し、X-Avatarの表現的なアニメーションを可能にしています。研究者は、パート認識サンプリングと初期化アルゴリズムを提案し、形状と変形フィールドを効果的にトレーニングします。研究者は、位置、顔の表情、形状、変形した表面の法線によって条件付けられたテクスチャネットワークでジオメトリと変形フィールドを拡張し、高周波数の詳細を持つアバターの外観を捉えます。これにより、特により小さな体の部分において改善された忠実度の結果が得られます。研究者は、データ領域の両方で強力なベースラインと比較したときに、アニメーションタスクでアプローチが優れた定量的および定性的結果を達成することを経験的に示しています。

研究者は、将来の表現的なアバターに関する研究を支援するために、20人の被験者から233の高品質なテクスチャ付きスキャンのシーケンスを含む新しいデータセット「X-Humans」を提案します。X-Avatarは、衣服を着た個人の多様なトポロジーに対応する関節ニューラル暗黙の表面で特徴付けられる人間モデルを提案しています。同時に、ユニークなパート認識の初期化方法により、より小さな体の部分のサンプル率を上げることで、結果のリアリズムを大幅に向上させています。

結果は、X-Avatarが人間の体のポーズ、手のポーズ、顔の表情、外見を正確に記録し、より表現豊かでリアルなアバターを作成することができることを示しています。このイニシアチブの背後にあるグループは、彼らの手法がより多くの研究にAIにより多くの個性を与えることを期待しています。

利用されたデータセット

高品質のテクスチャ付きスキャンとSMPL[-X]登録；20人の被験者；233のシーケンス；35,427のフレーム；ボディ位置+手のジェスチャー+顔の表情；幅広いアパレルとヘアスタイルのオプション；幅広い年齢層

特徴

X-Avatarsを教えるためのいくつかの方法が存在します。
トレーニングに使用された3Dスキャンの画像、右上。下部：テストポーズ駆動のアバター。
教育目的のためのRGB-D情報、上部。ポーズテストのアバターは低いレベルで動作します。
このアプローチは、モノクルRGB映画から回復した動きを使用してPyMAF-Xによって回復した手の関節と顔の表情を他のベースラインよりも正確に回復します。これにより、アニメーション化されたX-Avatarsが可能になります。

制約事項

X-Avatarは、オフショルダートップやパンツ（例：スカート）のモデリングに難があります。しかし、研究者は通常、1人の被験者に対して1つのモデルのみを訓練するため、単一の個人を超えて一般化する能力はまだ拡大する必要があります。

貢献

X-Avatarは、ボディポーズ、手のポーズ、表情、外見を包括的に捉える最初の表現的な暗黙の人間アバターモデルです。
基礎となる構造を考慮した初期化とサンプリング手法は、出力品質を向上させ、訓練効率を維持します。
X-Humansは、20人の人々の高品質なテクスチャスキャンの233シーケンス、合計35,500フレームで構成される全く新しいデータセットであり、様々なボディや手の動き、表情を表示しています。

X-Avatarは、ボディの姿勢、手のポーズ、表情、全体的な外見を捉える際には無類です。最近リリースされたX-Humansデータセットを使用して、研究者はこの手法の優位性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionDeep learningEditors PickLanguage modelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

Was this article helpful?

GoogleがNotebookLMを導入：あなた専用の仮想研究アシスタント

ジェネレーティブAIツールを使用する際にプライバシーを保護するための6つの手順

AI研究

RAGアプリケーションデザインにおける実用的な考慮事項

ソースフリーのドメイン適応における壁の破壊：バイオアコースティクスとビジョン領域へのNOTELAの影響

研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました

あなたのビジネスに適応型AIを実装する方法

「50以上の最新AIツール（2023年8月）」

「AIとの親交を深める」