ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです
X-Avatarは、ETHチューリッヒとマイクロソフトの研究者が提案したアニメーション可能な人間アバターモデルで、体の姿勢と顔の表情をキャプチャできます
ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対象となっています。非言語の信号を正確に記録し、解釈し、作成することは、テレプレゼンス、拡張現実(AR)、仮想現実(VR)の環境でのアバターのリアリズムを大幅に向上させる可能性があります。
SMPLファミリーなどの既存の最先端のアバターモデルは、現実的なポジションで異なる人間のボディ形状を正しく描写することができます。しかし、彼らは使用するメッシュベースの表現と3Dメッシュの品質によって制限されています。さらに、このようなモデルは通常、裸の身体のみをシミュレートし、衣服や髪を描写しないため、結果のリアリズムが低下します。
ETH ZurichとMicrosoftの研究者が開発した革新的なモデルであるX-Avatarを紹介します。このモデルは、デジタルアバターで人間の表現の完全な範囲を捉え、リアルなテレプレゼンス、拡張現実、仮想現実の環境を作成することができます。X-Avatarは、高精度な人体と手の動き、顔の感情、その他の外見の特徴を捉えることができる表現的な暗黙の人間アバターモデルです。この技術は、完全な3DスキャンまたはRGB-Dデータのいずれかから学習し、ボディ、手、顔の感情、外見の包括的なモデルを生成することができます。
- GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント
- DeepMindからの新しいAI研究では、有向グラフに対して二つの方向と構造に敏感な位置符号化を提案しています
- 新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)
研究者は、SMPL-Xパラメータ空間を制御するパート認識学習前方スキニングモジュールを提案し、X-Avatarの表現的なアニメーションを可能にしています。研究者は、パート認識サンプリングと初期化アルゴリズムを提案し、形状と変形フィールドを効果的にトレーニングします。研究者は、位置、顔の表情、形状、変形した表面の法線によって条件付けられたテクスチャネットワークでジオメトリと変形フィールドを拡張し、高周波数の詳細を持つアバターの外観を捉えます。これにより、特により小さな体の部分において改善された忠実度の結果が得られます。研究者は、データ領域の両方で強力なベースラインと比較したときに、アニメーションタスクでアプローチが優れた定量的および定性的結果を達成することを経験的に示しています。
研究者は、将来の表現的なアバターに関する研究を支援するために、20人の被験者から233の高品質なテクスチャ付きスキャンのシーケンスを含む新しいデータセット「X-Humans」を提案します。X-Avatarは、衣服を着た個人の多様なトポロジーに対応する関節ニューラル暗黙の表面で特徴付けられる人間モデルを提案しています。同時に、ユニークなパート認識の初期化方法により、より小さな体の部分のサンプル率を上げることで、結果のリアリズムを大幅に向上させています。
結果は、X-Avatarが人間の体のポーズ、手のポーズ、顔の表情、外見を正確に記録し、より表現豊かでリアルなアバターを作成することができることを示しています。このイニシアチブの背後にあるグループは、彼らの手法がより多くの研究にAIにより多くの個性を与えることを期待しています。
利用されたデータセット
高品質のテクスチャ付きスキャンとSMPL[-X]登録;20人の被験者;233のシーケンス;35,427のフレーム;ボディ位置+手のジェスチャー+顔の表情;幅広いアパレルとヘアスタイルのオプション;幅広い年齢層
特徴
- X-Avatarsを教えるためのいくつかの方法が存在します。
- トレーニングに使用された3Dスキャンの画像、右上。下部:テストポーズ駆動のアバター。
- 教育目的のためのRGB-D情報、上部。ポーズテストのアバターは低いレベルで動作します。
- このアプローチは、モノクルRGB映画から回復した動きを使用してPyMAF-Xによって回復した手の関節と顔の表情を他のベースラインよりも正確に回復します。これにより、アニメーション化されたX-Avatarsが可能になります。
制約事項
X-Avatarは、オフショルダートップやパンツ(例:スカート)のモデリングに難があります。しかし、研究者は通常、1人の被験者に対して1つのモデルのみを訓練するため、単一の個人を超えて一般化する能力はまだ拡大する必要があります。
貢献
- X-Avatarは、ボディポーズ、手のポーズ、表情、外見を包括的に捉える最初の表現的な暗黙の人間アバターモデルです。
- 基礎となる構造を考慮した初期化とサンプリング手法は、出力品質を向上させ、訓練効率を維持します。
- X-Humansは、20人の人々の高品質なテクスチャスキャンの233シーケンス、合計35,500フレームで構成される全く新しいデータセットであり、様々なボディや手の動き、表情を表示しています。
X-Avatarは、ボディの姿勢、手のポーズ、表情、全体的な外見を捉える際には無類です。最近リリースされたX-Humansデータセットを使用して、研究者はこの手法の優位性を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「UTオースティン大学の研究者が、安定した拡散を用いたAI手法「PSLD」を紹介追加のトレーニングなしにすべての線形問題を解決する」
- UCバークレーの研究者たちは、FastRLAPを提案していますこれは、深層強化学習(Deep RL)と自律練習を通じて高速運転を学ぶためのシステムです
- マサチューセッツ州ローウェル大学の研究者たちは、高ランクのトレーニングに低ランクの更新を使用する新しいAIメソッドであるReLoRAを提案しています
- オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます
- コロンビア大学とDeepMindの研究者が、GPATというトランスフォーマーベースのモデルアーキテクチャを紹介しましたこのモデルは、各パーツの形状が目標の形状にどのように対応しているかを推測し、パーツのポーズを正確に予測します
- 大規模な生体分子動力学のためのディープラーニング:ハーバード大学の研究では、さまざまなシステム上で大規模で事前に学習されたアレグロモデルをスケーリングしています
- 「大規模言語モデルは本当にそのすべての層が必要なのか? このAI研究がモデルの効率を明らかにする:大規模言語モデルにおける必須コンポーネントの追求」