新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

信憑性のある正確な全身運動生成手法、HMD-NeMoがMicrosoft AI研究で提案される

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス(HMD)に依存しており、通常はヘッドと手の6自由度(DOF)など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。

イギリスのマイクロソフト・ミックスド・リアリティ&AIラボの研究者は、画期的な手法であるHMD-NeMo(HMDニューラルモーションモデル)を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。

HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン(TAMT)を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。

この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ(MC)では、手はモーションコントローラで追跡され、ハンドトラッキング(HT)では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。

提案された手法は、SE(3)での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差(MPJPE)や平均関節速度誤差(MPJVE)などのメトリクスが使用されます。

モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。

割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。

結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェン...

人工知能

「生成AIゴールドラッシュで誰がお金を稼ぐのか?」

「創発型AIのゴールドラッシュに備えよ!ビッグテックはピックとシャベルで支配するのか?どのスタートアップが成功するのか...

AIニュース

「AIがインターネットを食べた年」

2023年を私たちがロボットとコミュニケーションを取り、創造し、ごまかし、協力する年と呼ぶことにしましょう

機械学習

「DeepSeek:中国最新の言語モデルの支配」

In a recent development, the DeepSeek LLM has emerged as a formidable force in the realm of language models, boasting...

機械学習

「脱拡散を用いたLLMsにおける強力なクロスモーダルインターフェースのための情報豊富なテキストの生成」

世界的な現象であるLLM(Large Language Model)製品の例として、ChatGPTの広範な採用が注目されています。LLMは自然言語会話...

AI研究

ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています

ソウル国立大学の研究者は、ロボット工学における効率的かつ適応性のあるロボットの制御という基本的な課題に取り組んでいま...