新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

信憑性のある正確な全身運動生成手法、HMD-NeMoがMicrosoft AI研究で提案される

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス(HMD)に依存しており、通常はヘッドと手の6自由度(DOF)など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。

イギリスのマイクロソフト・ミックスド・リアリティ&AIラボの研究者は、画期的な手法であるHMD-NeMo(HMDニューラルモーションモデル)を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。

HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン(TAMT)を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。

この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ(MC)では、手はモーションコントローラで追跡され、ハンドトラッキング(HT)では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。

提案された手法は、SE(3)での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差(MPJPE)や平均関節速度誤差(MPJVE)などのメトリクスが使用されます。

モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。

割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。

結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」

ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデ...

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

AI研究

韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩

この論文では、以前のモデルのさまざまな側面を改善することにより、より自然な音声を合成する単一ステージのテキストから音...

AI研究

マイクロソフトリサーチがAIコンパイラの「ヘビーメタルカルテット」である「Rammer」「Roller」「Welder」「Grinder」をリリースしました

人工知能(AI)モデルとハードウェアアクセラレータの進化により、コンパイラには独自の課題が生じています。これらの課題は...

機械学習

「識別可能であるが可視性がない:プライバシー保護に配慮した人物再識別スキーム(論文要約)」

人物再識別(Person Re-ID)は、異なる場所や時間で監視カメラを使用して人々を識別するための高度なコンピュータビジョンの...

データサイエンス

なぜデータは「新しい石油」ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、クライブ・ハムビーによって2006年に造られ、それ以来広く引用されてきましたしか...