新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

信憑性のある正確な全身運動生成手法、HMD-NeMoがMicrosoft AI研究で提案される

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス(HMD)に依存しており、通常はヘッドと手の6自由度(DOF)など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。

イギリスのマイクロソフト・ミックスド・リアリティ&AIラボの研究者は、画期的な手法であるHMD-NeMo(HMDニューラルモーションモデル)を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。

HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン(TAMT)を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。

この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ(MC)では、手はモーションコントローラで追跡され、ハンドトラッキング(HT)では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。

提案された手法は、SE(3)での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差(MPJPE)や平均関節速度誤差(MPJVE)などのメトリクスが使用されます。

モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。

割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。

結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

テキスト生成の新時代:RAG、LangChain、およびベクトルデータベース

はじめに 革新的な技術によって、自然言語処理の急速に変化するランドスケープの中で、機械が人間の言語を理解し生成する方法...

AIニュース

SSDを使用したリアルタイム物体検出:シングルショットマルチボックス検出器

イントロダクション リアルタイムオブジェクト検出では、従来のパラダイムは通常、バウンディングボックスの提案、ピクセルま...

AIニュース

「GPT-4とXGBoost 2.0の詳細な情報:AIの新たなフロンティア」

イントロダクション AIは、GPT-4などのLLMの出現により、人間の言語の理解と生成を革新し、大きな変化を経験しています。同時...

機械学習

ジャクソン・ジュエットは、より少ないコンクリートを使用する建物の設計をしたいと考えています

「博士課程の学生は、少ない材料で大規模な構造物を設計するためのアルゴリズムを磨いていますこれにより、建設業界の巨大な...

機械学習

Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出...

機械学習

『Photoshopを越えて:Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像...