新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます
信憑性のある正確な全身運動生成手法、HMD-NeMoがMicrosoft AI研究で提案される
ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス(HMD)に依存しており、通常はヘッドと手の6自由度(DOF)など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。
イギリスのマイクロソフト・ミックスド・リアリティ&AIラボの研究者は、画期的な手法であるHMD-NeMo(HMDニューラルモーションモデル)を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。
HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン(TAMT)を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。
- ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました
- 「NVIDIA CUDA Quantumによる研究者の進歩が期待される」
- ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します
この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ(MC)では、手はモーションコントローラで追跡され、ハンドトラッキング(HT)では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。
提案された手法は、SE(3)での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差(MPJPE)や平均関節速度誤差(MPJVE)などのメトリクスが使用されます。
モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。
割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。
結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- MITの研究者たちは、SmartEMというAI技術を開発しましたこの技術は、リアルタイムの機械学習を画像処理にシームレスに統合することで、電子顕微鏡を次のレベルに進化させます
- 中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル
- このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します
- 「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクの速度とパフォーマンスを劇的に向上させることができる、2つの補完的な技術を開発しました」
- Google DeepMindの研究者たちは、人工汎用知能(AGI)モデルとそれらの前身の能力と行動を分類するためのフレームワークを提案しています
- ケンブリッジの研究者たちは、マシンラーニングを利用した仮想現実アプリケーションを開発し、ユーザーが仮想現実空間でツールを開いたり制御したりする「超人的な」能力を持つことができるようにしました
- UCバークレーとスタンフォードの研究者チームがS-LoRAを発表:多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム