「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」

「CMUとマックス・プランク研究所の研究者が画期的なAI手法「WHAM」を発表:ビデオから正確かつ効率的に3D人間動作を推定」

3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動いている実世界の環境でキャプチャされたビデオは、足の滑りなどの問題がしばしば含まれており、この作業はさらに困難になります。しかし、カーネギーメロン大学とマックスプランクインテリジェントシステム研究所の研究者チームは、WHAM(World-grounded Humans with Accurate Motion)という手法を開発し、これらの課題に対応し、正確な3Dヒューマンモーション再構築を実現しました。

この研究では、画像から3Dヒューマンポーズと形状を回復するための2つの手法、モデルフリーとモデルベースのアプローチを見直しています。統計的なボディモデルのパラメータを推定するために、モデルベースの手法でディープラーニング技術の使用を強調しています。既存のビデオベースの3D HPS手法では、さまざまなニューラルネットワークアーキテクチャを介して時間的な情報を組み込んでいます。一部の方法では、慣性センサーなどの追加のセンサーを使用していますが、これらは侵入的な場合があります。WHAMは、3Dヒューマンモーションとビデオコンテキストを効果的に組み合わせ、事前知識を活用し、グローバル座標系で正確な3D人間活動の再構築を実現することで注目されています。

この研究では、単眼ビデオから3Dヒューマンポーズと形状を精度良く推定する際の課題に取り組み、グローバル座標の一貫性、計算効率、現実的な足-地面接触を強調しています。WHAMは、2Dキーポイントを3Dポーズに変換するためのモーションエンコーダ-デコーダネットワーク、時間的な手がかりのための特徴結合器、および足接触を考慮したグローバルモーション推定のための軌跡リファインメントネットワークを組み合わせて、AMASSモーションキャプチャとビデオデータセットを活用しています。これにより、非平面表面における精度が向上し、足の滑りが最小限に抑えられます。

WHAMはオンライン推論と正確な3Dモーション再構築のために単方向RNNを使用し、コンテキスト抽出のためのモーションエンコーダとSMPLパラメータ、カメラの移動、足-地面接触確率のためのモーションデコーダを備えています。モーションコンテキストの抽出にはバウンディングボックスの正規化手法を活用しています。ヒューマンメッシュリカバリで事前にトレーニングされた画像エンコーダは、フィーチャインテグレータネットワークを介して画像特徴とモーション特徴をキャプチャし統合します。軌跡デコーダはグローバル方向を予測し、リファインメントプロセスは足の滑りを最小化します。 WHAMは、合成AMASSデータでトレーニングされ、評価において既存の手法を凌駕しています。

https://arxiv.org/abs/2312.07531

WHAMは、現在の最先端の手法を凌駕し、フレームごとおよびビデオベースの3Dヒューマンポーズと形状の推定において優れた精度を示しています。WHAMは、モーションコンテキストと足接触情報を活用し、足の滑りを最小限に抑え、国際的な調整を向上させることで、正確なグローバル軌道推定を実現しています。この手法は、2Dキーポイントとピクセルの特徴を統合することで、3Dヒューマンモーション再構築の精度を向上させています。野外のベンチマークによる評価では、MPJPE、PA-MPJPE、PVEなどのメトリクスにおいてWHAMの優れた性能が示されています。

まとめると、この研究の主なポイントは以下の通りです:

  • WHAMは、3Dヒューマンモーションとビデオコンテキストを組み合わせる革新的な手法を導入しました。
  • この手法は、3Dヒューマンポーズと形状の回帰を向上させます。
  • グローバル軌道推定フレームワークには、モーションコンテキストと足接触を組み込んでいます。
  • この手法は、足の滑りの課題に取り組んでおり、非平面の表面において正確な3Dトラッキングを保証します。
  • WHAMのアプローチは、3DPW、RICH、EMDBなどの多様なベンチマークデータセットで優れたパフォーマンスを発揮します。
  • この手法は、グローバル座標で効率的なヒューマンポーズと形状の推定を行います。
  • 特徴統合と軌跡リファインメントにより、モーションとグローバル軌道の精度が大幅に向上します。
  • 有益な除去研究によって、この手法の精度が検証されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ドイツの研究チームがDeepMBを開発しました MSOTを介して高品質でリアルタイムなオプトアコースティックイメージングを提供するディープラーニングフレームワーク

医療画像処理において、高品質な画像を素早く取得することは、多波長オプトアコースティックトモグラフィー(MSOT)の臨床的...

データサイエンス

「ユーザーの入力、プロンプト、および応答のシーケンスを理解する大型言語モデルを活用した対話型アプリケーション」

この記事では、ユーザーの入力がどのように処理され、プロンプトに変換され、LLMに送信され、応答が生成され、ユーザーに提示...

データサイエンス

データ再構築の革命:広範な情報検索におけるAIのコンパクトな解決策

最近の進展により、ロスアラモス国立研究所の研究チームが、画期的な人工知能(AI)手法を開拓し、データ処理における前例の...

データサイエンス

「データウェアハウジング入門ガイド」

データウェアハウスの主要なコンポーネント、アーキテクチャ、ベストプラクティス、課題、利点を探求してください

機械学習

Paellaを紹介します:安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル

過去2〜3年で、人工知能(AI)を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。こ...

コンピュータサイエンス

「パーソナルロボットによる生活の快適化」

メディアラボの研究科学者、シャリファ・アルゴウィネムは、英語とアラビア語で感情を説明する個人用ロボット技術を探求して...