「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」

「CMUとマックス・プランク研究所の研究者が画期的なAI手法「WHAM」を発表:ビデオから正確かつ効率的に3D人間動作を推定」

3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動いている実世界の環境でキャプチャされたビデオは、足の滑りなどの問題がしばしば含まれており、この作業はさらに困難になります。しかし、カーネギーメロン大学とマックスプランクインテリジェントシステム研究所の研究者チームは、WHAM(World-grounded Humans with Accurate Motion)という手法を開発し、これらの課題に対応し、正確な3Dヒューマンモーション再構築を実現しました。

この研究では、画像から3Dヒューマンポーズと形状を回復するための2つの手法、モデルフリーとモデルベースのアプローチを見直しています。統計的なボディモデルのパラメータを推定するために、モデルベースの手法でディープラーニング技術の使用を強調しています。既存のビデオベースの3D HPS手法では、さまざまなニューラルネットワークアーキテクチャを介して時間的な情報を組み込んでいます。一部の方法では、慣性センサーなどの追加のセンサーを使用していますが、これらは侵入的な場合があります。WHAMは、3Dヒューマンモーションとビデオコンテキストを効果的に組み合わせ、事前知識を活用し、グローバル座標系で正確な3D人間活動の再構築を実現することで注目されています。

この研究では、単眼ビデオから3Dヒューマンポーズと形状を精度良く推定する際の課題に取り組み、グローバル座標の一貫性、計算効率、現実的な足-地面接触を強調しています。WHAMは、2Dキーポイントを3Dポーズに変換するためのモーションエンコーダ-デコーダネットワーク、時間的な手がかりのための特徴結合器、および足接触を考慮したグローバルモーション推定のための軌跡リファインメントネットワークを組み合わせて、AMASSモーションキャプチャとビデオデータセットを活用しています。これにより、非平面表面における精度が向上し、足の滑りが最小限に抑えられます。

WHAMはオンライン推論と正確な3Dモーション再構築のために単方向RNNを使用し、コンテキスト抽出のためのモーションエンコーダとSMPLパラメータ、カメラの移動、足-地面接触確率のためのモーションデコーダを備えています。モーションコンテキストの抽出にはバウンディングボックスの正規化手法を活用しています。ヒューマンメッシュリカバリで事前にトレーニングされた画像エンコーダは、フィーチャインテグレータネットワークを介して画像特徴とモーション特徴をキャプチャし統合します。軌跡デコーダはグローバル方向を予測し、リファインメントプロセスは足の滑りを最小化します。 WHAMは、合成AMASSデータでトレーニングされ、評価において既存の手法を凌駕しています。

https://arxiv.org/abs/2312.07531

WHAMは、現在の最先端の手法を凌駕し、フレームごとおよびビデオベースの3Dヒューマンポーズと形状の推定において優れた精度を示しています。WHAMは、モーションコンテキストと足接触情報を活用し、足の滑りを最小限に抑え、国際的な調整を向上させることで、正確なグローバル軌道推定を実現しています。この手法は、2Dキーポイントとピクセルの特徴を統合することで、3Dヒューマンモーション再構築の精度を向上させています。野外のベンチマークによる評価では、MPJPE、PA-MPJPE、PVEなどのメトリクスにおいてWHAMの優れた性能が示されています。

まとめると、この研究の主なポイントは以下の通りです:

  • WHAMは、3Dヒューマンモーションとビデオコンテキストを組み合わせる革新的な手法を導入しました。
  • この手法は、3Dヒューマンポーズと形状の回帰を向上させます。
  • グローバル軌道推定フレームワークには、モーションコンテキストと足接触を組み込んでいます。
  • この手法は、足の滑りの課題に取り組んでおり、非平面の表面において正確な3Dトラッキングを保証します。
  • WHAMのアプローチは、3DPW、RICH、EMDBなどの多様なベンチマークデータセットで優れたパフォーマンスを発揮します。
  • この手法は、グローバル座標で効率的なヒューマンポーズと形状の推定を行います。
  • 特徴統合と軌跡リファインメントにより、モーションとグローバル軌道の精度が大幅に向上します。
  • 有益な除去研究によって、この手法の精度が検証されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

画像処理におけるノイズとは何ですか? - 簡易解説

「画像処理におけるノイズの種類、原因、モデル、および応用を探究してください」

データサイエンス

DB-GPT プロプライエタリLLMテクノロジーを使用して、データベースとのインターフェースを変革する

DB-GPTとは何ですか? DB-GPTは、データと周囲の世界と対話するために、ローカライズされたGPT large モデルを使用した実験的...

機械学習

ChatArenaをご紹介します:複数の大規模言語モデル(LLMs)間のコミュニケーションとコラボレーションを容易にするために設計されたPythonライブラリです

ChatArenaは、様々な巨大言語モデルを支援するために作成されたPythonパッケージです。ChatArenaにはすでにマルチエージェン...

機械学習

AWS AIサービスの能力がFMによって強化されました

「人工知能(AI)は、私たちがビジネスを行い、顧客にサービスを提供する方法を変革し続けていますAWSは、アプリケーションに...

機械学習

「ソーシャルメディアと機械学習を使用して明らかになる、公園の質の格差」

この研究は、ソーシャルメディアと機械学習を利用して、フィラデルフィアの都市公園における環境不正義を示しています

機械学習

「Mini-DALLE3と出会おう:大規模な言語モデルによるテキストから画像へのインタラクティブアプローチ」

人工知能コンテンツ生成の急速な進化、特にテキストから画像へのモデル(T2I)の進展により、高品質で多様性に富み創造的なAIに...