「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表：ビデオからの正確かつ効率的な3D人間動作推定」

「CMUとマックス・プランク研究所の研究者が画期的なAI手法「WHAM」を発表：ビデオから正確かつ効率的に3D人間動作を推定」

3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動いている実世界の環境でキャプチャされたビデオは、足の滑りなどの問題がしばしば含まれており、この作業はさらに困難になります。しかし、カーネギーメロン大学とマックスプランクインテリジェントシステム研究所の研究者チームは、WHAM（World-grounded Humans with Accurate Motion）という手法を開発し、これらの課題に対応し、正確な3Dヒューマンモーション再構築を実現しました。

この研究では、画像から3Dヒューマンポーズと形状を回復するための2つの手法、モデルフリーとモデルベースのアプローチを見直しています。統計的なボディモデルのパラメータを推定するために、モデルベースの手法でディープラーニング技術の使用を強調しています。既存のビデオベースの3D HPS手法では、さまざまなニューラルネットワークアーキテクチャを介して時間的な情報を組み込んでいます。一部の方法では、慣性センサーなどの追加のセンサーを使用していますが、これらは侵入的な場合があります。WHAMは、3Dヒューマンモーションとビデオコンテキストを効果的に組み合わせ、事前知識を活用し、グローバル座標系で正確な3D人間活動の再構築を実現することで注目されています。

この研究では、単眼ビデオから3Dヒューマンポーズと形状を精度良く推定する際の課題に取り組み、グローバル座標の一貫性、計算効率、現実的な足-地面接触を強調しています。WHAMは、2Dキーポイントを3Dポーズに変換するためのモーションエンコーダ-デコーダネットワーク、時間的な手がかりのための特徴結合器、および足接触を考慮したグローバルモーション推定のための軌跡リファインメントネットワークを組み合わせて、AMASSモーションキャプチャとビデオデータセットを活用しています。これにより、非平面表面における精度が向上し、足の滑りが最小限に抑えられます。

WHAMはオンライン推論と正確な3Dモーション再構築のために単方向RNNを使用し、コンテキスト抽出のためのモーションエンコーダとSMPLパラメータ、カメラの移動、足-地面接触確率のためのモーションデコーダを備えています。モーションコンテキストの抽出にはバウンディングボックスの正規化手法を活用しています。ヒューマンメッシュリカバリで事前にトレーニングされた画像エンコーダは、フィーチャインテグレータネットワークを介して画像特徴とモーション特徴をキャプチャし統合します。軌跡デコーダはグローバル方向を予測し、リファインメントプロセスは足の滑りを最小化します。 WHAMは、合成AMASSデータでトレーニングされ、評価において既存の手法を凌駕しています。

WHAMは、現在の最先端の手法を凌駕し、フレームごとおよびビデオベースの3Dヒューマンポーズと形状の推定において優れた精度を示しています。WHAMは、モーションコンテキストと足接触情報を活用し、足の滑りを最小限に抑え、国際的な調整を向上させることで、正確なグローバル軌道推定を実現しています。この手法は、2Dキーポイントとピクセルの特徴を統合することで、3Dヒューマンモーション再構築の精度を向上させています。野外のベンチマークによる評価では、MPJPE、PA-MPJPE、PVEなどのメトリクスにおいてWHAMの優れた性能が示されています。

まとめると、この研究の主なポイントは以下の通りです：

WHAMは、3Dヒューマンモーションとビデオコンテキストを組み合わせる革新的な手法を導入しました。
この手法は、3Dヒューマンポーズと形状の回帰を向上させます。
グローバル軌道推定フレームワークには、モーションコンテキストと足接触を組み込んでいます。
この手法は、足の滑りの課題に取り組んでおり、非平面の表面において正確な3Dトラッキングを保証します。
WHAMのアプローチは、3DPW、RICH、EMDBなどの多様なベンチマークデータセットで優れたパフォーマンスを発揮します。
この手法は、グローバル座標で効率的なヒューマンポーズと形状の推定を行います。
特徴統合と軌跡リファインメントにより、モーションとグローバル軌道の精度が大幅に向上します。
有益な除去研究によって、この手法の精度が検証されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表：ビデオからの正確かつ効率的な3D人間動作推定」

Was this article helpful?

Amazon SageMaker Studioで生産性を向上させる：JupyterLab Spacesと生成AIツールを紹介

モデルインサイトの視覚化：ディープラーニングにおけるGrad-CAMのガイド

AI研究

「ステーブル拡散」は実際にどのように機能するのでしょうか？直感的な説明

カールスルーエ工科大学（KIT）の研究者たちは、深層学習を用いた降水マッピングに取り組み、空間および時間の分解能向上に向けて進化させました

3つの質問：大規模言語モデルについて、Jacob Andreasに聞く

Gmailを効率的なメールソリューションに変える6つのAI機能

72歳で亡くなったダグラス・レナット氏、人間に似たAIを作ろうとした人

AI/MLを活用してインテリジェントなサプライチェーンを構築するための始め方