「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」
「CMUとマックス・プランク研究所の研究者が画期的なAI手法「WHAM」を発表:ビデオから正確かつ効率的に3D人間動作を推定」
3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動いている実世界の環境でキャプチャされたビデオは、足の滑りなどの問題がしばしば含まれており、この作業はさらに困難になります。しかし、カーネギーメロン大学とマックスプランクインテリジェントシステム研究所の研究者チームは、WHAM(World-grounded Humans with Accurate Motion)という手法を開発し、これらの課題に対応し、正確な3Dヒューマンモーション再構築を実現しました。
この研究では、画像から3Dヒューマンポーズと形状を回復するための2つの手法、モデルフリーとモデルベースのアプローチを見直しています。統計的なボディモデルのパラメータを推定するために、モデルベースの手法でディープラーニング技術の使用を強調しています。既存のビデオベースの3D HPS手法では、さまざまなニューラルネットワークアーキテクチャを介して時間的な情報を組み込んでいます。一部の方法では、慣性センサーなどの追加のセンサーを使用していますが、これらは侵入的な場合があります。WHAMは、3Dヒューマンモーションとビデオコンテキストを効果的に組み合わせ、事前知識を活用し、グローバル座標系で正確な3D人間活動の再構築を実現することで注目されています。
この研究では、単眼ビデオから3Dヒューマンポーズと形状を精度良く推定する際の課題に取り組み、グローバル座標の一貫性、計算効率、現実的な足-地面接触を強調しています。WHAMは、2Dキーポイントを3Dポーズに変換するためのモーションエンコーダ-デコーダネットワーク、時間的な手がかりのための特徴結合器、および足接触を考慮したグローバルモーション推定のための軌跡リファインメントネットワークを組み合わせて、AMASSモーションキャプチャとビデオデータセットを活用しています。これにより、非平面表面における精度が向上し、足の滑りが最小限に抑えられます。
- 「NYUとGoogle AIの研究者が、機械学習の先進的な演繹的推論のフロンティアを探る」
- スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル
- チャットボットに関する不正行為の懸念は誇張されていたと、新しい研究が示唆しています
WHAMはオンライン推論と正確な3Dモーション再構築のために単方向RNNを使用し、コンテキスト抽出のためのモーションエンコーダとSMPLパラメータ、カメラの移動、足-地面接触確率のためのモーションデコーダを備えています。モーションコンテキストの抽出にはバウンディングボックスの正規化手法を活用しています。ヒューマンメッシュリカバリで事前にトレーニングされた画像エンコーダは、フィーチャインテグレータネットワークを介して画像特徴とモーション特徴をキャプチャし統合します。軌跡デコーダはグローバル方向を予測し、リファインメントプロセスは足の滑りを最小化します。 WHAMは、合成AMASSデータでトレーニングされ、評価において既存の手法を凌駕しています。
WHAMは、現在の最先端の手法を凌駕し、フレームごとおよびビデオベースの3Dヒューマンポーズと形状の推定において優れた精度を示しています。WHAMは、モーションコンテキストと足接触情報を活用し、足の滑りを最小限に抑え、国際的な調整を向上させることで、正確なグローバル軌道推定を実現しています。この手法は、2Dキーポイントとピクセルの特徴を統合することで、3Dヒューマンモーション再構築の精度を向上させています。野外のベンチマークによる評価では、MPJPE、PA-MPJPE、PVEなどのメトリクスにおいてWHAMの優れた性能が示されています。
まとめると、この研究の主なポイントは以下の通りです:
- WHAMは、3Dヒューマンモーションとビデオコンテキストを組み合わせる革新的な手法を導入しました。
- この手法は、3Dヒューマンポーズと形状の回帰を向上させます。
- グローバル軌道推定フレームワークには、モーションコンテキストと足接触を組み込んでいます。
- この手法は、足の滑りの課題に取り組んでおり、非平面の表面において正確な3Dトラッキングを保証します。
- WHAMのアプローチは、3DPW、RICH、EMDBなどの多様なベンチマークデータセットで優れたパフォーマンスを発揮します。
- この手法は、グローバル座標で効率的なヒューマンポーズと形状の推定を行います。
- 特徴統合と軌跡リファインメントにより、モーションとグローバル軌道の精度が大幅に向上します。
- 有益な除去研究によって、この手法の精度が検証されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ
- インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています
- Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました
- グーグルの研究者たちは、差分プライバシーを持つ機械学習システムの監査において、新たなシングルランアプローチを発表しました
- アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした
- 「Phi-2解放:コンパクトで輝かしい言語モデル」
- ジェンAIに関するトップ10の研究論文