TRACE(トレース)に会おう:グローバル座標トラッキングを使用した正確な3D人体姿勢および形状推定のための新しいAIアプローチ

New AI approach for accurate 3D human pose and shape estimation using global coordinate tracking Meet TRACE (トレース).

多くの分野が、3D人間姿勢と形状(HPS)の最近の進歩を利用し、活用することができます。しかし、ほとんどのアプローチは一度に単一のフレームしか考慮せず、カメラに対する人間の位置を推定します。さらに、これらの技術は個人を追跡できず、その世界的な移動経路を取得することができません。ほとんどの手持ちのビデオは、カメラが揺れ動くジャイロスコープで撮影されるため、この問題はより複雑になります。

これらの問題を解決するために、哈爾濱工業大学、京東探索院、マックスプランク知能システム研究所、HiDream.aiの研究者たちは、5D表現(空間、時間、アイデンティティ)を使用して、状況における人物に関する新しいエンドツーエンドの推論を実装しました。提案されたTRACE技術には、さまざまな革新的なアーキテクチャ機能があります。特に、2つの新しい「Maps」を使用して、カメラの視点と世界の視点の両方から、人々の3Dモーションについて推論することができます。第2のメモリモジュールの助けを借りて、長期の不在の後も個人を追跡することができます。TRACEは、移動するカメラからグローバル座標の3D人間モデルを単一のステップで回復し、同時にその動きを追跡します。

彼らの目的は、各人のグローバル座標、3D位置、形状、アイデンティティ、およびモーションを同時に再構成することでした。これを行うために、TRACEは、まず、専用のブレーンネットワークを使用して、各サブタスクをデコードする前に、時間情報を抽出します。まず、TRACEは、ビデオとモーションを別々の特徴マップにエンコードするために2つの並列軸を使用し、1つは時間的な画像(F’i)用で、もう1つはモーション(Oi)用です。これらのフィーチャを使用して、検出およびトラッキングサブツリーが複数の対象を追跡して、カメラ座標内の3D人間のモーションを再構成します。

推定された3Dモーションオフセットマップは、2つのフレーム間の各被写体の相対的な空間移動を示します。革新的なメモリユニットは、推定された3D検出と3Dモーションオフセットを使用して、被写体のアイデンティティを抽出し、カメラ座標内で人間の軌跡を構築します。小説のWorldブランチは、世界の座標系で被写体の軌跡を推定するために、世界のモーションマップを計算します。

堅牢な5D表現であっても、実際の世界のデータがないため、グローバルな人間の軌跡推定のトレーニングと評価の欠如が続いています。ただし、自然環境の動的カメラムービー(DCビデオ)のグローバル人間軌跡とカメラ姿勢をコンパイルすることは困難です。したがって、チームは、シミュレートされたカメラモーションを使用して、静止カメラで取得したワイルドフィルムをDCビデオに変換し、DynaCamという新しいデータセットを生成しました。

チームは、DynaCamデータセットと2つのマルチパーソンインザワイルドベンチマークを使用して、TRACEをテストしました。3DPWに関しては、TRACEがSOTAの結果を提供します。MuPoTS-3Dでは、TRACEが、長期の遮蔽下で人間を追跡するための既存の3D表現ベースのアプローチや検出によるトラッキング方法よりも優れた結果を達成します。調査結果は、DynaCamにおけるTRACEがGLAMRを上回ることを示しています。

チームは、将来、複雑な人間の動き、3Dシーン、およびカメラの動きを含むBEDLAMなどのトレーニングデータを使用した明示的なカメラモーション推定を調査することを提案しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「OpenAIがオープンソースのGPTモデルのリリースを予告」

人工知能の先駆的な存在であるOpenAIは、オープンソースのGPTモデルを公開する可能性によってテックコミュニティで話題となっ...

AIニュース

「ジェネレーティブAIがビジネス、健康医療、芸術を再構築する方法」

紹介 生成的な人工知能、一般にはGenAIと呼ばれるものは、AI革命の最前線に位置し、ロボットの無限の創造力と問題解決能力を...

データサイエンス

「力強いコネクティビティ:IoTにおけるエッジコンピューティングの復興」

エッジコンピューティングとIoTがリアルタイムの効率化、帯域幅の最適化、およびイノベーションのために結集します課題はまだ...

AI研究

スターリング-7B AIフィードバックからの強化学習によるLLM

UCバークレーの研究チームが、オープンソースの大規模言語モデル(LLM)であるStarling-7Bを導入しています。このモデルは人...

データサイエンス

クロスヘアに捧げられた ジェネレーティブAI:CISOたちが戦うサイバーセキュリティ

ChatGPTと大規模な言語モデル(LLM)は、生成型AIが多くのビジネスプロセスにどのように影響を与えるかの初期の兆候です

データサイエンス

「AI言語モデルにおける迅速なエンジニアリングのマスタリング」

これらのモデルに与えられた指示を洗練し最適化することにより、より正確で文脈に即した回答を得ることができます