TRACE(トレース)に会おう:グローバル座標トラッキングを使用した正確な3D人体姿勢および形状推定のための新しいAIアプローチ

New AI approach for accurate 3D human pose and shape estimation using global coordinate tracking Meet TRACE (トレース).

多くの分野が、3D人間姿勢と形状(HPS)の最近の進歩を利用し、活用することができます。しかし、ほとんどのアプローチは一度に単一のフレームしか考慮せず、カメラに対する人間の位置を推定します。さらに、これらの技術は個人を追跡できず、その世界的な移動経路を取得することができません。ほとんどの手持ちのビデオは、カメラが揺れ動くジャイロスコープで撮影されるため、この問題はより複雑になります。

これらの問題を解決するために、哈爾濱工業大学、京東探索院、マックスプランク知能システム研究所、HiDream.aiの研究者たちは、5D表現(空間、時間、アイデンティティ)を使用して、状況における人物に関する新しいエンドツーエンドの推論を実装しました。提案されたTRACE技術には、さまざまな革新的なアーキテクチャ機能があります。特に、2つの新しい「Maps」を使用して、カメラの視点と世界の視点の両方から、人々の3Dモーションについて推論することができます。第2のメモリモジュールの助けを借りて、長期の不在の後も個人を追跡することができます。TRACEは、移動するカメラからグローバル座標の3D人間モデルを単一のステップで回復し、同時にその動きを追跡します。

彼らの目的は、各人のグローバル座標、3D位置、形状、アイデンティティ、およびモーションを同時に再構成することでした。これを行うために、TRACEは、まず、専用のブレーンネットワークを使用して、各サブタスクをデコードする前に、時間情報を抽出します。まず、TRACEは、ビデオとモーションを別々の特徴マップにエンコードするために2つの並列軸を使用し、1つは時間的な画像(F’i)用で、もう1つはモーション(Oi)用です。これらのフィーチャを使用して、検出およびトラッキングサブツリーが複数の対象を追跡して、カメラ座標内の3D人間のモーションを再構成します。

推定された3Dモーションオフセットマップは、2つのフレーム間の各被写体の相対的な空間移動を示します。革新的なメモリユニットは、推定された3D検出と3Dモーションオフセットを使用して、被写体のアイデンティティを抽出し、カメラ座標内で人間の軌跡を構築します。小説のWorldブランチは、世界の座標系で被写体の軌跡を推定するために、世界のモーションマップを計算します。

堅牢な5D表現であっても、実際の世界のデータがないため、グローバルな人間の軌跡推定のトレーニングと評価の欠如が続いています。ただし、自然環境の動的カメラムービー(DCビデオ)のグローバル人間軌跡とカメラ姿勢をコンパイルすることは困難です。したがって、チームは、シミュレートされたカメラモーションを使用して、静止カメラで取得したワイルドフィルムをDCビデオに変換し、DynaCamという新しいデータセットを生成しました。

チームは、DynaCamデータセットと2つのマルチパーソンインザワイルドベンチマークを使用して、TRACEをテストしました。3DPWに関しては、TRACEがSOTAの結果を提供します。MuPoTS-3Dでは、TRACEが、長期の遮蔽下で人間を追跡するための既存の3D表現ベースのアプローチや検出によるトラッキング方法よりも優れた結果を達成します。調査結果は、DynaCamにおけるTRACEがGLAMRを上回ることを示しています。

チームは、将来、複雑な人間の動き、3Dシーン、およびカメラの動きを含むBEDLAMなどのトレーニングデータを使用した明示的なカメラモーション推定を調査することを提案しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

がん診断の革命:ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌(HCC)と肝内胆管癌(ICCA)を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を...

機械学習

Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクス...

人工知能

「安定した拡散深度2Imgを用いたバリエーション:ステップバイステップガイド」

「AI生成アートにおける形状と奥行きの保持のための初心者向けガイド:Stable Diffusion Depth2ImgとNode.jsの使用法」

AI研究

初心者のための2023年の機械学習論文の読み方

「私は数十の機械学習の論文を読み、論文の勉強方法がだいたい分かってきました まず最初に、特定の論文を読む目的を理解する...

AIニュース

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます

著名な作家、マーガレット・アトウッド、ヴィエット・タン・グエン、フィリップ・プルマンなどの文学の巨匠たちが、人工知能...

データサイエンス

Generating AI(AIを生成する) vs マシンラーニング(機械学習):区別の解読

「ジェネラティブAIと機械学習を使ってデータ駆動型の意思決定の世界を探検しましょうデータ変換におけるそれぞれの違いと役...