「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

「POCOとの出会い:画期的な人工知能フレームワークによる3D人体姿勢と形状推定」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性(または信頼性)の値を生成しなければなりません。

この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。

最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。

著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO(“POse and shape estimation with COnfidence”)を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model(SMPL)のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy(DCS)」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。

従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル(Cond-bDF)を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。

これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「オンライン大規模な推薦のためのデュアル拡張二つのタワーモデル」

推薦システムは、ユーザーに個別にカスタマイズされた提案を提供するために設計されたアルゴリズムですこれらのシステムは、...

AI研究

「自己教師あり学習とトランスフォーマー? - DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しい...

データサイエンス

「AIと.NETの連携による現実世界のソリューションを強化する」

テクノロジーの絶えず進化する風景において、人工知能(AI)と.NETフレームワークの融合は、画期的な革新の道を切り開いてき...

AIニュース

AIがオンエア中:世界初のRJボット、アシュリーに会おう

オレゴン州ポートランドに拠点を置く人気ラジオ局、Live 95.5は、Futuri MediaのRadioGPTテクノロジーによって動かされる世界...

データサイエンス

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に...

人工知能

スターバックスのコーヒー代で、自分自身のプライベートChatGPTモデルをトレーニングしよう

スターバックスのカップ1つ分と2時間の時間を費やすことで、自分の訓練済みのオープンソースの大規模モデルを所有することが...