「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

「POCOとの出会い:画期的な人工知能フレームワークによる3D人体姿勢と形状推定」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性(または信頼性)の値を生成しなければなりません。

この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。

最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。

著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO(“POse and shape estimation with COnfidence”)を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model(SMPL)のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy(DCS)」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。

従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル(Cond-bDF)を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。

これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、...

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...

AIニュース

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

データサイエンス

埋め込みとベクトルデータベース 実践的なガイド!

生成AIは急速に進化し、テクノロジーやデータ管理の景観を根本的に変えているベクターデータベースの世界へようこそ

データサイエンス

AIはETLの再発明に時間を浪費する必要はない

「AIコミュニティはデータ統合を再発明しようとしていますが、現在のETLプラットフォームは既にこの問題を解決していますなぜ...