「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

「POCOとの出会い:画期的な人工知能フレームワークによる3D人体姿勢と形状推定」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性(または信頼性)の値を生成しなければなりません。

この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。

最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。

著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO(“POse and shape estimation with COnfidence”)を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model(SMPL)のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy(DCS)」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。

従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル(Cond-bDF)を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。

これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIへの恐怖は迷信的なくだらないことだ」

「人工知能が私たちを皆殺しにすると恐れている人々は、200,000年にわたる宗教的な迷信のナンセンスと同じ間違いをしています」

AIテクノロジー

AIを活用した「ディープフェイク」詐欺:ケララ州のスキャマーに対する継続的な戦い

最近数ヶ月間、ケララではAIによる「ディープフェイク」技術を悪用した巧妙な詐欺の増加が目撃されています。300人以上が驚異...

機械学習

ディープネットワークの活性化関数の構築

ディープニューラルネットワークの基本的な要素は、活性化関数(AF)です活性化関数は、ネットワーク内のノード(「ニューロ...

データサイエンス

「LangchainなしでPDFチャットボットを構築する方法」

はじめに Chatgptのリリース以来、AI領域では進歩のペースが減速する気配はありません。毎日新しいツールや技術が開発されて...

データサイエンス

「ChatGPTが連邦取引委員会によって潜在的な被害の調査を受ける」

重要な進展として、連邦取引委員会(FTC)が人工知能(AI)スタートアップ企業であるOpenAIの調査を開始しました。OpenAIはAI...

AIニュース

検索で創発的AIにインスピレーションを受ける新たな方法

「私たちは、アイデアを具現化するイメージを作るための新しい方法や、出発点となる文章の下書きのようなものを作成するため...