このAI研究では、全身ポーズ推定のための新しい2段階ポーズ蒸留を紹介しています

This AI research introduces a new two-stage pose distillation for whole-body pose estimation.

多くの人間中心の知覚、理解、創造のタスクは、3D全身メッシュ復元、人間とオブジェクトの相互作用、姿勢に基づいた人間の画像と動作生成を含む、全身姿勢推定に依存しています。また、OpenPoseやMediaPipeなどのユーザーフレンドリーなアルゴリズムを使用して、仮想コンテンツの開発やVR/ARのための人間の姿勢の記録が大幅に増加しています。しかし、これらのツールは便利ですが、その性能はまだ改善が必要であり、その可能性を制限しています。したがって、ユーザー主導のコンテンツ制作の可能性を実現するために、人間の姿勢評価技術のさらなる開発が不可欠です。

比較的に、全身姿勢推定は、以下の要因により、体のみのキーポイント検出と比較して困難を伴います。

  1. 細かいキーポイントの位置特定のための人間の体の階層構造。
  2. 手と顔の小さな解像度。
  3. 画像内の複数の人物に複雑な体の部位が一致すること、特に遮蔽や難しい手のポーズの場合。
  4. 特に全身画像の多様な手のポーズと頭のポーズに対するデータの制約。

さらに、展開する前にモデルを薄くする必要があります。蒸留、トリミング、量子化が基本的な圧縮技術を構成します。

知識蒸留(KD)は、推論プロセスに不要なコストを追加せずに、コンパクトなモデルの効果を向上させることができます。この方法は、分類、検出、セグメンテーションなどのさまざまなタスクで広範に使用され、生徒がより経験豊富な教師から知識を取得することを可能にします。本研究では、全身姿勢推定のためのKDの調査を通じて、パフォーマンスと効率の良いリアルタイムのポーズ推定器のセットが開発されました。清華深圳国際研究院と国際デジタル経済アカデミーの研究者は、DWPoseという革新的な二段階ポーズ蒸留アーキテクチャを提案しています。図1に示すように、このアーキテクチャは最先端のパフォーマンスを提供します。彼らは、基本モデルとしてCOCO-WholeBodyで訓練された最新のポーズ推定器であるRTMPoseを使用します。

図1は、COCO-WholeBodyの全身姿勢推定のための彼らのモデルと比較可能なモデルの比較を示しています。

彼らは、第一段階の蒸留では、教師(例:RTMPose-x)の中間層と最終的なロジットをネイティブに使用して、生徒モデル(例:RTMPose-l)を誘導します。前のポーズトレーニングでは、キーポイントはその可視性によって区別され、監視には可視のキーポイントのみが使用されます。一方、彼らは教師のすべての出力、つまり可視および不可視のキーポイントを含む最終的なロジットを使用します。これにより、正確で綿密な値が生徒の学習プロセスに役立ちます。また、効果を高めるために、トレーニングセッションの進行に従ってデバイスの重みを徐々に下げる重み減衰アプローチも使用しています。第二段階の蒸留では、ヘッドを増強するためにヘッドに対する自己KDが提案されています。ヘッドがより優れていると、より正確な位置特定ができるためです。

彼らは、2つの同一のモデルを構築し、一方をアップデートする生徒、もう一方をインストラクターとして選択します。生徒のヘッドのみがロジットに基づいた蒸留によって更新され、残りの体は凍結されます。特に、このプラグアンドプレイの戦略は、密な予測ヘッドと共に動作し、蒸留を使用するかしないかにかかわらず、トレーニング時間を20%短縮して生徒がより良い結果を得ることができます。さまざまな人体部位の異なるサイズを対象とするデータのボリュームとバラエティは、モデルのパフォーマンスに影響を与えます。従って、包括的な注釈付きキーポイントの必要性から、既存の推定器は、細かい指や顔の特徴点を正確に特定するのに役立ちます。

そのため、彼らはさらに、さまざまな実生活の設定で撮影された多数の顔と手のキーポイントを含む追加のUBodyデータセットを組み込んでデータ効果を調査しています。したがって、彼らの貢献について次のことが言えます:

• 全身データの制約を克服するために、彼らは多様で表現豊かな手のジェスチャーや表情に特に焦点を当てた包括的なトレーニングデータを探索し、実生活のアプリケーションに適用可能にしました。

• 効率的かつ正確な全身姿勢推定を追求するために、2段階の姿勢知識蒸留法を導入しています。

• 提案された蒸留およびデータのテクニックは、最新のRTMPoseを基本モデルとして使用し、RTMPose-lのAPを64.8%から66.5%に大幅に向上させることができます。さらに、彼らはDWPoseの作業生成における強力な効果と効率性を確認しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「SageMaker Distributionは、Amazon SageMaker Studioで利用可能になりました」

SageMaker Distributionは、機械学習(ML)、データサイエンス、データ可視化のための多くの人気のあるパッケージを含んだ、...

AIニュース

バードが強化された機能を発表:Gmail、Drive、および他のGoogle Appsとの統合

ジェネラティブAIとの協力を革新するために、Bardはこれまでにない最先端のモデルを導入しました。この革新はゲームチェンジ...

人工知能

2023年の最高のAIゲームジェネレーター

AIゲームジェネレータは、AIアルゴリズムを使用して完全なビデオゲームを作成することができます。これらのゲームは、単純な...

機械学習

「人工知能(AI)におけるアナログコンピュータの使用」

アナログコンピュータは、電気の電圧、機械の動き、または流体の圧力などの物理的な量を、解決すべき問題に対応する量に類似...

機械学習

ローゼンブラットのパーセプトロンによる分類

「パーセプトロンの二値分類をゼロから実装する」

データサイエンス

「2023年の機械学習モデルにおけるトップな合成データツール/スタートアップ」

実際の出来事の結果ではなく、意図的に作成された情報は、合成データとして知られています。合成データはアルゴリズムによっ...