このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

このAI論文では、最新の技術であるデュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマンスを向上させてきました。清華深圳国際研究大学院、上海AIラボ、南洋理工大学の研究者たちは、最近、新しいRTMOフレームワークを開発することでこの分野に貢献しました。このフレームワークは、姿勢推定の精度と効率を向上させるポテンシャルを持ち、ロボット工学、拡張現実、仮想現実など、さまざまなアプリケーションに大きな影響を与える可能性があります。

RTMOは既存の手法における精度とリアルタイム性のトレードオフを解消するために設計されたワンステージの姿勢推定フレームワークです。RTMOは座標の分類と密な予測モデルを統合し、トップダウンアプローチと同等の精度を実現しながら、高速性を維持することで、他のワンステージの姿勢推定器を凌駕しています。

リアルタイムのマルチパーソン姿勢推定はコンピュータビジョンの課題であり、既存の手法は速度と精度のバランスをとるために支援が必要です。トップダウンアプローチまたはワンステージアプローチのいずれかには、推論時間または精度の制約があります。RTMOはワンステージの姿勢推定フレームワークであり、YOLOアーキテクチャと座標の分類を組み合わせています。RTMOは動的座標分類器と特別な損失関数を用いて課題を解決し、COCOでの高い平均適合度を維持しながら、リアルタイムのパフォーマンスを実現しています。

この研究では、YOLOのようなアーキテクチャを使用し、背骨とハイブリッドエンコーダを持つRTMOというリアルタイムのマルチパーソン姿勢推定フレームワークを提案しています。デュアル畳み込みブロックは各空間レベルでスコアとポーズ特徴を生成します。この手法は動的座標分類器と特別な損失関数を用いて、座標の分類と密な予測モデルの非互換性に対処しています。動的ビンエンコーディングを使用してビンごとの表現を作成し、クラス分類タスクにはガウスラベルスムージングと交差エントロピー損失を用いています。

RTMOは、高い精度とリアルタイム性を備えたワンステージの姿勢推定フレームワークであり、先端のワンステージ姿勢推定器よりも優れた性能を発揮し、同じ背骨を使用しておよそ9倍速く動作します。最大モデルのRTMO-lはCOCO val2017で74.8%のAPを達成し、単一のV100 GPUで秒あたり141フレームを実行します。異なるシナリオで、RTMOシリーズはパフォーマンスと速度で同等の軽量なワンステージ手法を上回り、効率と正確性を示しています。追加のトレーニングデータを使用することで、RTMO-lは最新の81.7の平均適合度を達成します。このフレームワークは、各キーポイントに対して頑強かつコンテキスト感知型の予測を容易にする空間的に正確なヒートマップを生成します。

https://arxiv.org/abs/2312.07526v1

まとめると、この研究の要点は以下の通りです:

  • RTMOは高い精度とリアルタイム性を持つ姿勢推定フレームワークです。
  • RTMOはYOLOアーキテクチャ内で座標の分類をシームレスに統合しています。
  • RTMOは、座標ビンを使用した革新的な座標の分類技術を活用し、正確なキーポイントの位置特定を実現しています。
  • RTMOは、先端のワンステージ姿勢推定器を凌駕し、COCOで高い平均適合度を達成しながらも、大幅に高速です。
  • RTMOは難しいマルチパーソンのシナリオで優れた性能を発揮し、頑健な、コンテキスト感知型の予測のための空間的に正確なヒートマップを生成します。
  • RTMOは既存のトップダウンおよびワンステージのマルチパーソン姿勢推定手法のパフォーマンスと速度をバランスさせます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...

AI研究

UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します

ディープラーニングは生活のあらゆる分野で使用されています。あらゆる領域でその有用性があります。バイオメディカル研究に...

データサイエンス

「Jaro-Winklerアルゴリズムを使用して小規模言語モデル(SLM)を構築し、スペルエラーを改善・強化する」

「Jaro-Winklerアルゴリズムを使って、小さな固定定義データセットでSmall Language Model(SLM)を構築し、システムのスペル...

AIニュース

OpenAIがグローバルイルミネーションを引き継ぎ、初の企業買収を祝います

テック界に波紋を広げる動きとして、人工知能の先駆的存在であるOpenAIが、初の買収に乗り出しました。OpenAIがデジタルプロ...

機械学習

「医療AIの基礎モデル」

「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モ...