このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

このAI論文では、最新の技術であるデュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマンスを向上させてきました。清華深圳国際研究大学院、上海AIラボ、南洋理工大学の研究者たちは、最近、新しいRTMOフレームワークを開発することでこの分野に貢献しました。このフレームワークは、姿勢推定の精度と効率を向上させるポテンシャルを持ち、ロボット工学、拡張現実、仮想現実など、さまざまなアプリケーションに大きな影響を与える可能性があります。

RTMOは既存の手法における精度とリアルタイム性のトレードオフを解消するために設計されたワンステージの姿勢推定フレームワークです。RTMOは座標の分類と密な予測モデルを統合し、トップダウンアプローチと同等の精度を実現しながら、高速性を維持することで、他のワンステージの姿勢推定器を凌駕しています。

リアルタイムのマルチパーソン姿勢推定はコンピュータビジョンの課題であり、既存の手法は速度と精度のバランスをとるために支援が必要です。トップダウンアプローチまたはワンステージアプローチのいずれかには、推論時間または精度の制約があります。RTMOはワンステージの姿勢推定フレームワークであり、YOLOアーキテクチャと座標の分類を組み合わせています。RTMOは動的座標分類器と特別な損失関数を用いて課題を解決し、COCOでの高い平均適合度を維持しながら、リアルタイムのパフォーマンスを実現しています。

この研究では、YOLOのようなアーキテクチャを使用し、背骨とハイブリッドエンコーダを持つRTMOというリアルタイムのマルチパーソン姿勢推定フレームワークを提案しています。デュアル畳み込みブロックは各空間レベルでスコアとポーズ特徴を生成します。この手法は動的座標分類器と特別な損失関数を用いて、座標の分類と密な予測モデルの非互換性に対処しています。動的ビンエンコーディングを使用してビンごとの表現を作成し、クラス分類タスクにはガウスラベルスムージングと交差エントロピー損失を用いています。

RTMOは、高い精度とリアルタイム性を備えたワンステージの姿勢推定フレームワークであり、先端のワンステージ姿勢推定器よりも優れた性能を発揮し、同じ背骨を使用しておよそ9倍速く動作します。最大モデルのRTMO-lはCOCO val2017で74.8%のAPを達成し、単一のV100 GPUで秒あたり141フレームを実行します。異なるシナリオで、RTMOシリーズはパフォーマンスと速度で同等の軽量なワンステージ手法を上回り、効率と正確性を示しています。追加のトレーニングデータを使用することで、RTMO-lは最新の81.7の平均適合度を達成します。このフレームワークは、各キーポイントに対して頑強かつコンテキスト感知型の予測を容易にする空間的に正確なヒートマップを生成します。

https://arxiv.org/abs/2312.07526v1

まとめると、この研究の要点は以下の通りです:

  • RTMOは高い精度とリアルタイム性を持つ姿勢推定フレームワークです。
  • RTMOはYOLOアーキテクチャ内で座標の分類をシームレスに統合しています。
  • RTMOは、座標ビンを使用した革新的な座標の分類技術を活用し、正確なキーポイントの位置特定を実現しています。
  • RTMOは、先端のワンステージ姿勢推定器を凌駕し、COCOで高い平均適合度を達成しながらも、大幅に高速です。
  • RTMOは難しいマルチパーソンのシナリオで優れた性能を発揮し、頑健な、コンテキスト感知型の予測のための空間的に正確なヒートマップを生成します。
  • RTMOは既存のトップダウンおよびワンステージのマルチパーソン姿勢推定手法のパフォーマンスと速度をバランスさせます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

自分のドキュメントで春のAIとOpenAI GPTが有用になるようにRAGを作成する

「RAGを使用して、Spring AIとOpenAI GPTを活用してドキュメント検索のエクスペリエンスを向上させる方法を発見しましょう自...

AI研究

複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換

複雑な予測モデルの高度なパラメータ化の性質により、予測戦略の説明と解釈が困難です。研究者たちは、この問題を解決するた...

AIニュース

「AIパワード広告でソーシャルをより魅力的に」

「デマンドジェンキャンペーンを学んで、YouTubeやGoogleでより良い結果を出す方法を探ってみましょう新しい事例、ビデオ、ヒ...

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...