このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

このAI論文では、最新の技術であるデュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマンスを向上させてきました。清華深圳国際研究大学院、上海AIラボ、南洋理工大学の研究者たちは、最近、新しいRTMOフレームワークを開発することでこの分野に貢献しました。このフレームワークは、姿勢推定の精度と効率を向上させるポテンシャルを持ち、ロボット工学、拡張現実、仮想現実など、さまざまなアプリケーションに大きな影響を与える可能性があります。

RTMOは既存の手法における精度とリアルタイム性のトレードオフを解消するために設計されたワンステージの姿勢推定フレームワークです。RTMOは座標の分類と密な予測モデルを統合し、トップダウンアプローチと同等の精度を実現しながら、高速性を維持することで、他のワンステージの姿勢推定器を凌駕しています。

リアルタイムのマルチパーソン姿勢推定はコンピュータビジョンの課題であり、既存の手法は速度と精度のバランスをとるために支援が必要です。トップダウンアプローチまたはワンステージアプローチのいずれかには、推論時間または精度の制約があります。RTMOはワンステージの姿勢推定フレームワークであり、YOLOアーキテクチャと座標の分類を組み合わせています。RTMOは動的座標分類器と特別な損失関数を用いて課題を解決し、COCOでの高い平均適合度を維持しながら、リアルタイムのパフォーマンスを実現しています。

この研究では、YOLOのようなアーキテクチャを使用し、背骨とハイブリッドエンコーダを持つRTMOというリアルタイムのマルチパーソン姿勢推定フレームワークを提案しています。デュアル畳み込みブロックは各空間レベルでスコアとポーズ特徴を生成します。この手法は動的座標分類器と特別な損失関数を用いて、座標の分類と密な予測モデルの非互換性に対処しています。動的ビンエンコーディングを使用してビンごとの表現を作成し、クラス分類タスクにはガウスラベルスムージングと交差エントロピー損失を用いています。

RTMOは、高い精度とリアルタイム性を備えたワンステージの姿勢推定フレームワークであり、先端のワンステージ姿勢推定器よりも優れた性能を発揮し、同じ背骨を使用しておよそ9倍速く動作します。最大モデルのRTMO-lはCOCO val2017で74.8%のAPを達成し、単一のV100 GPUで秒あたり141フレームを実行します。異なるシナリオで、RTMOシリーズはパフォーマンスと速度で同等の軽量なワンステージ手法を上回り、効率と正確性を示しています。追加のトレーニングデータを使用することで、RTMO-lは最新の81.7の平均適合度を達成します。このフレームワークは、各キーポイントに対して頑強かつコンテキスト感知型の予測を容易にする空間的に正確なヒートマップを生成します。

https://arxiv.org/abs/2312.07526v1

まとめると、この研究の要点は以下の通りです:

  • RTMOは高い精度とリアルタイム性を持つ姿勢推定フレームワークです。
  • RTMOはYOLOアーキテクチャ内で座標の分類をシームレスに統合しています。
  • RTMOは、座標ビンを使用した革新的な座標の分類技術を活用し、正確なキーポイントの位置特定を実現しています。
  • RTMOは、先端のワンステージ姿勢推定器を凌駕し、COCOで高い平均適合度を達成しながらも、大幅に高速です。
  • RTMOは難しいマルチパーソンのシナリオで優れた性能を発揮し、頑健な、コンテキスト感知型の予測のための空間的に正確なヒートマップを生成します。
  • RTMOは既存のトップダウンおよびワンステージのマルチパーソン姿勢推定手法のパフォーマンスと速度をバランスさせます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIのための機会の議題」

今日は、できる限り多くの人々に利益をもたらすための具体的な政策提言を提供するためのAI機会アジェンダを共有しています

データサイエンス

「変化の風を操る:2024年の主要なテクノロジートレンド」

AIの進歩からインフラのイノベーション、メールセキュリティの要件など、将来の展望を把握し、組織を戦略的に導くための理解...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

AIニュース

「LLMsにおけるエンタープライズ知識グラフの役割」

紹介 大規模言語モデル(LLM)と生成AIは、人工知能と自然言語処理の革新的なブレークスルーを表します。彼らは人間の言語を...

人工知能

トップ10のコードなしAIアプリビルダー

あなたは、「コーディングを知っていたら、夢のソフトウェアを作れるのになあ」と思ったことはありませんか?それが現実にな...

データサイエンス

「AI企業がソフトウェア供給チェーンの脆弱性に対して被害を受けた場合、何が起こるのか」

OpenAIの侵害を見て、AI企業SSCのハッキングとその可能な影響を推測する自分自身を守るために何ができるか?