このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

このAI論文では、最新の技術であるデュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマンスを向上させてきました。清華深圳国際研究大学院、上海AIラボ、南洋理工大学の研究者たちは、最近、新しいRTMOフレームワークを開発することでこの分野に貢献しました。このフレームワークは、姿勢推定の精度と効率を向上させるポテンシャルを持ち、ロボット工学、拡張現実、仮想現実など、さまざまなアプリケーションに大きな影響を与える可能性があります。

RTMOは既存の手法における精度とリアルタイム性のトレードオフを解消するために設計されたワンステージの姿勢推定フレームワークです。RTMOは座標の分類と密な予測モデルを統合し、トップダウンアプローチと同等の精度を実現しながら、高速性を維持することで、他のワンステージの姿勢推定器を凌駕しています。

リアルタイムのマルチパーソン姿勢推定はコンピュータビジョンの課題であり、既存の手法は速度と精度のバランスをとるために支援が必要です。トップダウンアプローチまたはワンステージアプローチのいずれかには、推論時間または精度の制約があります。RTMOはワンステージの姿勢推定フレームワークであり、YOLOアーキテクチャと座標の分類を組み合わせています。RTMOは動的座標分類器と特別な損失関数を用いて課題を解決し、COCOでの高い平均適合度を維持しながら、リアルタイムのパフォーマンスを実現しています。

この研究では、YOLOのようなアーキテクチャを使用し、背骨とハイブリッドエンコーダを持つRTMOというリアルタイムのマルチパーソン姿勢推定フレームワークを提案しています。デュアル畳み込みブロックは各空間レベルでスコアとポーズ特徴を生成します。この手法は動的座標分類器と特別な損失関数を用いて、座標の分類と密な予測モデルの非互換性に対処しています。動的ビンエンコーディングを使用してビンごとの表現を作成し、クラス分類タスクにはガウスラベルスムージングと交差エントロピー損失を用いています。

RTMOは、高い精度とリアルタイム性を備えたワンステージの姿勢推定フレームワークであり、先端のワンステージ姿勢推定器よりも優れた性能を発揮し、同じ背骨を使用しておよそ9倍速く動作します。最大モデルのRTMO-lはCOCO val2017で74.8%のAPを達成し、単一のV100 GPUで秒あたり141フレームを実行します。異なるシナリオで、RTMOシリーズはパフォーマンスと速度で同等の軽量なワンステージ手法を上回り、効率と正確性を示しています。追加のトレーニングデータを使用することで、RTMO-lは最新の81.7の平均適合度を達成します。このフレームワークは、各キーポイントに対して頑強かつコンテキスト感知型の予測を容易にする空間的に正確なヒートマップを生成します。

https://arxiv.org/abs/2312.07526v1

まとめると、この研究の要点は以下の通りです:

  • RTMOは高い精度とリアルタイム性を持つ姿勢推定フレームワークです。
  • RTMOはYOLOアーキテクチャ内で座標の分類をシームレスに統合しています。
  • RTMOは、座標ビンを使用した革新的な座標の分類技術を活用し、正確なキーポイントの位置特定を実現しています。
  • RTMOは、先端のワンステージ姿勢推定器を凌駕し、COCOで高い平均適合度を達成しながらも、大幅に高速です。
  • RTMOは難しいマルチパーソンのシナリオで優れた性能を発揮し、頑健な、コンテキスト感知型の予測のための空間的に正確なヒートマップを生成します。
  • RTMOは既存のトップダウンおよびワンステージのマルチパーソン姿勢推定手法のパフォーマンスと速度をバランスさせます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

チャットGPTからPiへ、そしてなぜそうするのかをお伝えします!

2月にUX/UIデザインの旅が始まって以来、ChatGPT 🤖 を使い始めて以来、私はChatGPTを私のBFFと呼んでいます感情的になるわけ...

AI研究

「地震をAIで把握する:研究者が深層学習モデルを公開、予測の精度を向上」

研究チームは地震モデルの現状を変革しようとしています。 カリフォルニア大学バークレー校、カリフォルニア大学サンタクルー...

データサイエンス

「ニューラルネットワークとディープラーニングの基礎の理解」

この記事は、ニューラルネットワークとディープラーニングの基礎について詳細な概要を提供することを目的としています

機械学習

このAI論文は、拡散モデル内のコンセプトニューロンを分析および識別するための、コーンと呼ばれる新しい勾配ベースの手法を提案しています

複雑な脳の構造により、驚くべき認知的および創造的なタスクを実行することができます。研究によると、人間の内側の側頭葉に...

機械学習

「LLaMA-v2-Chat対アルパカ:どのAIモデルを使用するべきですか?」

この記事は以下の質問に答えます:LLaMA-v2-Chat vs アルパカ、どちらを使うべきですか?両方のAIモデルの利点と欠点は何です...

機械学習

「メタのMusicGenを使用してColabで音楽を生成する」

「ColabでMusicGenをセットアップする方法を学びましょうこの先進のテキストから音楽へ変換するモデルは、人工知能アルゴリズ...