中国のこのAI論文は、HQTrackというビデオ内のあらゆるものを高品質で追跡するためのAIフレームワークを提案しています

This Chinese AI paper proposes an AI framework called HQTrack for high-quality tracking of everything in videos.

ビジュアルオブジェクトトラッキングは、ロボットビジョンや自動運転など、コンピュータビジョン内の多くのサブフィールドの基盤です。この仕事は、ビデオシーケンス内のターゲットオブジェクトを信頼性を持って特定することを目指しています。最先端のアルゴリズムがビジュアルオブジェクトトラッキング(VOT)のチャレンジで競い合っており、トラッキングフィールドで最も重要な競技の1つです。

ビジュアルオブジェクトトラッキングおよびセグメンテーション競技(VOTS2023)は、従来のVOTチャレンジで課せられた制約の一部を取り除き、参加者がオブジェクトトラッキングについてより広く考えることができるようにしています。その結果、VOTS2023では、単一のターゲットの短期および長期のモニタリング、および多数のターゲットの追跡を、位置指定としてターゲットセグメンテーションのみを使用して組み合わせています。これには、正確なマスクの推定、複数のターゲットの軌跡追跡、およびオブジェクト間の関係の認識など、新たな困難が生じます。

中国の大連理工大学とアリババグループのDAMOアカデミーによる新しい研究では、HQTrackと呼ばれるシステムが紹介されています。HQTrackは、High-Quality Trackingの略です。このシステムは、主にビデオマルチオブジェクトセグメンターやマスクリファイナーなどで構成されています。複雑な設定で微小なオブジェクトを認識するために、研究者はDeAOTの改良版であるVMOSを使用し、1/8スケールでゲート付き伝搬モジュール(GPM)を連鎖させます。さらに、異なるタイプのオブジェクトを区別する能力を向上させるために、フィーチャーエクストラクタとしてIntern-Tを使用しています。VMOSでは、研究者は長期記憶に最近使用されたフレームのみを保持し、古いフレームは破棄してスペースを作ります。ただし、トラッキングマスクを改善するために大規模なセグメンテーションモデルを適用することは有用です。複雑な構造を持つオブジェクトは、特にSAMにとって予測が難しく、VOTSチャレンジでは頻繁に現れます。

事前にトレーニングされたHQ-SAMモデルを使用することで、チームはトラッキングマスクの品質をさらに向上させることができます。最終的なトラッキング結果は、VMOSとMRから選ばれ、予測されたマスクの外側の囲むボックスをボックスプロンプトとして使用して、オリジナルの画像とともにHQ-SAMに供給され、改善されたマスクを取得します。HQTrackは、テストセットで品質スコア0.615でVOTS2023競技会で2位になります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GoogleのMed-PaLM 2は最も先進的な医療AIとなる予定」

Google(グーグル)は世界をリードするテクノロジー企業の一つであり、最新の人工知能(AI)プログラムにより、医療分野に大...

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

データサイエンス

ディープラーニングのマスタリング:分岐推定を使った非線形概算の芸術 パート1

過去の1年間で、私たちはディープラーニングの人気が爆発的に急増しているのを目撃してきましたGPT-4のような大規模な言語モ...

データサイエンス

「GATE DA 2024のサンプル問題集」

導入 GATE 2024の志望者の皆さん、素晴らしいニュースです!インド科学研究所(IISc)が、今後のGATE試験のためのサンプル問...

データサイエンス

データ・コモンズは、AIを使用して世界の公共データをよりアクセスしやすく、役に立つものにしています

「データコモンズ」についての説明これは、Googleが公に利用可能なデータを社会的な課題の解決に取り組む人々により有益にす...

データサイエンス

「ワードエンベディング:より良い回答のためにチャットボットに文脈を与える」

ワードエンベディングとChatGPTを使用してエキスパートボットを構築する方法を学びましょうワードベクトルの力を活用して、チ...