「人物再識別入門」

Introduction to Person Re-identification

パーソン再識別（Person re-identification）は、異なる重なり合わないカメラ映像に現れる個人を識別するプロセスです。このプロセスは顔認識に依存せず、代わりに衣服の詳細、体の形状特徴、および他の外観に関連する属性を考慮します。

この記事では、パーソン再識別システムの開発に関連する概念、用語、課題、データセット、および方法について紹介します。

ある人物の画像が与えられた場合、ReIDの目標は、この人物がシステムの一部であるカメラのいずれかによって以前にキャプチャされたかどうかを判断することです。この画像はクエリ画像として知られています。クエリは時にはビデオシーケンスの形式でもあります。

パーソン再識別を困難にする要素は何ですか？

遮蔽
異なる視点
低い画像解像度
混雑した背景
照明の変化
正確でない歩行者検出
各クラスの訓練サンプルが少ない

パーソン再識別は、多くのクラス（各人物は基本的にはクラスです）から構成されるタスクですが、訓練時には各クラスに対してほんのわずかなサンプルしか利用できません。そのため、少数のサンプルから単一のクラスの意味のある表現を学習することは非常に困難です。各クラスごとにわずかな例から意味のある表現を学習することをFew-Shot learningと呼びます。

この問題を解決するいくつかの方法には、クラスごとのサンプル数を増やすためのデータ拡張、教師なし表現学習（CLIP）などがあります。Few-Shot learningに取り組む方法については、こちらをご覧ください。

ドメイン間の汎化

あるデータセットで訓練されたReIDモデルは、他のデータセットでうまく機能しません。この問題に対処するためにいくつかの技術が導入されています。たとえば、CLIPなどの教師なし表現学習ベースの方法を使用して、より良い一般的な表現を学習し、それを異なるデータセットでモデルを微調整するために使用することができます。

パーソン再識別領域の重要な用語

パーソンID：データセット内の個人に割り当てられた一意のID。ほとんどのアプリケーションでは、この「ID」は毎日リセットされます。パーソンIDは、伝統的な分類タスクで使用されるクラスラベルと考えることができます。

カメラID：ReIDシステム内の特定のカメラに割り当てられた一意のID

分割の種類

訓練/テスト分割：訓練/テスト分割は、他の機械学習タスクと同じ目的を持っています。

モデルが訓練された後、ギャラリーとクエリはモデルの評価に役立ちます。

ギャラリー/クエリの分割：

ギャラリーに含まれる画像は、モデルが個々の人物の特徴表現を学習するために使用されます。ギャラリーには、単一のパーソンIDに対して複数の画像が含まれる場合があります。ギャラリーはトレーニングセットとは異なりますのでご注意ください。

クエリ分割の画像は、ギャラリー分割から学習されたパーソンID表現のモデルの性能をテストするための画像です。

パーソン再識別システムの概要

このプロセスの主な応用の一つは監視です。大学、学校、ショッピングモール、駐車場などの公共の場所では、これにより不法行為の加害者を追跡するためのセキュリティレイヤーが追加されます。

データセットの準備

データセットをより挑戦的にし、現実世界の分布を反映させるために、一日の中で異なる時間帯でビデオを収集することは、照明の変化を考慮するための一般的な手法です。ただし、これは屋内の環境でキャプチャされたビデオには適用されません。

例えば、空港ターミナルの外に設置されたカメラは、天候の変化や昼夜の時間帯の変化による照明の変動を伴うデータを収集する可能性があります。一方、空港内のカメラは人工照明によって照明がほぼ一定のままです。

カメラは通常、異なる角度で配置されますが、これによりデータセット内の異なる視点の複雑さが増します。時には、異なるカメラ設定によってデータの変動が生じることもあり、これは現実世界のデータにより近いものとなります。

CUHK-CYSUなどの一部のデータセットは、カメラによって撮影された画像に加えて映画のシーンからスクレイプされた画像も含まれることがあります。これらのデータセットでは、ほとんど同じ俳優が異なるシーンに登場するためです。

以下は有名なReIDデータセットの概要です

CUHK03

CUHK03は、1,467人の異なる人物の14,097枚の画像で構成されており、画像収集のために6つのキャンパスカメラが展開されました。各人物は2つのキャンパスカメラでキャプチャされています。このデータセットは、手動でラベル付けされたバウンディングボックスと歩行者検出器によって生成されたバウンディングボックスの2つのアノテーションを提供しています。また、100人のアイデンティティをテスト用に選択し、残りのアイデンティティをトレーニング用に選択した20のランダムなトレーニング/テスト分割も提供しています。

Market1501

Market-1501は、人物再識別のための大規模な公開ベンチマークデータセットです。1,501人のアイデンティティが含まれており、6つの異なるカメラによってキャプチャされ、32,668個の歩行者画像のバウンディングボックスがデフォーマブルパートモデルの歩行者検出器を使用して取得されています。データセットは2つのパートに分割されており、750人のアイデンティティがトレーニングに使用され、残りの751人のアイデンティティがテストに使用されます。

MSMT 17

MSMT17は、複数のシーン、複数の時間帯での人物再識別データセットです。データセットには、屋外カメラ12台、屋内カメラ3台、12の時間スロットで撮影された180時間のビデオが含まれています。これらのビデオは長い期間をカバーし、複雑な照明の変動を示し、4,101人のアイデンティティと126,441個のバウンディングボックスの大量の注釈が含まれています。

バウンディングボックスの生成

このステージでは、生のビデオデータから人物の画像クロップを含むバウンディングボックスを抽出することに焦点を当てています。大規模なデータセットのすべての人物画像を手動でクロップするのは困難です。以前は、バウンディングボックスはDeformable Part Modelなどの既製の物体検出モデルによって通常取得されていましたが、現在ではYOLOなどのより優れた物体検出アルゴリズムが使用されることがあります。パノプティックセグメンテーションも、より細かい位置特定のために使用できます。

多くのデータセットでは、画像を手動で注釈付けする場合もあり、一部のデータセットでは歩行者検出器によって予測された画像と手動で注釈付けされた画像の両方を提供して、より困難で現実世界のデータセットを作成します。これにより、ReIDシステムで歩行者をリアルタイムで検出する必要があります。

モデルのトレーニング

このステージでは、注釈付きの人物画像/ビデオを使用して、識別力のある堅牢なReIDモデルをトレーニングします。このステップはReIDシステムの開発の中核であり、文献では最も広く研究されているパラダイムです。さまざまな課題に対処するために、特徴表現学習、距離メトリック学習、またはそれらの組み合わせに焦点を当てた幅広いモデルが開発されています。

教師ありPerson ReID

既存の多くの手法では、歩行者検出のために画像分類に使用されるネットワークアーキテクチャをバックボーンとして採用しています。ResNet50ネットワークは、画像特徴ベクトルを抽出するためのバックボーンとして頻繁に使用されます。

既存の教師ありReIDアプローチには、次の3つのカテゴリがあります:

画像全体からグローバルな特徴を学習し、分類損失を使用してモデルをトレーニングする。
グローバルな特徴に対してハードトリプレット損失を使用して、同一人物の特徴表現がより近くなるようにする。（下の図を参照）
代わりに部分ベースの特徴を学習することもあります。これには、画像を複数の水平ストリップに分割し、すべてのボディパーツからより細かい特徴を学習することが含まれます。これらの手法では、パーツに対する分類損失が使用されます。

教師なし表現学習

コントラスティブ学習と教師なし事前トレーニング手法は、教師あり手法で学習されたものと同等の品質の特徴表現を学習することができます。一部の研究論文では、表現をメモリバンクに保存する提案もあります。一部の研究論文では、MoCoとMoCo v2という自己教師あり学習手法を使用して教師なし事前トレーニングを行っています。

損失関数

この領域での多くの研究は、より良いReIDモデルの開発のために新しい損失関数を導入することにも焦点を当てています。このタスクの主な目的は、クラス内の変動を減少させ、クラス間の変動を増加させることです。

最も広く使用されている損失関数の1つは三つ組損失です。その主な目標は、関連するサンプル間の類似性が異なる例よりも近くなるような表現空間を作成することです。アンカー、ポジティブ、ネガティブの例の距離の順序を強制することにより、三つ組損失は、モデルが同じラベルを持つサンプルをお互いに近づけるようにエンベディングを学習するよう促し、異なるラベルを持つサンプルとの相当な分離を保持します。その結果、三つ組損失は、同じラベルを共有するサンプルの近接性を促進するためにモデルを効果的にエンベディングし、異なるラベルを持つサンプルとの間に著しい距離を維持します。三つ組損失を基にした他の損失関数であり、より良い結果を示すものには、センター損失とサークル損失があります。

Identity損失は、ReIDに使用される別の種類の損失関数です。これはReIDを画像分類の問題と見なします。この損失は、クロスエントロピーによって計算されます。

別の種類の損失関数として使用されるのは、検証損失であり、コントラスティブ損失またはバイナリ検証損失によってペアワイズの関係を最適化します。

評価指標

ReIDシステムを評価するために、累積一致特性（CMC）と平均適合率（mAP）という2つの広く使用される測定値があります。

CMCは、正しい一致が上位k位の検索結果に現れる確率を表します。

別の指標である平均適合率（mAP）は、複数の正解ラベルを持つ場合の平均的な検索パフォーマンスを測定します。ReIDでは、これにより、2つのモデルが最初の正解を検索する際に同じように良いパフォーマンスを示すが、他の難しい一致に対して異なるパフォーマンスを持つという問題を解決することができます。

再ランキング

クエリ画像が与えられると、システムはギャラリーセットから類似しているとされる候補画像のセットを取得します。この取得は、ユークリッド距離などの類似度メトリックに基づいて行われます。この初期のランキングリストが得られたら、良い実践として再ランキングのステップを追加することが推奨されます。これは、初期リストが誤検知画像を含んでいる場合があるためです。このため、再ランキングアルゴリズムが開発され、真の一致画像が再ランキングされたリストでより高いランクを受けることが期待されています[6]。

再ランキング手法は、オブジェクト検索の精度向上に成功しています。いくつかの研究では、再ランキングの問題に対処するために、k最近傍法を利用して近傍間の類似性を探索します。しかし、時には、誤検知の一致もクエリ画像のk最近傍法に含まれる場合があり、最終結果を妨げる可能性があります。

そのため、多くの手法では、k相互最近傍法も使用します。2つの画像がお互いのk最近傍法に現れるとき、それらはk相互最近傍と言われます[6]。したがって、この追加の制約により、真の一致が再ランキングに含まれやすくなります。

キーポイント

ReIDには解決すべき多くの課題があります。クロスドメインの汎化は、解決する必要がある重要な問題です。データセットのサイズ、特に各人のサンプル数は、このシステムの性能に影響を与える要因でもあります。異なる人々の類似した色の衣服もパフォーマンスの低下を引き起こす可能性があります。これらは、より良いReIDシステムを構築するためにさらなる研究が必要な問題です。

ReIDは、公共の場所、金融機関、学校など、多くの重要な場所でセキュリティを強化するために利用することができます。これは長年にわたる研究の領域であり、自己教師あり学習やコントラスティブ学習の技術の登場により、より良い表現を学習するのに役立つため、近い将来、現実のセキュリティソリューションに組み込まれる可能性があります。

参考文献

[1] Fu, Dengpan, et al. “Unsupervised pre-training for person re-identification.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[2] Wieczorek, Mikołaj, Barbara Rychalska, and Jacek Dąbrowski. “On the unreasonable effectiveness of centroids in image retrieval.” Neural Information Processing: 28th International Conference, ICONIP 2021, Sanur, Bali, Indonesia, December 8–12, 2021, Proceedings, Part IV 28. Springer International Publishing, 2021.

[3] Ye, Mang, et al.「パーソン再識別のためのディープラーニング：調査と展望」IEEEトランザクションパターン認識と機械知能第44巻第6号（2021）：2872–2893。

[4] Xiao, Tong, et al.「パーソン検索のための共同検出と識別特徴学習」IEEEカンファレンスコンピュータビジョンとパターン認識の論文集。2017。

[5] Sun, Yifan, et al.「パーツモデルを超えた：洗練されたパーツプーリング（および強力な畳み込みベースライン）を使用したパーソン検索」ヨーロッパコンピュータビジョンカンファレンス（ECCV）の論文集。2018。

[6] Zhong, Zhun, et al.「k-相互符号化を用いたパーソン再識別の再ランキング」IEEEカンファレンスコンピュータビジョンとパターン認識の論文集。2017。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Computer VisionDeep learningObject DetectionPerson Re Identificationsecurity

Was this article helpful?

93 out of 132 found this helpful

「人物再識別入門」

パーソン再識別領域の重要な用語

パーソン再識別システムの概要

データセットの準備

バウンディングボックスの生成

モデルのトレーニング

評価指標

再ランキング

キーポイント

参考文献

Was this article helpful?

「今日、何を見たと思う？このAIモデルは、あなたの脳の信号を解読して、あなたが見たものを再構築するんだよ」

5つのステップでScikit-learnを始める

機械学習

新しい研究論文が、化学の論文がChatbot ChatGPTを使用して書かれた時に簡単に見分けることができる機械学習ツールを紹介しています

チャットボットと個人情報の共有の危険性-注意が必要です

メタスの新しいテキストから画像へのモデル - CM3leon論文の説明

「Google.orgの新しい助成金は、永久凍土の融解を追跡するのに役立ちます」

Word2Vec、GloVe、FastText、解説

一緒にAIを学ぶ - Towards AI コミュニティニュースレター第4号