物体検出リーダーボード

リーダーボードとモデルの評価の世界へようこそ。前回の投稿では、大規模言語モデルの評価について説明しました。今日は、異なるが同じくらい挑戦的な領域、つまり物体検出に乗り出します。

最近、オブジェクト検出のリーダーボードをリリースしました。このリーダーボードでは、ハブで利用可能な物体検出モデルをいくつかのメトリックに基づいてランキングしています。このブログでは、モデルの評価方法を実証し、物体検出で使用される一般的なメトリック、Intersection over Union (IoU)、Average Precision (AP)、Average Recall (AR)の謎を解き明かします。さらに重要なことは、評価中に発生する可能性のある相違点や落とし穴に焦点を当て、モデルのパフォーマンスを批判的に理解し評価できる知識を身につけることです。

すべての開発者や研究者は、正確に物体を検出し区別できるモデルを目指しています。私たちのオブジェクト検出リーダーボードは、彼らのアプリケーションのニーズに最も適したオープンソースモデルを見つけるための正しい場所です。しかし、「正確」とはこの文脈では本当に何を意味するのでしょうか？どのメトリックを信頼すべきでしょうか？それらはどのように計算されるのでしょうか？そして、さらに重要なことは、なぜいくつかのモデルが異なるレポートで相違した結果を示すことがあるのかということです。これらのすべての質問にこのブログで答えます。

では、一緒にこの探求の旅に乗り出し、オブジェクト検出リーダーボードの秘密を解き明かしましょう！もしも紹介を飛ばして、物体検出メトリックの計算方法を学びたい場合は、メトリックセクションに移動してください。オブジェクト検出リーダーボードを基に最良のモデルを選ぶ方法を知りたい場合は、オブジェクト検出リーダーボードセクションを確認してください。

はじめに
物体検出とは
メトリック
- 平均適合率（Average Precision）とは、どのように計算されるのか？
- 平均再現率（Average Recall）とは、どのように計算されるのか？
- 平均適合率と平均再現率のバリエーションとは？
オブジェクト検出リーダーボード
- メトリックに基づいて最適なモデルを選ぶ方法は？
- 平均適合率の結果に影響を与えるパラメータは？
結論
追加リソース

物体検出とは？

コンピュータビジョンの領域では、物体検出とは画像内の個々のオブジェクトを識別し、位置を特定するタスクを指します。画像分類とは異なり、画像内の主なオブジェクトやシーンを決定するタスクではなく、物体検出はオブジェクトクラスを分類するだけでなく、各検出されたオブジェクトの周囲に境界ボックスを描画する空間情報も提供します。オブジェクト検出器は、各境界ボックスに対して、モデルによる予測に基づく、検出されたオブジェクトが予測されたクラスに属する確率を「スコア」（または「信頼度」とも）として出力することもあります。

たとえば、次の画像は、5つの検出を示しています。確率が98％の「ボール」と確率が98％、95％、97％、および97％の「人」が4つあります。

物体検出モデルは多目的で、さまざまなドメインでさまざまな応用が可能です。一部の使用例には、自動車のビジョン、顔検出、監視とセキュリティ、医療画像、拡張現実、スポーツ解析、スマートシティ、ジェスチャー認識などがあります。

Hugging Face Hubには、さまざまなデータセットで事前学習された数百の物体検出モデルがあり、さまざまなオブジェクトクラスを識別し、位置を特定することができます。

特定のタイプの物体検出モデルであるゼロショットは、テキストクエリを追加して、テキストで記述された対象オブジェクトを検索することができます。これらのモデルは、訓練中に見たことのないオブジェクトを検出することができます。訓練中に使用されたクラスのセットに制約されるのではなく、代わりにテキストで記述された対象オブジェクトを検出することができます。

検出器の多様性は、認識できる出力クラスの範囲を超えています。それらは、基礎となるアーキテクチャ、モデルのサイズ、処理速度、予測の精度の面で異なります。

オブジェクト検出モデルの予測の精度を評価するために使用される一般的なメトリックの1つは「平均適合率（AP）」およびそのバリエーションです。これについては、このブログで後ほど説明します。

オブジェクト検出モデルの評価は、グラウンドトゥルースの注釈、検出（出力予測）、およびメトリックなどのいくつかのコンポーネントで構成されます。このプロセスは、図2に示すスキーマで示されています。

まず、グラウンドトゥルースの境界ボックスの注釈を含むベンチマーキングデータセットが選択され、オブジェクト検出モデルに入力されます。モデルは各画像に対して境界ボックスを予測し、各ボックスに関連するクラスラベルと信頼スコアを割り当てます。評価フェーズでは、これらの予測された境界ボックスをデータセット内のグラウンドトゥルースのボックスと比較します。評価によって、[0, 1]の範囲内の特定の評価基準を反映する一連のメトリックが生成されます。次のセクションでは、メトリックの詳細な計算方法について詳しく説明します。

メトリクス

このセクションでは、平均適合率と平均再現率の定義、それらの変動、およびそれらに関連する計算方法について詳しく説明します。

平均適合率とは何か、そしてどのように計算するのか？

平均適合率（AP）は、適合率×再現率の曲線を要約する単一の数値です。計算方法を説明する前に、まず、交差領域連合（IoU）の概念と、検出を真陽性または偽陽性として分類する方法について理解する必要があります。

IoUは、予測された境界ボックスと実際の（正解）境界ボックスの重なりを測る0から1の数値で表されるメトリックです。2つのボックスが重なる領域の面積を、両方のボックスが組み合わさった領域の面積で割って計算されます。図3は、予測ボックスと対応する正解ボックスを用いたIoUの例を視覚的に示しています。

正解ボックスと検出ボックスが同じ座標を共有し、画像内の同じ領域を表す場合、IoUの値は1となります。逆に、ボックスがどのピクセルでも重ならない場合、IoUは0と見なされます。

検出において高い適合率が期待されるシナリオ（例：自動運転車）では、予測された境界ボックスは正解ボックスと密接に一致する必要があります。そのため、IoUの閾値（TIOU）は1に近づけることが好ましいです。一方、検出された境界ボックスの正確な位置がターゲットオブジェクトに対して重要でないアプリケーションでは、閾値を緩和し、TIOUを0に近づけることができます。

モデルによって予測されたすべてのボックスは「陽性」の検出と見なされます。交差領域連合（IoU）の基準に基づいて、各予測は真陽性（TP）または偽陽性（FP）として分類されます。

定義済みのTIOUに基づいて、真陽性と真陰性を次のように定義できます：

真陽性（TP）：IoU≥TIOUの正しい検出。
偽陽性（FP）：（見落とされたオブジェクト）IoU<TIOUの誤った検出。

逆に、負は正解の境界ボックスに基づいて評価され、偽陰性（FN）または真陰性（TN）と定義できます：

偽陰性（FN）：モデルが検出に失敗した正解オブジェクトを指します。
真陰性（TN）：正確な非検出を示します。オブジェクト検出のドメインでは、画像内の無数の境界ボックスがターゲットオブジェクトを表さないため、TNはオブジェクト検出メトリクスを計算するために考慮されません。

TP、FP、FNを特定できるようになったので、適合率と再現率を定義できます：

適合率は、モデルが関連するオブジェクトのみを識別する能力です。正しい陽性予測の割合であり、次のように表されます：

適合率=TP(TP+FP)=TP全ての検出

これは、検出された全ボックスに対する真陽性の比率を示しています。

再現率は、モデルがすべての関連するケース（すべての正解境界ボックス）を見つける能力を評価します。TPを全ての正解境界ボックスの中で検出されたものの割合を示し、次のように表されます：

再現率=TP(TP+FN)=TP全ての正解境界ボックス

TP、FP、FNは、適合率と再現率と同様に、定義済みのIoUの閾値に依存します。

平均適合率は、異なる適合率と再現率の値を考慮して、モデルがオブジェクトを正しく分類および位置づけする能力を捉えます。それには、特定の対象クラス（例：「犬」）に対して、適合率と再現率の関係をプロットして示します。TP、FP、FNを区別するために、適度なIoUの閾値=75％を採用します。その後、適合率と再現率の値を計算することができます。そのために、検出の確信スコアを変化させる必要があります。

図4は、Precision x Recall曲線の例を示しています。この曲線の計算については、「A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit」（Padillaら）および「A Survey on Performance Metrics for Object-Detection Algorithms」（Padillaら）という論文が、より詳細なトイ例を提供しています。

Precision x Recall曲線は、検出器のバウンディングボックスの異なる信頼レベルに基づいたPrecisionとRecallのバランスを示しています。プロットの各点は、異なる信頼値を使用して計算されます。

平均精度プロットの計算方法を示すために、先に述べた論文のうちの一つの実例を使用します。図5に示すような同じクラスの15個のグラウンドトゥルースオブジェクトを持つデータセットを考えてみましょう。単純化のために、すべてのボックスを同じクラス「犬」とします。

私たちの仮想的なオブジェクト検出器は、データセット内で24個のオブジェクトを検出し、赤いボックスで示しています。PrecisionとRecallを計算するために、この特定のクラスに対して検出器がベンチマークデータセットでどのように実行されたかを評価するために、すべての信頼レベルでのPrecisionとRecallの式を使用します。そのために、いくつかのルールを設定する必要があります：

ルール1：簡単のために、IOU ≥ 30%の場合、検出をTrue Positive（TP）とします。それ以外の場合はFalse Positive（FP）です。
ルール2：検出が複数のグラウンドトゥルースと重なる場合（イメージ2から7のような場合）、IoUが最も高い予測ボックスをTPとし、他のボックスをFPとします。

これらのルールに基づいて、Table 1に示すように、各検出をTPまたはFPに分類することができます。

ルール2により、イメージ1では、「E」はTPであり、「D」はFPです。なぜなら、「E」とグラウンドトゥルースの間のIoUが「D」とグラウンドトゥルースの間のIoUよりも大きいからです。

さて、各検出の信頼値を考慮してPrecisionとRecallを計算する必要があります。そのためには、Table 2に示すように、検出を信頼値でソートすると便利です。その後、各行の各信頼値について、累積TP（acc TP）と累積FP（acc FP）を考慮してPrecisionとRecallを計算します。各値の計算は、このスプレッドシートで確認できます。

例えば、Table 2の12行目（検出「P」）を考えてみましょう。値「acc TP = 4」は、この特定のデータセットで信頼度0.62でモデルをベンチマークにすると、正しく4つの対象オブジェクトを検出し、誤って8つの対象オブジェクトを検出することを意味します。これにより、以下の結果が得られます：

Precision=acc TP(acc TP+acc FP)=4(4+8)=0.3333 \text{Precision} = \frac{\text{acc TP}}{(\text{acc TP} + \text{acc FP})} = \frac{4}{(4+8)} = 0.3333 Precision=(acc TP+acc FP)acc TP=(4+8)4=0.3333 および Recall=acc TPall ground truths=415=0.2667 \text{Recall} = \frac{\text{acc TP}}{\text{all ground truths}} = \frac{4}{15} = 0.2667 Recall=all ground truthsacc TP=154=0.2667 .

これで、値を使用してPrecision x Recall曲線をプロットすることができます（図6参照）：

曲線を調べることで、PrecisionとRecallの間の潜在的なトレードオフを推測し、選択した信頼閾値に基づいてモデルの最適な動作点を見つけることができます。この閾値が明示的に曲線上に表示されていなくてもです。

検出器の信頼結果がわずかな偽陽性（FP）を引き起こす場合、Precisionが高くなる可能性があります。しかし、これにより多くの真陽性（TP）を見逃す可能性があり、高い偽陰性（FN）率およびそれによる低いRecallが引き起こされます。一方、より多くの陽性検出を受け入れることでRecallを向上させることができますが、FPの数も増えるため、Precisionが低下する可能性があります。

ターゲットクラスに対して計算されるPrecision x Recall曲線の下の面積（AUC）は、その特定のクラスの平均精度値を表します。 COCO評価手法では、画像データセット内のすべてのターゲットクラスの平均AUC値を「AP」と呼び、他の手法ではMean Average Precision（mAP）とも呼ばれます。

大規模なデータセットの場合、検出器はおそらく幅広い信頼レベルのボックスを出力し、ジグザグのあるPrecision x Recall線を生成します。そのため、そのAUC（平均適合率）を正確に計算することは難しいです。異なる手法では、曲線の面積を異なるアプローチで近似します。一般的なアプローチの1つはN-補間と呼ばれ、NはPrecision x Recall青線からサンプリングされるポイントの数を表します。

たとえば、COCOアプローチでは、101-補間を使用し、等間隔でRecall値（0.、0.01、0.02、… 1.00）ごとに101ポイントを計算します。他のアプローチでは11ポイント（11-補間）を使用します。図7は、11個の等間隔のRecallポイントを持つPrecision x Recall曲線（青）を示しています。

赤い点は次のように配置されます：

ρinterp(R)=max⁡r~:r~≥rρ(r~)

ここで、ρ(r~)はRecall r~での測定されたPrecisionです。

この定義では、各RecallレベルRで観察されるPrecision値ρ(R)ではなく、Rよりも大きいRecall値を持つ最大Precisionであるρinterp(R)が得られます。

このタイプのアプローチでは、平均適合率を表すAUCは、すべてのポイントの平均値で次のように近似されます：

AP11=111=∑R∈{0,0.1,…,1}ρinterp(R)

平均適合率とは何か、どのように計算するか？

平均適合率（AR）は、物体検出モデルを評価するためにしばしばAPとともに使用される尺度です。APは、モデルのパフォーマンスの1つの数値的な要約を提供するために、異なる信頼度の閾値を介して適合率と再現率の両方を評価しますが、ARは再現率の側面に焦点を当て、信頼度を考慮せずにすべての検出を陽性として扱います。

COCOのアプローチでは、IOUが0.5より大きくクラスごとに得られた最大の再現率の平均を計算してARを求めます。

IOUが[0.5、1]の範囲で使用され、この範囲で再現率の値を平均化することで、ARはオブジェクトの位置合わせに関するモデルの予測を評価します。したがって、高い再現率と正確なオブジェクトの位置合わせの両方を評価することが目標である場合、ARは検討する価値のある評価尺度となります。

平均適合率と平均再現率のバリアントにはどのようなものがありますか？

事前に定義されたIoUの閾値と、グラウンドトゥルースオブジェクトに関連付けられた領域に基づいて、異なるバージョンのAPとARが得られます：

[email protected]：IoUの閾値を0.5に設定し、画像データセット内の各ターゲットクラスに対してPrecision x Recall AUCを計算します。次に、各クラスの計算結果を合計してクラスの数で割ります。
[email protected]：IoUの閾値を0.75に設定した[email protected]と同じ方法を使用します。このより高いIoUの要件により、[email protected]は[email protected]よりも厳格とされ、検出結果の高い位置合わせ精度を達成する必要があるモデルの評価に使用されるべきです。
AP@[.5:.05:.95]：cocoevalツールでAPとも言われます。これは[email protected]と[email protected]の拡張版で、異なるIoUの閾値（0.5、0.55、0.6、…、0.95）でAPを計算し、次の式で計算結果を平均化します。[email protected]と[email protected]と比較して、このメトリックはより包括的な評価を提供し、より広範囲の位置合わせ精度でモデルのパフォーマンスを捉えます。

AP@[.5:.05:0.95=AP0.5+AP0.55+…+AP0.9510 \text{AP@[.5:.05:0.95} = \frac{\text{AP}_{0.5} + \text{AP}_{0.55} + … + \text{AP}_{0.95}}{10} AP@[.5:.05:0.95=10AP0.5+AP0.55+…+AP0.95

AP-S: 面積<322の(小さい)正解物体を考慮し、AP@[.5:.05:.95]を適用します。
AP-M: 面積が322<area<962の(VoAGIサイズの)正解物体を考慮し、AP@[.5:.05:.95]を適用します。
AP-L: 面積が322<area<962の(大きい)正解物体を考慮し、AP@[.5:.05:.95]を適用します。

平均再現率(AR)では、Recall値を計算するために10のIoU閾値(0.5、0.55、0.6、…、0.95)が使用されます。 ARは、画像ごとの検出数を制限するか、オブジェクトの面積に基づいて検出を制限することで計算されます。

AR-1: 画像ごとに最大1つの検出を考慮します。
AR-10: 画像ごとに最大10個の検出を考慮します。
AR-100: 画像ごとに最大100個の検出を考慮します。
AR-S: 面積<322の(小さい)物体を考慮します。
AR-M: 面積が322<area<962の(VoAGIサイズの)物体を考慮します。
AR-L: 面積>962の(大きい)物体を考慮します。

Object Detection Leaderboard

最近、当社のHubからオープンソースモデルの精度と効率を比較するためのオブジェクト検出のランキングを公開しました。

精度を測定するために、COCOスタイルを使用した平均精度と平均再現率に関する12のメトリックスを使用し、COCO val 2017データセットでベンチマークを行いました。

前述のように、異なるツールは評価中に異なる特性を採用する場合があります。結果の不一致を防ぐために、当社独自のメトリックスのバージョンを実装することは避けました。代わりに、公式のCOCO評価コードであるPyCOCOtoolsを使用することにしました。コードはこちらで入手できます。

効率の観点では、各モデルのフレームレート(FPS)を計算します。評価時間の平均値をデータセット全体にわたって考慮し、前処理および後処理のステップを含みます。各モデルのGPUメモリ要件の可変性を考慮して、バッチサイズ1で評価することを選びました(この選択は、後述する前処理ステップにも影響を与えています)。ただし、大きなバッチサイズ(通常は複数の画像を含む)がより効率的に使用されることを考慮すると、このアプローチは現実のパフォーマンスと完全に一致しない可能性があります。

次に、メトリックスに基づいて最適なモデルを選ぶためのヒントを提供し、結果に影響を与える可能性のあるパラメーターを指摘します。これらの微妙な点を理解することは重要です。これにより、コミュニティ内で疑問や議論が起こる可能性があります。

メトリックスに基づいて最適なモデルを選ぶ方法

適切なメトリックスを選択してオブジェクト検出器を評価および比較するには、いくつかの要素を考慮する必要があります。主な考慮事項には、アプリケーションの目的とモデルのトレーニングおよび評価に使用されるデータセットの特性が含まれます。

一般的なパフォーマンスについては、AP (AP@[.5:.05:.95])は、検出されたオブジェクトの位置の厳密な要件がなく、異なるIoU閾値でのモデルのパフォーマンスを総合的に評価する場合に適しています。

良い物体認識と物体の一般的な配置を備えたモデルを望む場合は、[email protected]を参照してください。バウンディングボックスの配置により正確なモデルを好む場合は、[email protected]がより適しています。

オブジェクトのサイズに制約がある場合、AP-S、AP-M、およびAP-Lが活用されます。たとえば、データセットやアプリケーションには主に小さなオブジェクトが含まれる場合、AP-Sはそのような小さなターゲットの認識における検出器の効果を提供します。これは、遠くの車両や医療画像での小さなアーティファクトの検出などのシナリオで重要となります。

どのパラメータが平均精度の結果に影響を与える可能性がありますか？

ハブからオブジェクト検出モデルを選択した後、モデルの前処理および後処理のステップで異なるパラメータを使用すると、出力ボックスを変化させることができます。これらは評価メトリックに影響を与える可能性があります。以下は、結果の変動につながる最も一般的な要因のいくつかです：

一定の閾値以下のスコアを持つ検出を無視する。
推論にbatch_sizes > 1を使用する。
移植されたモデルは元のモデルと同じロジットを出力しない。
一部の正解オブジェクトが評価者によって無視される可能性がある。
IoUの計算が複雑になる場合がある。
テキスト条件付きモデルでは正確なプロンプトが必要です。

DEtection TRansformer（DETR）（facebook/detr-resnet-50）モデルを例に説明しましょう。これらの要因が出力結果にどのように影響するかを示します。

評価前の検出の閾値設定

サンプルモデルでは、以下のスニペットで示されるように、DetrImageProcessorクラスを使用してバウンディングボックスとロジットを処理しています：

from transformers import DetrImageProcessor, DetrForObjectDetection
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50")
model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# PIL images have their size in (w, h) format
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.5)

関数post_process_object_detectionのパラメータthresholdは、信頼スコアに基づいて検出されたバウンディングボックスをフィルタリングするために使用されます。

先に説明したように、Precision x Recall曲線は、信頼性の値の全範囲[0,1]でのPrecisionとRecallを測定して構築されます。したがって、評価前に検出を制限すると、いくつかの検出が除外されるため、バイアスのある結果が生じます。

バッチサイズの変更

バッチサイズは処理時間だけでなく、異なる検出ボックスの結果にも影響を与えることがあります。画像の前処理ステップによって、入力画像の解像度が変化する場合があります。

DETRのドキュメントによれば、DetrImageProcessorはデフォルトで、最短辺が800ピクセルになるように入力画像のサイズを変更し、最長辺が最大で1333ピクセルになるように再サイズします。これにより、バッチ内の画像のサイズが異なる可能性があります。DETRは、バッチ内で最大サイズにまで画像をパディングし、どのピクセルが実際のデータでどのピクセルがパディングであるかを示すピクセルマスクを作成することで、これを解決しています。

このプロセスを説明するために、図9と図10の例を考えてみましょう。図9では、バッチサイズ=1として、両方の画像をDetrImageProcessorで独立して処理します。最初の画像は(800, 1201)にリサイズされ、ディテクターがクラスvaseの28個のボックス、クラスchairの22個のボックス、クラスbottleの10個のボックスなどを予測します。

図10は、バッチサイズ=2の場合のプロセスを示しています。同じ2つの画像が同じバッチでDetrImageProcessorで処理されます。両方の画像は同じ形状(873, 1201)にリサイズされ、パディングが適用されます。したがって、内容のある部分は元のアスペクト比を保ったまま保持されます。ただし、たとえば最初の画像では、異なる数のオブジェクトが出力されます：クラスvaseの31個のボックス、クラスchairの20個のボックス、クラスbottleの8個のボックスなど。バッチサイズ=2の2番目の画像では、新しいクラスdogが検出されます。これは、画像の解像度に応じて、モデルが異なるサイズのオブジェクトを検出できる能力によるものです。

ポートされたモデルは、元のモデルと同じロジットを出力する必要があります

Hugging Faceでは、モデルを私たちのコードベースにポートする際に非常に注意しています。アーキテクチャ、明確なドキュメンテーション、コーディング構造に関してだけでなく、同じ入力を与えた場合にポートされたモデルが元のモデルと同じロジットを生成できることを保証する必要があります。

モデルによって出力されるロジットは、信頼スコア、ラベルID、バウンディングボックスの座標に後処理されます。したがって、ロジットのわずかな変化は、メトリックの結果に影響を与える可能性があります。先ほどの例を思い出してください。平均精度を計算するプロセスについて話しました。私たちは、信頼レベルが検出をソートすることを示し、小さな変動が異なる順序としたがって異なる結果をもたらす可能性があることを示しました。

モデルがさまざまな形式でボックスを生成することにも注意することが重要です。このことも評価者によって要求される適切な変換を行う必要があります。

(x、y、幅、高さ)：これは左上隅の座標と絶対的な寸法（幅と高さ）を示します。
(x、y、x2、y2)：この形式は左上隅と右下隅の座標を示します。
(rel_x_center、rel_y_center、rel_width、rel_height)：これらの値は、ボックスの中心の相対座標と相対的な寸法を示します。

一部のベンチマーキングデータセットでは、一部の正解データが無視されます

一部のデータセットでは、評価プロセス中に無視される特別なラベルが使用されることがあります。

たとえば、COCOでは、大量のオブジェクト（例：バスケットの中の多くのリンゴ）をタグ付けするためにiscrowdタグを使用します。評価中、iscrowd=1とタグ付けされたオブジェクトは無視されます。これを考慮に入れないと、異なる結果が得られる可能性があります。

IoUの計算には注意が必要です

定義に基づいてIoUを計算するのは簡単に見えるかもしれませんが、重要な詳細があります。つまり、正解データと検出が1ピクセルでも全く重ならない場合、IoUは0であるべきです。結合を計算する際にゼロで割ることを避けるために、小さな値（イプシロンと呼ばれる）を分母に加えることができます。ただし、イプシロンを慎重に選ぶことが重要です。1e-4より大きい値は、正確な結果を与えるために十分に中立的ではないかもしれません。

テキスト条件付きモデルは適切なプロンプトを要求します

OWL-ViTなどのテキスト条件付きモデルを評価したい場合、異なるプロンプト（例：”Find the dog”や”Where’s the bulldog?”）でも同じ結果が得られる場合があります。ただし、私たちは各論文で説明された手順に従うことにしました。例えば、OWL-ViTの場合、ベンチマーキングデータセットのクラスに置き換えられるプロンプト “an image of a {}” を使用してオブジェクトを予測します。

結論

この記事では、物体検出の問題を紹介し、それらを評価するために使用される主なメトリックを示しました。

物体検出モデルの評価は、見かけよりも多くの作業を必要とすることに注意してください。各モデルの特異性は注意深く考慮する必要があり、バイアスのある結果を防ぐためです。また、各メトリックは同じモデルの異なる視点を表し、「最適な」メトリックを選ぶことは、モデルのアプリケーションと選択したベンチマーキングデータセットの特性によって異なります。

以下は、特定のユースケースに推奨されるメトリックを示し、実際のシナリオを例として挙げた表です。ただし、これらはあくまで提案です。理想的なメトリックは、各アプリケーションの異なる特異性に基づいて変化する可能性があります。

私たちの🤗物体検出リーダーボードに表示される結果は、モデルのベンチマークにコミュニティで広く使用されている独立ツールPyCOCOtoolsを使用して計算されます。私たちはさまざまなドメイン（医療画像、スポーツ、自動車など）のデータセットを収集することを目指しています。データセット、モデル、および機能のリクエストを行うためのディスカッションページを使用することができます。あなたのモデルやデータセットがリーダーボードに表示されるのを楽しみにしています！

追加リソース

オブジェクト検出ガイド
オブジェクト検出のタスク
効果的な検出提案の条件についての論文
オープンソースツールキットとの比較的なオブジェクト検出メトリクスの分析に関する論文
オブジェクト検出アルゴリズムの性能評価メトリクスに関する論文の調査

フィードバックと素晴らしいコメントに感謝します 🙌 @merve、@osanseviero、@pcuenq 🤗

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

物体検出リーダーボード

目次

物体検出とは？

メトリクス

平均適合率とは何か、そしてどのように計算するのか？

平均適合率とは何か、どのように計算するか？

平均適合率と平均再現率のバリアントにはどのようなものがありますか？

Object Detection Leaderboard

メトリックスに基づいて最適なモデルを選ぶ方法

どのパラメータが平均精度の結果に影響を与える可能性がありますか？

評価前の検出の閾値設定

バッチサイズの変更

ポートされたモデルは、元のモデルと同じロジットを出力する必要があります

一部のベンチマーキングデータセットでは、一部の正解データが無視されます

IoUの計算には注意が必要です

テキスト条件付きモデルは適切なプロンプトを要求します

結論

追加リソース

Was this article helpful?

「3Dガウシアンスプラッティング入門」

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

「3つの質問：ロボットの認識とマッピングの研磨」

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

Q&A：ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解