「分類メトリックの理解：モデルの精度評価ガイド」

「美容とファッションの世界でのエキスパートとしての私の経験と知識」

動機

評価指標は、機械学習モデルのパフォーマンスを理解するために使用する計測ツールのようなものです。異なるモデルを比較し、特定のタスクに最適なものを見つけるために役立ちます。分類問題の世界では、どの評価指標が適切なのかを知ることが重要であり、それぞれの評価指標の詳細を理解することで、タスクの要件に合った指標を選ぶことが容易になります。

この記事では、分類タスクで使用される基本的な評価指標を探求し、ある評価指標が他の指標よりも優れている場合の状況を検証します。

基本用語

評価指標を深く掘り下げる前に、分類問題に関連する基本用語を理解することが重要です。

Ground Truth Labels（真の正解ラベル）：これは、データセットの各例に対応する実際のラベルを指します。これらはすべての評価の基礎であり、予測値はこれらの値と比較されます。

Predicted Labels（予測ラベル）：これは、データセットの各例に対して機械学習モデルを使用して予測されるクラスラベルです。このような予測を、評価指標を使用して真の正解ラベルと比較し、データ内の表現をモデルが学習できたかどうかを計算します。

ここでは、理解を容易にするために二値分類問題だけを考慮しましょう。データセットには二つの異なるクラスのみがあり、真の正解ラベルと予測ラベルを比較すると、次の四つの結果が得られます。

真陽性：モデルが正例のクラスラベルを予測し、真の正解も正例の場合です。これは必要な振る舞いであり、モデルが正のラベルを正確に予測できたことを示します。

偽陽性：モデルが負の真の正解ラベルの場合に正のクラスラベルを予測します。モデルはデータサンプルを誤って正として識別します。

偽陰性：モデルが正例の例に対して負のクラスラベルを予測します。モデルはデータサンプルを誤って負として識別します。

真陰性：これも必要な振る舞いです。モデルは負のサンプルを正確に識別し、真の正解ラベルが0のデータサンプルに対して0を予測します。

これらの用語を基に、一般的な評価指標の働きを理解できます。

正解率

これは分類問題のモデルのパフォーマンスを評価する最も簡単で直感的な方法です。モデルが正確に予測した合計ラベルの割合を測定します。

したがって、正解率は以下のように計算できます：

または

使用するタイミング

初期モデル評価

その単純さから、正解率は広く使用される評価指標です。特定の問題領域向けの指標を使用する前に、モデルがうまく学習できるかどうかを確認するための良い出発点となります。

バランスの取れたデータセット

正解率は、すべてのクラスラベルが類似の割合で存在するバランスの取れたデータセットに適しています。もしクラスラベルの一方が他のクラスラベルよりも著しく多い場合、モデルは常に多数派のクラスを予測することで高い正解率を達成する可能性があります。正解率は各クラスの誤った予測を均等にペナルティを与えるため、バランスの取れていないデータセットには適していません。

誤分類のコストが同じ場合

正解率は、偽陽性または偽陰性のいずれが同じくらい悪い場合に適しています。たとえば、感情分析の問題では、ネガティブなテキストをポジティブと分類するか、ポジティブなテキストをネガティブと分類するのは同じくらい悪いです。そのようなシナリオにおいては、正解率は良い評価指標です。

精度（Precision）

精度（Precision）着重确保我们正确预测所有的正例。它衡量了实际正例中有多少被正确预测为正例。

在数学上，它表示为

何时使用

错误正例代价高昂

考虑一个我们正在训练模型以检测癌症的场景。对于我们来说，更重要的是不要将一个没有癌症的患者误分类为癌症，即假正例。我们希望在做出正面预测时有把握，因为错误地将一个人分类为癌症阳性可能会导致不必要的压力和费用。因此，我们非常重视只在实际标签为阳性时预测出阳性标签。

质量优先于数量

再考虑另一种情况，我们正在构建一个将用户查询与数据集匹配的搜索引擎。在这种情况下，我们希望搜索结果与用户查询密切匹配。我们不希望返回与用户无关的任何文档，即假正例。因此，我们只对与用户查询密切匹配的文档预测为正例。我们更重视质量，而不是数量，因为我们更喜欢少量与用户相关联的结果，而不是可能与用户相关或不相关的大量结果。对于这种情况，我们希望有高精度。

召回率（Recall）

召回率（Recall），也称为敏感度（Sensitivity），衡量了模型在数据集中正确记住正例标签的能力。它衡量了模型将我们的数据集中的正例预测为正例的比例。

较高的召回率意味着模型更善于记住具有正例标签的数据样本。

何时使用

漏检的成本很高

当漏掉一个正例标签会产生严重后果时，我们使用召回率。考虑一个情景，我们使用机器学习模型来检测信用卡欺诈。在这种情况下，及早发现问题是至关重要的。我们不想错过一个欺诈交易，因为它会增加损失。因此，我们更重视召回率而不是精度，在这种情况下，将一个交易错误地分类为欺诈可能很容易验证，而且我们可以容忍一些假正例而不能容忍假反例。

F1值（F1-Score）

F1值（F1-Score）是精度和召回率的调和平均值。它惩罚具有某一度量值之间显著不平衡的模型。

在精度和召回率同等重要且需要平衡两者的情况下，F1值被广泛用于评估分类模型，允许在两者之间达到平衡。

何时使用

不平衡的数据集

与准确率（accuracy）不同，F1值适用于评估不平衡的数据集，因为我们根据模型对少数类的召回能力以及整体高精度来评估性能。

精准率-召回率（Precision-Recall）权衡

这两个度量相互对立。根据经验，改进一个度量往往会降低另一个度量。F1值有助于平衡两个度量，并且在两者同等重要的情况下非常有用。综合考虑这两个度量进行计算，F1值是评估分类模型的广泛使用指标。

主要要点

我们了解到不同的评估指标有各自的作用。了解这些指标有助于我们为任务选择合适的指标。在现实生活中，不仅要有好的模型，还要有完全适合我们业务需求的模型。因此，选择合适的评估指标就像选择合适的工具，确保我们的模型在最重要的地方表现出色。

まだどのメトリックを使うか迷っていますか？正確性から始めるのは良い最初の一歩です。それはモデルの性能を基本的に理解することができます。そこから、特定の要件に基づいて評価をカスタマイズすることができます。または、精度と再現率のバランスを取りながらさまざまなシナリオに適した高精度率（F1スコア）を考慮してください。網羅的な分類評価のための便利なツールになります。 Muhammad Arhamは、コンピュータビジョンと自然言語処理で働くディープラーニングエンジニアです。彼はVyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼はインテリジェントシステムのための機械学習モデルの構築と最適化に興味を持っており、継続的な改善を信じています。

[Muhammad Arham](https://www.linkedin.com/in/muhammad-arham-a5b1b1237/)は、コンピュータビジョンと自然言語処理で働くディープラーニングエンジニアです。彼はVyro.AIで世界的なトップチャートに到達したいくつかの生成型AIアプリケーションの展開と最適化に取り組んできました。彼はインテリジェントシステムのための機械学習モデルの構築と最適化に興味を持っており、継続的な改善を信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Machine learning

Was this article helpful?

93 out of 132 found this helpful

「分類メトリックの理解：モデルの精度評価ガイド」

動機

基本用語

正解率

使用するタイミング

精度（Precision）

何时使用

召回率（Recall）

何时使用

F1值（F1-Score）

何时使用

主要要点

Was this article helpful?

ソフトウェア開発のパラダイムシフト：GPTConsoleの人工知能AIエージェントが新たな地平を開く

AIと資金調達：資金調達には人間の要素が必要か？

機械学習

「2023年の小売り向けデータストリーミングの状況」

「検索増強生成によるAIの幻覚の軽減」

「LLMテクノロジーの理解」

(Samsung no AI to chippu gijutsu no mirai e no senken no myōyaku)

「チャットボットとAIアシスタントの構築」

「タンパク質設計の革命：ディープラーニングの改良により成功率が10倍に向上したこのAI研究」