「機械学習評価指標 理論と概要」

Machine Learning Evaluation Metrics Theory and Overview

 

新しいデータに対して適切に一般化する機械学習モデルを構築することは非常に困難です。モデルが十分に良いか、パフォーマンスを向上させるために修正が必要かを理解するために評価する必要があります。

モデルがトレーニングセットから十分なパターンを学習しない場合、トレーニングセットとテストセットの両方でパフォーマンスが低下します。これがいわゆる適合不足の問題です。

トレーニングデータのパターンについて過剰に学習すると、ノイズを含めてモデルはトレーニングセットで非常に優れたパフォーマンスを発揮しますが、テストセットではうまく機能しません。この状況が過学習です。モデルの一般化は、トレーニングセットとテストセットの両方で測定されるパフォーマンスが似ている場合に得られます。

この記事では、分類問題と回帰問題の最も重要な評価メトリックスを紹介します。これにより、モデルがトレーニングサンプルのパターンを適切に捉え、未知のデータでのパフォーマンスが良いかどうかを確認するのに役立ちます。さあ、始めましょう!

 

分類

 

対象がカテゴリカルな場合、分類問題に取り組んでいます。最適なメトリックスの選択は、データセットの特性、アンバランスかどうか、および分析の目標など、さまざまな側面に依存します。

評価メトリックスを示す前に、分類モデルのパフォーマンスを要約する重要な表である混同行列というものを説明する必要があります。

たとえば、超音波画像から乳がんを検出するモデルを訓練したいとします。悪性と良性の2つのクラスしかありません。

  • 真陽性:悪性のがんと予測された末期患者の数
  • 真陰性:良性のがんと予測された健康な人の数
  • 偽陽性:悪性のがんと予測された健康な人の数
  • 偽陰性:良性のがんと予測された末期患者の数

 

 

正解率

 

 

正解率は、分類モデルを評価するための最もよく知られたメトリックスの1つです。これは、正しい予測の割合をサンプル数で割ったものです。

正解率は、データセットがバランスしていることを認識している場合に使用されます。つまり、出力変数の各クラスには同じ数の観測値があるということです。

正解率を使用することで、「モデルはすべてのクラスを正しく予測していますか?」という質問に答えることができます。そのため、陽性クラス(悪性がん)と陰性クラス(良性がん)の正しい予測があります。

 

適合率

 

 

正確さとは異なり、適合率はクラスがアンバランスな場合に使用される分類の評価メトリックスです。

適合率は次の質問に答えます。「悪性がんの検出のうち、実際に正しいものはどれくらいですか?」。真陽性と陽性予測の比率で計算されます。

偽陽性の数が少ないほど、適合率は高くなります。

 

再現率

 

 

適合率と共に、再現率は出力変数のクラスごとに異なる観測値の数を持つ場合に適用される別のメトリックスです。再現率は次の質問に答えます。「悪性がんを持つ患者の何割を認識できましたか?」。

偽陰性に焦点を当てる場合、再現率に注意を払う必要があります。偽陰性とは、患者が悪性の癌を持っているが、私たちはそれを識別することができなかったことを意味します。そのため、未知のデータにおいて望ましい良いパフォーマンスを得るために、再現率と適合率の両方を監視する必要があります。

 

F1スコア

 

 

適合率と再現率の両方を監視することは混乱することがあり、これらの指標をまとめた指標があると望ましいです。それがF1スコアであり、適合率と再現率の調和平均として定義されています。

F1スコアが高いのは、適合率と再現率の両方が高い値を持っていることによるものです。再現率または適合率が低い値を持つ場合、F1スコアは罰則を受け、その結果、低い値になります。

 

回帰

 

 

出力変数が数値である場合、回帰問題を扱っています。分類問題と同様に、分析の目的に応じて回帰モデルの評価指標を選択することが重要です。

回帰問題の最も一般的な例は、家の価格の予測です。家の価格を正確に予測することに興味がありますか?それとも全体の誤差を最小化することだけに関心がありますか?

これらの指標では、構築ブロックは予測値と実測値の差(残差)です。

 

MAE

 

 平均絶対誤差(MAE)は、平均絶対残差を計算します。

他の評価指標と比べて、高い誤差に対してはあまり罰則がなく、すべての誤差が同様に扱われるため、この指標は外れ値に対して頑健です。また、差の絶対値はエラーの方向を無視します。

 

MSE

 

 

平均二乗誤差(MSE)は、平均二乗残差を計算します。

予測値と実測値の差が二乗されるため、高い誤差に対してより重みを持ちます。したがって、全体の誤差を最小化するよりも、大きな誤差を避けることが望ましい場合に有用です。

 

RMSE

 

 

平均二乗平方根誤差(RMSE)は、平均二乗残差の平方根を計算します。

MSEを理解している場合、RMSEはMSEの平方根であることを理解するのに時間をかけます。RMSEの良い点は、指標が目標変数のスケールであるため、解釈が容易であることです。形状を除いては、MSEと非常に似ており、常に大きな差に重みを与えます。

 

MAPE

 

 

平均絶対パーセンテージ誤差(MAPE)は、予測値と実測値の平均絶対パーセント差を計算します。

MAEと同様に、誤差の方向を無視し、理想的には値が0であることが最良です。

たとえば、家の価格の予測に対して0.3のMAPE値を得た場合、平均して予測が実測値よりも30%低いことを意味します。

 

最後の考え

 

評価メトリックの概要を楽しんでいただけたことを願っています。分類と回帰モデルのパフォーマンスを評価するための最も重要な指標について説明しました。ここに挙げられていないが、問題の解決に役立った他の命を救うメトリックがある場合は、コメントに書き込んでください。Eugenia Anelloは現在、イタリアのパドヴァ大学情報工学部の研究員です。彼女の研究プロジェクトは、持続的学習と異常検出を組み合わせたものに焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AI戦略にデータ管理を実装する方法」

データはAI戦略の核ですデータの品質、データの統合、データのガバナンスは、データを最も効果的に扱うための3つの主要な要素...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...

AI研究

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

機械学習

デシAIは、DeciDiffusion 1.0を公開しました:820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

問題の定義 テキストから画像を生成することは、人工知能において長い間の課題でした。テキストの説明を鮮明でリアルな画像に...

機械学習

「メタのMusicGenを使用してColabで音楽を生成する」

「ColabでMusicGenをセットアップする方法を学びましょうこの先進のテキストから音楽へ変換するモデルは、人工知能アルゴリズ...