「機械学習評価指標 理論と概要」

Machine Learning Evaluation Metrics Theory and Overview

 

新しいデータに対して適切に一般化する機械学習モデルを構築することは非常に困難です。モデルが十分に良いか、パフォーマンスを向上させるために修正が必要かを理解するために評価する必要があります。

モデルがトレーニングセットから十分なパターンを学習しない場合、トレーニングセットとテストセットの両方でパフォーマンスが低下します。これがいわゆる適合不足の問題です。

トレーニングデータのパターンについて過剰に学習すると、ノイズを含めてモデルはトレーニングセットで非常に優れたパフォーマンスを発揮しますが、テストセットではうまく機能しません。この状況が過学習です。モデルの一般化は、トレーニングセットとテストセットの両方で測定されるパフォーマンスが似ている場合に得られます。

この記事では、分類問題と回帰問題の最も重要な評価メトリックスを紹介します。これにより、モデルがトレーニングサンプルのパターンを適切に捉え、未知のデータでのパフォーマンスが良いかどうかを確認するのに役立ちます。さあ、始めましょう!

 

分類

 

対象がカテゴリカルな場合、分類問題に取り組んでいます。最適なメトリックスの選択は、データセットの特性、アンバランスかどうか、および分析の目標など、さまざまな側面に依存します。

評価メトリックスを示す前に、分類モデルのパフォーマンスを要約する重要な表である混同行列というものを説明する必要があります。

たとえば、超音波画像から乳がんを検出するモデルを訓練したいとします。悪性と良性の2つのクラスしかありません。

  • 真陽性:悪性のがんと予測された末期患者の数
  • 真陰性:良性のがんと予測された健康な人の数
  • 偽陽性:悪性のがんと予測された健康な人の数
  • 偽陰性:良性のがんと予測された末期患者の数

 

 

正解率

 

 

正解率は、分類モデルを評価するための最もよく知られたメトリックスの1つです。これは、正しい予測の割合をサンプル数で割ったものです。

正解率は、データセットがバランスしていることを認識している場合に使用されます。つまり、出力変数の各クラスには同じ数の観測値があるということです。

正解率を使用することで、「モデルはすべてのクラスを正しく予測していますか?」という質問に答えることができます。そのため、陽性クラス(悪性がん)と陰性クラス(良性がん)の正しい予測があります。

 

適合率

 

 

正確さとは異なり、適合率はクラスがアンバランスな場合に使用される分類の評価メトリックスです。

適合率は次の質問に答えます。「悪性がんの検出のうち、実際に正しいものはどれくらいですか?」。真陽性と陽性予測の比率で計算されます。

偽陽性の数が少ないほど、適合率は高くなります。

 

再現率

 

 

適合率と共に、再現率は出力変数のクラスごとに異なる観測値の数を持つ場合に適用される別のメトリックスです。再現率は次の質問に答えます。「悪性がんを持つ患者の何割を認識できましたか?」。

偽陰性に焦点を当てる場合、再現率に注意を払う必要があります。偽陰性とは、患者が悪性の癌を持っているが、私たちはそれを識別することができなかったことを意味します。そのため、未知のデータにおいて望ましい良いパフォーマンスを得るために、再現率と適合率の両方を監視する必要があります。

 

F1スコア

 

 

適合率と再現率の両方を監視することは混乱することがあり、これらの指標をまとめた指標があると望ましいです。それがF1スコアであり、適合率と再現率の調和平均として定義されています。

F1スコアが高いのは、適合率と再現率の両方が高い値を持っていることによるものです。再現率または適合率が低い値を持つ場合、F1スコアは罰則を受け、その結果、低い値になります。

 

回帰

 

 

出力変数が数値である場合、回帰問題を扱っています。分類問題と同様に、分析の目的に応じて回帰モデルの評価指標を選択することが重要です。

回帰問題の最も一般的な例は、家の価格の予測です。家の価格を正確に予測することに興味がありますか?それとも全体の誤差を最小化することだけに関心がありますか?

これらの指標では、構築ブロックは予測値と実測値の差(残差)です。

 

MAE

 

 平均絶対誤差(MAE)は、平均絶対残差を計算します。

他の評価指標と比べて、高い誤差に対してはあまり罰則がなく、すべての誤差が同様に扱われるため、この指標は外れ値に対して頑健です。また、差の絶対値はエラーの方向を無視します。

 

MSE

 

 

平均二乗誤差(MSE)は、平均二乗残差を計算します。

予測値と実測値の差が二乗されるため、高い誤差に対してより重みを持ちます。したがって、全体の誤差を最小化するよりも、大きな誤差を避けることが望ましい場合に有用です。

 

RMSE

 

 

平均二乗平方根誤差(RMSE)は、平均二乗残差の平方根を計算します。

MSEを理解している場合、RMSEはMSEの平方根であることを理解するのに時間をかけます。RMSEの良い点は、指標が目標変数のスケールであるため、解釈が容易であることです。形状を除いては、MSEと非常に似ており、常に大きな差に重みを与えます。

 

MAPE

 

 

平均絶対パーセンテージ誤差(MAPE)は、予測値と実測値の平均絶対パーセント差を計算します。

MAEと同様に、誤差の方向を無視し、理想的には値が0であることが最良です。

たとえば、家の価格の予測に対して0.3のMAPE値を得た場合、平均して予測が実測値よりも30%低いことを意味します。

 

最後の考え

 

評価メトリックの概要を楽しんでいただけたことを願っています。分類と回帰モデルのパフォーマンスを評価するための最も重要な指標について説明しました。ここに挙げられていないが、問題の解決に役立った他の命を救うメトリックがある場合は、コメントに書き込んでください。Eugenia Anelloは現在、イタリアのパドヴァ大学情報工学部の研究員です。彼女の研究プロジェクトは、持続的学習と異常検出を組み合わせたものに焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

興味深い進展として、テクノロジー巨人IBMが人工知能(AI)の世界を革新するかもしれない「脳のような」チップのプロトタイプ...

AIニュース

「FacebookとInstagramにて、Metaが新しいAI機能を発表」

人工知能において注目すべき進展が詰まった2022年において、Metaは革新的な進歩を遂げ、確実にリードを取っています。仮想ア...

人工知能

「コンプライアンス自動化標準ソリューション(COMPASS), パート1 パーソナと役割」

「これは私たちのシリーズの最初の部分であり、組織やクラウドプロバイダが連続的なコンプライアンスを達成しようとする際に...

AI研究

NVIDIAの最高科学者、ビル・ダリー氏がHot Chipsで基調講演を行う

ビル・ダリー(NVIDIAの研究部門の責任者であり、世界有数のコンピュータ科学者の一人)は、Hot Chipsという年次のプロセッサ...

機械学習

PyTorchモデルのパフォーマンス分析と最適化—Part2

これは、GPU上で実行されるPyTorchモデルの分析と最適化に関する一連の投稿の第二部です最初の投稿では、プロセスとその重要...

AI研究

メタAI研究者がGenBenchを導入:自然言語処理の汎化を進める革命的なフレームワーク

モデルの一般化能力は、自然言語処理(NLP)の持続的な成功にとって重要です。重要な要素として一般的に受け入れられているも...