直感的にR2と調整済みR2のメトリックを探索する

R2と調整済みR2のメトリックを探索する

この記事では、R2と調整済みR2メトリックスがどのように動作するかを直感的に学ぶことができます。

Photo by Siora Photography on Unsplash

R2は、回帰型の機械学習タスクの評価メトリックとして広く使用されています。このメトリックは、ターゲットの特徴(従属特徴)の分散のどれだけが、機械学習モデル(モデルは独立した特徴の関数である)によって説明できるかを見つけます。

さて、ターゲットの特徴の分散を知って何の良いことがあるのか疑問に思うかもしれません。これに答えるためには、分散が情報の測定ツールとしてどのように認識できるかを知る必要があります。基本的に、あるものの分散が高ければ高いほど、そのものについての情報が多いということです。

この概念を理解するために、例を取りましょう。私たちは、3人の友人が顔を隠しているゲームをしているとしましょう。彼らが身長だけを基にして誰が誰かを認識する必要があります。もし3人の友人の身長の差(身長の分散)がかなり大きい場合、すべての友人を簡単に認識することができます。一方、友人たちの身長が同じくらいであれば、身長だけで彼らを認識するのはかなり難しいでしょう。この場合、体重などの他の基準を見る必要があります。

したがって、身長の差が大きい場合には3人の友人を簡単に認識することができました。この例は、分散が情報の測定ツールとして認識される方法を説明しています。

R2メトリック

R2は、トレーニングされたモデルとデータポイントの平均を常に出力するモデルとの比較です(黄色の線が緑色の線と比較してどれほど良いか)。

R2メトリックを求めるには、次の2つの値を知る必要があります:

  1. データの平均値(平均分散)を中心にしたターゲット特徴の分散(灰色の点の緑色の線に対する分散)。
  2. 最適な適合線(モデル分散)を中心にしたターゲット特徴の分散(灰色の点の黄色の線に対する分散)。

平均分散は、すべてのデータポイントのy座標の平均においてy軸を横切る水平線(図中の緑色の線)によって出力されるデータの平均を出力するモデルによって説明されるターゲット特徴の分散とも解釈できます。

モデル分散は、与えられたデータに対してトレーニングされたモデルによって説明されるターゲット特徴の分散とも考えることができます(図中の黄色の線)。

R2の解釈方法

R2の値は、モデルによって説明できるターゲット特徴の分散の割合を示します。分散が説明できる割合が高いほど、モデルが優れています。したがって、R2の値が1に近いほど、モデルは良好であり、値がに近いほど、モデルは悪いです。

例えば、モデルのR2値が0.85であるとします。この文は、トレーニングされたモデルがターゲット特徴の分散の85%を説明していることを意味します。

R2の可能な値

  1. R2は0から1の範囲で存在します(両端を含む)。時には負の値になることもあります。この負の場合は、トレーニングデータでモデルをトレーニングし、そのトレーニングされたモデルを新しいデータでテストする場合に発生します。これは、新しいデータの予測の分散が平均モデルの分散よりも小さくなるとは必ずしも限らないためです。トレーニングデータでトレーニングし、再びトレーニングデータでモデルをテストすると常に正のR2値が得られます。
  2. R2 = 0 => トレーニングされたモデルは平均モデルと同等です(非常にパフォーマンスが悪いモデル)
  3. R2の最大値は1です。

R2の問題

R2は、独立した特徴量をトレーニングデータに追加するたびに増加します。トレーニングデータに無駄な特徴量やランダムな特徴量を追加しても、この増加は起こります。これは、ランダムデータでもわずかな相関関係を見つけるのは非常に簡単だからです。しかし、このわずかな相関関係が私たちのモデルを過学習させる可能性があります。したがって、このようなわずかな相関関係によって増加しないパフォーマンス指標が必要です。この問題は、調整済みR2として知られる別のパフォーマンス指標を使用することで解決されます。

調整済みR2メトリック

調整済みR2の基本的なアイデアは、モデルに新しい特徴量を追加するたびにスコアを罰則化することです。

分母(n-m-1)は、mの値を増やすと減少します。したがって、R2の有意な増加が見られない場合、式全体の値は増加せず、減少する場合さえあります。

要するに、

R2値のわずかな増加(重要でない特徴量の追加による) => 調整済みR2はほぼ同じままであり、減少する場合さえあります

R2値の有意な増加(重要な特徴量の追加による) => 調整済みR2は大幅に増加します

アウトロ

この記事がお役に立てれば幸いです。VoAGIで私の他の記事も読んでください。

LinkedInで私についてもっと知る

ウェブサイトで私についてもっと知る

メール:[email protected]

参考文献:

「Hands-on Machine Learning with Scikit-Learn、Keras&TensorFlow」という書籍

ネガティブR二乗の説明。なぜ、いつR二乗がマイナスになるのか | 著者:Tan Nian Wei | Towards Data Science

視覚的に説明する主成分分析(PCA) | 著者:Casey Cheng | Towards Data Science

(1882) 回帰メトリック | MSE、MAE&RMSE | R2スコア&調整済みR2スコア — YouTube

(1882) R二乗、はっきり解説!!! — YouTube

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Cassandra To-Doリスト ChatGPTプラグインの構築」

「Cassandraのステップバイステップガイド:ChatGPTプラグインを実装して、自分のやるべきことリストを管理するための仮想パ...

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

データサイエンス

LLM幻覚を軽減する方法

AIの幻覚は、訓練データの欠陥と過度の複雑さから生じます幻覚を減らすための研究に基づく戦略を発見しましょう

AIニュース

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを...

人工知能

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機...

AIニュース

ユーザーエクスペリエンスの向上:インタラクティブなチャットボットにOpenAIアシスタントAPIを実装する

イントロダクション OpenAIによるChatGPTとGPT 3モデルの導入により、世界はAIを統合したアプリケーションの使用にシフトしま...