不均衡データに対する回帰のための機械学習

不均衡データの回帰に対する機械学習

データセットの外れ値を予測するのがなぜ難しいのか、そしてそれに対抗する方法

不均衡データとは何ですか?

多くの現実のデータセットは、特定のタイプのサンプルがデータセット内で過剰に表現され、他のサンプルは少なく出現するという不均衡状態になっています。以下にいくつかの例を示します:

  • クレジットカードのトランザクションを詐欺か正当か分類する場合、ほとんどのトランザクションは後者のカテゴリに属することがほとんどです
  • 激しい雨は中程度の雨よりも少なく発生しますが、人々やインフラにより多くの被害をもたらす可能性があります
  • 土地利用を特定しようとする際、森林や農業を表すピクセルの方が都市の集落よりも多いです

この記事では、機械学習アルゴリズムが不均衡データに苦戦する理由について、直感的な説明をし、分位評価を使用してアルゴリズムのパフォーマンスを定量化する方法、およびアルゴリズムのパフォーマンスを改善するための3つの異なる戦略を紹介します。

Elena Mozhviloによる写真(Unsplash)

回帰のための例のデータセット:カリフォルニアの住宅

データセットの不均衡は、多数派クラスが少数派クラスを圧倒する分類問題でよく示されます。ここでは、ターゲットが連続的な数値である回帰に焦点を当てます。scikit-learnで利用できるカリフォルニア住宅データセットを使用します。このデータセットには、場所、部屋数、ベッドルーム数、建物の年齢、平方フィート、中央近隣の収入などの特徴を持つ20,000以上の住宅サンプルが含まれています。ターゲット変数は、米ドルで表される住宅価格の中央値です。データセットが不均衡かどうかを確認するために、ターゲット変数のヒストグラムをプロットします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more