「あなたの分類モデルにとって有害な特徴はどれですか?」
有害な特徴は何ですか?
分類器の特徴量のエラー寄与を計算し、モデルの理解と改善を目指す方法
特徴重要度は、機械学習モデルの説明に最も一般的に使用されるツールです。それほど人気がありますので、多くのデータサイエンティストが特徴重要度と特徴の良さを同義と考えるようになります。
しかし、それは正しくありません。
特徴が重要であるとは、単にモデルがトレーニングセットで有用と判断したことを意味します。しかし、これは新しいデータで一般化する能力について何も言っていません!
この点を考慮するために、2つの概念の区別が必要です:
- マルコフとビネメ・シェビシェフの不等式
- 「監督のギレルモ・デル・トロとティム・バートンはAIについて異なる見解を持っています」
- エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ
- 予測寄与:変数がモデルによって行われる予測において持つ重み。これはモデルがトレーニングセットで見つけたパターンによって決まります。これは特徴重要度と同等です。
- エラー寄与:モデルがホールドアウトデータセットで犯すエラーにおいて変数が持つ重み。これは新しいデータにおける特徴の性能のより良い代理となります。
この記事では、分類モデルにおけるこれら2つの量の計算の背後にあるロジックを説明します。また、予測寄与を使用するよりもエラー寄与を使用した場合に、特徴選択においてはるかに良い結果が得られる例も示します。
分類ではなく回帰に興味がある場合は、「あなたの特徴は重要ですか?それは彼らが良いことを意味するわけではありません」という私の以前の記事を読んでください。
目次
- おもちゃの例から始める
- 分類モデルにどの「エラー」を使用すべきか?
- 分類モデルでSHAP値をどのように管理すべきか?
- 「予測寄与」の計算
- 「エラー寄与」の計算
- 実際のデータセットの例
- それが機能することを証明する:「エラー寄与」を使用した再帰的特徴削除
- 結論
1. おもちゃの例から始める
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles