「あなたの分類モデルにとって有害な特徴はどれですか?」

有害な特徴は何ですか?

分類器の特徴量のエラー寄与を計算し、モデルの理解と改善を目指す方法

[著者によるイメージ]

特徴重要度は、機械学習モデルの説明に最も一般的に使用されるツールです。それほど人気がありますので、多くのデータサイエンティストが特徴重要度と特徴の良さを同義と考えるようになります。

しかし、それは正しくありません。

特徴が重要であるとは、単にモデルがトレーニングセットで有用と判断したことを意味します。しかし、これは新しいデータで一般化する能力について何も言っていません!

この点を考慮するために、2つの概念の区別が必要です:

  • 予測寄与:変数がモデルによって行われる予測において持つ重み。これはモデルがトレーニングセットで見つけたパターンによって決まります。これは特徴重要度と同等です。
  • エラー寄与:モデルがホールドアウトデータセットで犯すエラーにおいて変数が持つ重み。これは新しいデータにおける特徴の性能のより良い代理となります。

この記事では、分類モデルにおけるこれら2つの量の計算の背後にあるロジックを説明します。また、予測寄与を使用するよりもエラー寄与を使用した場合に、特徴選択においてはるかに良い結果が得られる例も示します。

分類ではなく回帰に興味がある場合は、「あなたの特徴は重要ですか?それは彼らが良いことを意味するわけではありません」という私の以前の記事を読んでください。

目次

  1. おもちゃの例から始める
  2. 分類モデルにどの「エラー」を使用すべきか?
  3. 分類モデルでSHAP値をどのように管理すべきか?
  4. 「予測寄与」の計算
  5. 「エラー寄与」の計算
  6. 実際のデータセットの例
  7. それが機能することを証明する:「エラー寄与」を使用した再帰的特徴削除
  8. 結論

1. おもちゃの例から始める

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...