なぜ、そして何が特徴エンジニアリングとは何ですか?

特徴エンジニアリングとは何ですか?

機械学習のためのデータ変換と選択

筆者の画像

はじめに

機械学習モデルのために改善されたデータを作成するための特徴変換、選択、または抽出のプロセスです。データサイエンスの担当者によってデータの処理と改善が行われ、良いモデルを得るために異なるアプローチがあります。ほとんどの人が特徴エンジニアリングの技術を使用します。この記事では、特徴エンジニアリングのさまざまな技術について説明します。

特徴エンジニアリングには以下の4つのパートがあります:

  1. 特徴変換
  2. 特徴構築
  3. 特徴選択
  4. 特徴抽出

このPart-1の記事では、特徴変換とその異なる技術について説明します。

特徴変換

モデルに渡す前のデータの前処理を行うために最もよく使用される方法や技術です。欠損データの補完、スケーリング、エンコーディング、外れ値の検出などのプロセスが含まれます。

スケーリング:

データの値にばらつきがある場合に使用される方法です。例えば、ある入力列の値が非常に低く、他の入力列の値が非常に高い場合、モデルは良いパフォーマンスから外れる可能性があります。大きな値の列がモデルの学習に優先され、他の特徴に対しては重要度が低くなります。

キーポイント:

  • トレーニングとテストの分割後にスケーリングを行うことが望ましいです。
  • 他の変換後にスケーリングを行うと、より良いモデルのパフォーマンスを得ることができるかもしれません。

スケーリングの種類:

  1. 標準化:
  • このタイプのスケーリングでは、値は平均と標準偏差に収束します。新しく変換されたデータポイントは平均値がゼロで、標準偏差が1になります。
  • sklearnのスカラーライブラリを使用すると、新しく変換された列のnumpy配列が返されますが、それらをデータフレームで使用する必要があります。
  • どのモデルを適用するかわからない場合に使用します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

人工知能

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

アミール・ヘヴァーは、UVeyeのCEO兼共同創設者であり、高速かつ正確な異常検出により、自動車およびセキュリティ産業に直面...

人工知能

「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

「ガウタム・バクシは、気候リスク管理とアドバイザリーサービスのグローバルリーダーである15Rockの共同創設者兼CEOですガウ...