なぜ、そして何が特徴エンジニアリングとは何ですか?

特徴エンジニアリングとは何ですか?

機械学習のためのデータ変換と選択

筆者の画像

はじめに

機械学習モデルのために改善されたデータを作成するための特徴変換、選択、または抽出のプロセスです。データサイエンスの担当者によってデータの処理と改善が行われ、良いモデルを得るために異なるアプローチがあります。ほとんどの人が特徴エンジニアリングの技術を使用します。この記事では、特徴エンジニアリングのさまざまな技術について説明します。

特徴エンジニアリングには以下の4つのパートがあります:

  1. 特徴変換
  2. 特徴構築
  3. 特徴選択
  4. 特徴抽出

このPart-1の記事では、特徴変換とその異なる技術について説明します。

特徴変換

モデルに渡す前のデータの前処理を行うために最もよく使用される方法や技術です。欠損データの補完、スケーリング、エンコーディング、外れ値の検出などのプロセスが含まれます。

スケーリング:

データの値にばらつきがある場合に使用される方法です。例えば、ある入力列の値が非常に低く、他の入力列の値が非常に高い場合、モデルは良いパフォーマンスから外れる可能性があります。大きな値の列がモデルの学習に優先され、他の特徴に対しては重要度が低くなります。

キーポイント:

  • トレーニングとテストの分割後にスケーリングを行うことが望ましいです。
  • 他の変換後にスケーリングを行うと、より良いモデルのパフォーマンスを得ることができるかもしれません。

スケーリングの種類:

  1. 標準化:
  • このタイプのスケーリングでは、値は平均と標準偏差に収束します。新しく変換されたデータポイントは平均値がゼロで、標準偏差が1になります。
  • sklearnのスカラーライブラリを使用すると、新しく変換された列のnumpy配列が返されますが、それらをデータフレームで使用する必要があります。
  • どのモデルを適用するかわからない場合に使用します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...