「高い基数を持つカテゴリカルな特徴をエンコードするための4つの方法 — Pythonでの実装」となります

4 methods for encoding categorical features with high cardinality - Python implementation

scikit-learnとTensorFlowを使用してターゲットエンコーディング、カウントエンコーディング、特徴ハッシング、および埋め込みを適用する方法を学ぶ

“Click” — Photo by Cleo Vermij on Unsplash — 「クリック」— Cleo Vermijによる写真（Unsplash）

本記事では、高基数のカテゴリカル変数をエンコードするための4つの人気のある方法、つまり(1) ターゲットエンコーディング、(2) カウントエンコーディング、(3) 特徴ハッシング、および(4) 埋め込みについて説明します。

それぞれの方法の動作原理、利点と欠点、および分類タスクのパフォーマンスへの影響について説明します。

— カテゴリカル特徴の紹介 (1) なぜカテゴリカル特徴をエンコードする必要があるのか？ (2) ワンホットエンコーディングは高基数に適していない理由 — AdTechデータセットへの適用 — 各エンコーディング方法の概要 (1) ターゲットエンコーディング (2) カウントエンコーディング (3) 特徴ハッシング (4) 埋め込み — CTR予測のパフォーマンスの比較 — 結論 — 更なる学習のために

カテゴリカル特徴の紹介

カテゴリカル特徴は、カテゴリまたはグループ（例：性別、色、国）を説明する変数の一種です。これに対し、数値特徴は数量を測定する変数です（例：年齢、身長、温度）。

カテゴリデータには、順序特徴（Tシャツのサイズやレストランの評価など、カテゴリをランク付けおよびソートできるもの）と名義特徴（人の名前、都市の名前など、意味のある順序を示さないカテゴリ）の2つのタイプがあります。

なぜカテゴリカル特徴をエンコードする必要があるのか？

カテゴリカル変数のエンコードとは、カテゴリを数値に変換するマッピングを見つけることを意味します。

一部のアルゴリズムはカテゴリカルデータを直接扱うことができますが（決定木など）、ほとんどの機械学習モデルはカテゴリカル特徴を処理できず、数値特徴として扱うことを前提として設計されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「高い基数を持つカテゴリカルな特徴をエンコードするための4つの方法 — Pythonでの実装」となります

scikit-learnとTensorFlowを使用してターゲットエンコーディング、カウントエンコーディング、特徴ハッシング、および埋め込みを適用する方法を学ぶ

目次

カテゴリカル特徴の紹介

なぜカテゴリカル特徴をエンコードする必要があるのか？

Was this article helpful?

「洞察を求める詩的な探求としてのインディゴスによる機械学習」

「機械学習アルゴリズムの理解：詳細な概要」

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」