Pd.Get_Dummiesの良い面、悪い面、そして醜い面

Pd.Get_Dummiesの良い面、悪い面、そして醜い面' -> 'Pd.Get_Dummiesの良い面、悪い面、醜い面

pd.get_dummiesの愛好家のために

こんにちは皆さん🤠

わかりました。Pythonでカテゴリカル変数をダミーの配列に変換する最も簡単な方法の一つは、Pandasのpd.get_dummies()を使用することです。なぜsklearnからOneHotEncoderをインポートして.fit_transform()などを実行する手間をかけるのでしょうか?手間のかかる作業ですね!

この記事では、まずデモンストレーション用のシンプルなデータセットを紹介します。このデータセットには、トレーニングセットには存在しないカテゴリカルが含まれているテストセットが含まれています。次に、pd.get_dummies()を使用するとデモンストレーションデータで問題が発生することを示し、最後にsklearnのOneHotEncoderを使用してその問題を回避する方法を示します。

画像クレジット:Canvaを使用してテキストから画像を作成した作者のイラスト。プロンプト:「カントリーウエスタンカウボーイの姿をした3匹のパンダ」

デモンストレーション用のシンプルなデータセット

ここでは、OSというカテゴリカルな特徴を含むシンプルなデータセットがあります。OS列にはコンピュータのオペレーティングシステムがリストされています。この架空のデータをデモンストレーションの目的で使用します。`train_df`には架空のデモンストレーショントレーニングデータが含まれます。一方、`test_df`には架空のデモンストレーションテストデータが含まれます。

架空のデモンストレーションケースでは、テストセットにはトレーニングセットに存在しないカテゴリ値が含まれています。この不一致が問題を引き起こします。

import pandas as pdtrain_df = pd.DataFrame({'OS': ['Windows', 'MacOS',                                 'Linux', 'Windows', 'MacOS']})test_df = pd.DataFrame({'OS': ['Windows', 'MacOS',                                'Android', 'Unix' 'iOS']})

トレーニングデータでは、Windows、MacOS、Linuxの3つのオペレーティングシステムがあります。しかし、テストデータでは、Android、Unix、iOSを含む追加のカテゴリがあります。

`train_df.get_dummies()`で適合させたモデルは、`test_df.get_dummies()`からのテストデータとは互換性がありません。結果が一致しません。

画像クレジット:Canvaの在庫画像を使用して作成したCanvaのイラスト。アート用品のダミー。

pd.get_dummiesの問題点

ここでトレーニングデータとテストデータの両方にpd.get_dummies()関数を適用すると、以下のような結果が得られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...