「Python Pandasを使ったカテゴリカルデータの操作をマスターするための7つの例」
「Python Pandasを活用したカテゴリカルデータの扱いをマスターするための7つの実例」
低い基数のカテゴリカルな特徴量を扱う場合には、カテゴリデータ型を使用してください
カテゴリカル変数は、通常固定されたリミテッドな値からなることがあります。以下はいくつかのカテゴリカル変数の例です:
- 英語のスキルレベル指標(A1、A2、B1、B2、C1、C2)
- 人の血液型(A、B、AB、O)
- 人種や性別などの人口統計情報
- 教育レベル
Pandasはカテゴリカル変数に専用のデータ型(category
またはCategoricalDtype
)を提供しています。このようなデータはobject
またはstring
データ型でも保存することができますが、category
データ型を使用することにはいくつかの利点があります。これらの利点について学んでいきましょうが、まずはカテゴリカルデータを取り扱う方法から始めましょう。
テキストデータを含むSeriesやDataFrameを作成する際には、データ型はデフォルトでobject
になります。category
データ型を使用するには、明示的に定義する必要があります。
import pandas as pd# Seriesを作成blood_type = pd.Series(["A", "B", "AB", "O"])print(blood_type)# 出力0 A1 B2 AB3 Odtype: object# カテゴリデータ型を指定してSeriesを作成blood_type = pd.Series(["A", "B", "AB", "O"], dtype="category")print(blood_type)# 出力0 A1 B2 AB3 Odtype: categoryCategories (4, object): ['A', 'AB', 'B', 'O']
値は同じですが、Seriesを表示する際にdtype
で示されるようにデータ型が異なります。
以下の7つのサンプルを見ながら、以下のトピックを学びましょう:
- DataFramesでのカテゴリデータ型
- カテゴリ
- 値の追加と更新
- カテゴリの追加と削除
- カテゴリの順序
- カテゴリの名前変更
- カテゴリデータ型の利点
例1 – DataFramesでのカテゴリデータ型
上記と同じように、SeriesやDataFrameを作成する際にcategory
データ型を宣言することができます。後でcategory
に変換することも可能です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles