「Python Pandasを使ったカテゴリカルデータの操作をマスターするための7つの例」

「Python Pandasを活用したカテゴリカルデータの扱いをマスターするための7つの実例」

低い基数のカテゴリカルな特徴量を扱う場合には、カテゴリデータ型を使用してください

(image created by author)

カテゴリカル変数は、通常固定されたリミテッドな値からなることがあります。以下はいくつかのカテゴリカル変数の例です:

  • 英語のスキルレベル指標(A1、A2、B1、B2、C1、C2)
  • 人の血液型(A、B、AB、O)
  • 人種や性別などの人口統計情報
  • 教育レベル

Pandasはカテゴリカル変数に専用のデータ型(categoryまたはCategoricalDtype)を提供しています。このようなデータはobjectまたはstringデータ型でも保存することができますが、categoryデータ型を使用することにはいくつかの利点があります。これらの利点について学んでいきましょうが、まずはカテゴリカルデータを取り扱う方法から始めましょう。

テキストデータを含むSeriesやDataFrameを作成する際には、データ型はデフォルトでobjectになります。categoryデータ型を使用するには、明示的に定義する必要があります。

import pandas as pd# Seriesを作成blood_type = pd.Series(["A", "B", "AB", "O"])print(blood_type)# 出力0     A1     B2    AB3     Odtype: object# カテゴリデータ型を指定してSeriesを作成blood_type = pd.Series(["A", "B", "AB", "O"], dtype="category")print(blood_type)# 出力0     A1     B2    AB3     Odtype: categoryCategories (4, object): ['A', 'AB', 'B', 'O']

値は同じですが、Seriesを表示する際にdtypeで示されるようにデータ型が異なります。

以下の7つのサンプルを見ながら、以下のトピックを学びましょう:

  1. DataFramesでのカテゴリデータ型
  2. カテゴリ
  3. 値の追加と更新
  4. カテゴリの追加と削除
  5. カテゴリの順序
  6. カテゴリの名前変更
  7. カテゴリデータ型の利点

例1 – DataFramesでのカテゴリデータ型

上記と同じように、SeriesやDataFrameを作成する際にcategoryデータ型を宣言することができます。後でcategoryに変換することも可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more