「多変量カテゴリデータを処理するためのPythonによる7つの可視化」

Python Visualization for Processing Multivariate Categorical Data 7 Techniques

複雑なカテゴリデータを簡単な方法で表示するアイデア。

Kaizen Nguyễn氏の写真、出典: Unsplash

分析に使用される一般的なデータ、例えば有名なアイリスデータセットやペンギンデータセットなどは、カテゴリ変数が数個しかないため、非常にシンプルです。しかし、現実のデータはより複雑で、2つ以上のレベルのカテゴリを含んでいることがあります。

多変量のカテゴリデータは、多数のカテゴリを持つデータの一種です。例えば、人々をグループ化する場合を考えてみましょう。性別、国籍、給与範囲、教育レベルなどのカテゴリによって、人は異なる特性を持つことがありますので、多くの可能性が生じるかもしれません。車両にも、ブランド、製造国、燃料種別、セグメントなど、多様なカテゴリ変数があります。

この記事で多変量のカテゴリデータを表示するための可視化の例、著者の画像。

データの理解を助けるために、データ可視化を使用した探索的データ分析(EDA)を行うことをおすすめします。バーまたは円グラフなどのグラフは、シンプルなカテゴリデータのプロットには基本的な選択肢です。しかし、多変量のカテゴリデータを表示する場合は、カテゴリ変数のレベルが多いため、より複雑になることがあります。したがって、この記事では、複数のカテゴリレベルでデータを表現できるグラフについて説明します。

データの取得

まずはライブラリをインポートします。

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

この記事では、5つのカテゴリを含むモックアップデータセットを使用します。生成されたデータセットには、食料品の顧客情報:場所、商品、支払い方法、性別、年齢層が含まれます。各カテゴリ変数は、以下のコードで示されるように、ランダムライブラリを使用して生成することができます。

他の多変量カテゴリデータセットで可視化コードを試す場合は、次のステップは省略できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more