「Pythonにおけるデータクリーニング」

「Pythonを使用したデータクリーニングのノウハウ」

Pandaライブラリを使ったPythonでのデータクリーニングのマスター

Scott Graham on Unsplash

今日は、pandasを使用したデータクリーニングの実装方法を紹介します。

データ:

この記事で使用されているデータセットは、open-rice Hongkongから取得されたものです。

FAQ | OpenRice Hong Kong

www.openrice.com

また、生データは以下で入手できます:

https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv

Pandasは、pdとしてインポートできるPythonのライブラリです。

Pandasでは、データセットのクリーニングにはさまざまな方法や形式がありますが、今日は3つの方法に焦点を当てます。

Image by Author

上記の図は、今日実装するデータクリーニングの3つの方法を示しています。

データセットの探索

import pandas as pd

df=pd.read_csv('data/open-rice.csv')df.head()
Top 5 rows of dataframe: photo by author

上記で、データセットがJupyter Notebookにインポートされ、Pandasのデータフレームに保存されています。

上記はトップ5のフィールドですので、df. head() を入力すると、デフォルトでデータフレームの上位5行が表示されます。

Pandasでは、データフレームは2次元のラベル付き構造です。データフレームはSQLテーブルやExcelスプレッドシートに似ています。

df.columns
Field names in dataframe: photo by author
df.info()

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more