「Pythonにおけるデータクリーニング」
「Pythonを使用したデータクリーニングのノウハウ」
Pandaライブラリを使ったPythonでのデータクリーニングのマスター
今日は、pandasを使用したデータクリーニングの実装方法を紹介します。
データ:
この記事で使用されているデータセットは、open-rice Hongkongから取得されたものです。
FAQ | OpenRice Hong Kong
OpenRice.comは、レストランの口コミに基づいて人々が食べる場所を見つけるための香港で最も人気のあるダイニングガイドです…
www.openrice.com
また、生データは以下で入手できます:
https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv
Pandasは、pdとしてインポートできるPythonのライブラリです。
Pandasでは、データセットのクリーニングにはさまざまな方法や形式がありますが、今日は3つの方法に焦点を当てます。
上記の図は、今日実装するデータクリーニングの3つの方法を示しています。
データセットの探索
import pandas as pd
df=pd.read_csv('data/open-rice.csv')df.head()
上記で、データセットがJupyter Notebookにインポートされ、Pandasのデータフレームに保存されています。
上記はトップ5のフィールドですので、df. head() を入力すると、デフォルトでデータフレームの上位5行が表示されます。
Pandasでは、データフレームは2次元のラベル付き構造です。データフレームはSQLテーブルやExcelスプレッドシートに似ています。
df.columns
df.info()
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles