Python Pandasを使用して、散らかった車のデータセットをクリーニングする

Python Pandasを駆使して、乱雑な車のデータセットを整理しましょう' (Python Pandas o tsukatte, midaratta kuruma no dataseito o seiri shimashou)

探索的データ分析を実行している場合や複雑な機械学習システムを構築している場合でも、データがクリーニングされていることを確認する必要があります。

(image created by author with Midjourney)

ウェブはデータソースとして非常に価値のある資産です。例えば、大規模な言語モデルを作成するために使用されるトレーニングデータのかなりの部分はウェブから取得されます。

ただし、ウェブデータは通常、最も適した形式ではありません。ウェブデータは主に非構造化です(つまり、フリーテキストの形式です)。事前に定義された構造があっても、ウェブデータは分析目的で使用する前に多くのクリーニングと前処理が必要です。

この記事では、車の価格とその他の属性を含む乱雑なデータセットを取り上げ、pandasライブラリを使用してクリーニングします。

この記事の中で、自分でコードを実行し、手順に従う場合は、データセットを私のdatasetsリポジトリからダウンロードすることができます。データセットは「mock_car_dataset」と呼ばれています。この乱雑なデータセットで行ういくつかの操作は次のとおりです。

  • 文字列操作
  • データ型の処理
  • 文字列に基づいたフィルタリング
  • 値の置き換え
  • 他の列を使用して列の値を更新
  • 数値データのフォーマット設定
  • 問題を検出するためのデータの分析

私はモックデータを使用してデータセットを作成しました。しかし、それはウェブからスクレイピングした車のデータセットのようです。それは以前に行ったため、私は知っています。

データセットはCSV形式です。このファイルからpandasのDataFrameを作成してみましょう。

import pandas as pd# DataFrameの作成cars = pd.read_csv("mock_car_dataset.csv")# shapeを確認cars.shape # 出力(20, 6)

データセットには20行6列のデータが含まれており、したがって20台の車の6つの属性のデータがあります。小さなデータセットですが、行が数十万行あるような大規模なデータセットにも同様の操作が簡単に適用できます。

これらの属性が何であるかを見てみましょう(cars.head()を使用すると以下が表示されます):

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more