「Pythonによる完全な探索的データ分析」

「Pythonによる充実した探索的データ分析」

NEOMによる写真(引用元:Unsplash)

データクリーニング、分析、視覚化、特徴選択、予測モデリング

以前、探索的データ分析に関するいくつかのチュートリアルを開催しました。しかし、それについてもう少しやるべきだと感じました。データセットを取り上げ、データのクリーニング、分析、視覚化、予測モデルを一つの作業で行うことは必要です。データサイエンティストまたはデータアナリストとして、私たちは非常に奇妙なデータと取り組むことがあります。時には特徴を正しく理解できない場合もありますが、それが私たちの仕事を停止させてはなりません。特徴をよく知ることがベストですが、その情報が利用できない場合でも、分析パートは影響を受けずに進めるべきです。

この記事では、Kaggleから入手したデータセットを使用して作業を行います。ほとんどの人が特徴量や列名を理解できないかもしれませんが、それでも何ができるか見てみましょう。

重点的に取り組む内容は以下の通りです:

  1. データセットの基本的な理解。
  2. いくつかの視覚化を通じてデータセットの全体的なアイデアをブレインストーミングする。
  3. 前のステップで基本的な視覚化から導き出される具体的な情報を取得する方法を見つける。
  4. 予測モデリング。

以下のリンクからデータセットをダウンロードしてください:

Florida_Subsidence_Incident_Reports csvファイル (kaggle.com)

まず必要なインポートを行います:

import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitimport matplotlib.pyplot as pltimport seaborn as sns

データを使用してPandasのDataFrameを作成します:

pd.set_option('display.max_columns', 100)df1 = pd.read_csv('Florida_Subsidence_Incident_Reports.csv')

データセットが大きすぎるため、ここではプレビューを表示しません。以下はデータセットの列名です:

Index(['X', 'Y', 'OBJECTID', 'REF_NUM', 'DATE_REV', 'EVENT_DATE', 'TRUE_SINK',       'LONGDD', 'LATDD', 'COUNTY', 'TWNSHP', 'TWNSHP_D', 'RANGE', 'RANGE_D',       'SECTION', 'QTRSECT1', 'QTRSECT2', 'ACCURACY', 'RPT_SOURCE', 'RPT_NAME',       'OCITY', 'OZIP', 'SIZDIM', 'SINSHAPE', 'SINLNGTH', 'SINWIDTH',       'SINDEPTH', 'SLOPE', 'WATSIN', 'WATBLS', 'LIMVIS'…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more