「データプロジェクトを始めるための3つの強力なPythonライブラリを(一部)自動化して、EDAを手助け」

「データプロジェクトのスタートに役立つ3つのパワフルなPythonライブラリを(一部)自動化し、EDAを手軽にサポートする方法」

すべての機械学習の問題はデータの問題です。

「ゴミを入れればゴミが出る」という古い格言を避けるために、データの理解とクリーニングに相当な時間を費やすことが合理的です。最近、Konrad Banachewicz & Luca Massaronによる「The Kaggle Book」を読みました。彼らは多くのKaggleのグランドマスターをインタビューしています。興味深いことに、EDA(探索的データ分析)の急ぎやスキップは彼らと初心者が最もよく犯す間違いです。

Choong Deng Xiangによる写真、Unsplash

私たちは皆、EDAの重要性を知っていますが、それにも関わらずこのステップを飛ばしてしまいます。それは、どこから始めるか、どのような質問をすべきかを知るのが難しいためかもしれません。または、モデリングに飛び込みたがりすぎるためかもしれません。

以下に、Exploratory Data Analysisを部分的に自動化し、データプロジェクトを開始するために使用できる3つのPythonライブラリを紹介します。

以下の分析用データは、Kaggleの「House Prices – Advanced Regression Techniques」コンペティションから取得したものです。

YData Profiling

これはSparkによってサポートされ、Pandas DataFrameを超える新しいバージョンのPandasプロファイリングです。

ただし、目標は同じです:1行での探索的データ分析(EDA)の提供。このパッケージは、実装しやすいデータ品質評価フレームワークの重要性を強調しています。このフレームワークはプロジェクトの初期段階に限定されるべきではなく、データプロジェクト全体で実装されるべきです。

YData Profilingを2行で実行できます。

!pip install ydata-profiling

from ydata_profiling import ProfileReport#Generate the data profile reportprofile = ProfileReport(train,title='EDA')#show the report on the notebookprofile.to_notebook_iframe()
相関、クラスの不均衡、欠損データなどを示すアラート... 著者による画像
変数の分布。著者による画像

出力は変数の分布を示し、一連のアラートを提供します…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more