「Great Expectationsを始めよう Pythonにおけるデータ検証ガイド」

Getting Started with Great Expectations A Data Validation Guide in Python

Pythonでわずかなコードでデータ品質の問題を防ぐ方法を学ぶ

Photo by Link Hoang on Unsplash

企業のデータサイエンスプロジェクトに取り組む場合、通常は独自のテストセットを持たず、大学や研究とは異なり、クライアントから新しく更新されたサンプルを受け取り続けます。

新しいサンプルに機械学習モデルを適用する前に、列名、列の型、およびフィールドの分布などのデータ品質を確認する必要があります。これらはトレーニングデータと古いテストセットと一致する必要があります。

データの手動分析は、データが汚れており100以上の特徴がある場合には時間がかかることがあります。幸運なことに、救世主となるPythonライブラリ、Great Expectationsというものがあります。興味を持っていただけましたか?それでは始めましょう!

Great Expectationsとは何ですか?

Illustration by Author. Source: flaticon.

Great Expectationsは、データを管理するための3つの重要な側面を解決するために特化したオープンソースのPythonライブラリです:

  • データの検証:重要な条件や期待に合致するかどうかを検証することによるデータの検証
  • データプロファイリングの自動化:ゼロから始める必要なく、データを素早くテストするためのデータプロファイリングの自動化
  • 結果の形式化されたドキュメント:期待と検証の結果を含むドキュメント

このチュートリアルでは、実世界のデータを扱う際に主要な問題の1つであるデータの検証に焦点を当てます。

アムステルダムのAirbnbのリスティング

Inside Airbnbが提供するアムステルダムのAirbnbのリスティングを分析します。私たちはアムステルダムのデータで作業します。データセットは既にトレーニングセットとテストセットに分割されています。データセットの名前から推測できるように、目標はリスティングの価格を予測することです。レビューの数に注目すると、テストデータのレビュー数はトレーニングセットよりも変動が大きいことがわかります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more