「Great Expectationsを始めよう Pythonにおけるデータ検証ガイド」
Getting Started with Great Expectations A Data Validation Guide in Python
Pythonでわずかなコードでデータ品質の問題を防ぐ方法を学ぶ
企業のデータサイエンスプロジェクトに取り組む場合、通常は独自のテストセットを持たず、大学や研究とは異なり、クライアントから新しく更新されたサンプルを受け取り続けます。
新しいサンプルに機械学習モデルを適用する前に、列名、列の型、およびフィールドの分布などのデータ品質を確認する必要があります。これらはトレーニングデータと古いテストセットと一致する必要があります。
データの手動分析は、データが汚れており100以上の特徴がある場合には時間がかかることがあります。幸運なことに、救世主となるPythonライブラリ、Great Expectationsというものがあります。興味を持っていただけましたか?それでは始めましょう!
Great Expectationsとは何ですか?
Great Expectationsは、データを管理するための3つの重要な側面を解決するために特化したオープンソースのPythonライブラリです:
- データの検証:重要な条件や期待に合致するかどうかを検証することによるデータの検証
- データプロファイリングの自動化:ゼロから始める必要なく、データを素早くテストするためのデータプロファイリングの自動化
- 結果の形式化されたドキュメント:期待と検証の結果を含むドキュメント
このチュートリアルでは、実世界のデータを扱う際に主要な問題の1つであるデータの検証に焦点を当てます。
アムステルダムのAirbnbのリスティング
Inside Airbnbが提供するアムステルダムのAirbnbのリスティングを分析します。私たちはアムステルダムのデータで作業します。データセットは既にトレーニングセットとテストセットに分割されています。データセットの名前から推測できるように、目標はリスティングの価格を予測することです。レビューの数に注目すると、テストデータのレビュー数はトレーニングセットよりも変動が大きいことがわかります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles