「Great Expectationsを始めよう Pythonにおけるデータ検証ガイド」

Getting Started with Great Expectations A Data Validation Guide in Python

Pythonでわずかなコードでデータ品質の問題を防ぐ方法を学ぶ

Photo by Link Hoang on Unsplash — 写真：Link Hoang氏（Unsplash）

企業のデータサイエンスプロジェクトに取り組む場合、通常は独自のテストセットを持たず、大学や研究とは異なり、クライアントから新しく更新されたサンプルを受け取り続けます。

新しいサンプルに機械学習モデルを適用する前に、列名、列の型、およびフィールドの分布などのデータ品質を確認する必要があります。これらはトレーニングデータと古いテストセットと一致する必要があります。

データの手動分析は、データが汚れており100以上の特徴がある場合には時間がかかることがあります。幸運なことに、救世主となるPythonライブラリ、Great Expectationsというものがあります。興味を持っていただけましたか？それでは始めましょう！

Great Expectationsとは何ですか？

Illustration by Author. Source: flaticon. — イラスト：著者による作成。出典：flaticon.

Great Expectationsは、データを管理するための3つの重要な側面を解決するために特化したオープンソースのPythonライブラリです：

データの検証：重要な条件や期待に合致するかどうかを検証することによるデータの検証
データプロファイリングの自動化：ゼロから始める必要なく、データを素早くテストするためのデータプロファイリングの自動化
結果の形式化されたドキュメント：期待と検証の結果を含むドキュメント

このチュートリアルでは、実世界のデータを扱う際に主要な問題の1つであるデータの検証に焦点を当てます。

アムステルダムのAirbnbのリスティング

Inside Airbnbが提供するアムステルダムのAirbnbのリスティングを分析します。私たちはアムステルダムのデータで作業します。データセットは既にトレーニングセットとテストセットに分割されています。データセットの名前から推測できるように、目標はリスティングの価格を予測することです。レビューの数に注目すると、テストデータのレビュー数はトレーニングセットよりも変動が大きいことがわかります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「Great Expectationsを始めよう Pythonにおけるデータ検証ガイド」

Pythonでわずかなコードでデータ品質の問題を防ぐ方法を学ぶ

Great Expectationsとは何ですか？

アムステルダムのAirbnbのリスティング

Was this article helpful?

「UIとUXのためのトップAIツール（2023年）」

「Juliaでスクラッチから作成するゲート付き再帰ニューラルネットワーク」

データサイエンス