「データクリーニングのデータアナリストガイド」

Data Cleaning Data Analyst's Guide

異なるタイプのデータのクリーニング方法

Janeke88による画像、Pixabayから

技術スキルを学ぶためのリソースはたくさんありますが、データアナリストに必要なデータのクリーニング方法について詳しく解説しているものはほとんどありません。データをクリーニングするために同じルールを適用できると思うかもしれませんが、常にそうではありません。今日は、データアナリストとしての経験から、データ分析とレポート作成のために異なるタイプのデータをクリーニングする方法について共有したいと思います。

数値データ

数値データとは、データ分析とレポート作成に役立つデータを指します。一般的なルールとして、平均値が有用であるかどうかを判断します。たとえば、数値の注文番号フィールドの平均値は意味がありません。しかし、売上金額の平均値は有用です。

数値フィールドに保存された数値

数値フィールドに保存された数値には、次のクリーニングルールを適用します。

  1. 最小値、最大値、中央値、99パーセンタイル、平均値を計算します。最小値が負数であり、値はゼロ以上であるべき場合は、該当する場合にゼロに置き換えます。以下のサンプルの売上データでは、行12中央値$800であるのに対し、行13平均値$20,560であるという大きな差が見られます。中央値と平均値、または最大値と99パーセンタイルに大きな違いがある場合、データに不慣れな場合は外れ値を確認することが一般的です。たとえば、行4の$100,000を含めた平均売上を報告する場合、$100,000を除外した場合の平均売上は$560ではなく$20,560になります。これが外れ値を確認し、特に平均値を報告する場合やデータを機械学習モデルの構築に使用する場合には、外れ値がモデルの結果に影響を与える可能性があるため、それらを除外することの重要性です。重要なフィールドに時間を優先的に割り当ててください。数十個のフィールドを確認するためには時間がかかりすぎる可能性がありますので、全てを確認することは避けてください。

2. 欠損値と非欠損値の数を数えます。欠損値の数が非欠損値よりも多い場合、数値フィールドは分析には適していない可能性があります。たとえば、1,000件のレコードがあるが、そのうち900件が欠損している場合、100件の非欠損値はおそらく分析には役立たないでしょう。欠損値の数が非欠損値よりも少ない場合、該当する場合に欠損値をゼロに置き換えてください。欠損は値が…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more