探索的データ解析:データセットの中に隠されたストーリーを解き明かす

探索的データ解析 データセットの隠されたストーリーを解明する

データを探索する秘密の技術-データセット内の隠れた洞察を理解し、クリーニングし、明らかにする

Andrew Neelさんによる写真、Unsplashから

データ愛好家として、新しいデータセットの探索は興奮する試みです。これにより、データのより深い理解が得られ、成功した分析の基礎が築かれます。新しいデータセットについての良い感触を得ることは常に簡単ではなく、時間がかかります。しかし、良いかつ徹底的な探索的データ分析(EDA)は、データセットを理解し、物事のつながりやデータセットを適切に処理するために行う必要があることを理解するのに非常に役立ちます。

実際、**データ準備と探索に80%の時間を費やし、実際のデータモデリングには20%しか費やさない可能性があります。他のタイプの分析では、探索にさらに大きな割合の時間がかかる場合もあります。

**The What.

探索的データ分析(EDA)とは、単純に言ってデータを探索する技術です。さまざまな角度からデータを調査し、理解を深め、パターンを探し、変数間の関係を確立し、必要に応じてデータ自体を向上させるプロセスです。

これはデータセットと対面して、数字やテキストの謎めいた集合体とテーブルの向かい合わせに座り、真剣な関係に入る前に理解しようとすることです。まるで盲目のデートのように、EDAを通じてデータセットの隠された側面を明らかにすることができます。パターンを観察し、外れ値を検出し、結論を導く前に微妙な点を探求します。結論を引き出す前に、数字との信頼関係を築き、確かな土台を築くことが重要です。

私たち全員がそうでした。意識的にまたは無意識に、統計ツールを探求したり、レポートをひも解いたりして、ある種のデータを探求しました。

**The Why.

私たちアナリストやデータサイエンティストは、データを最もよく理解することが求められています。機械学習モデル、実験フレームワーク、単純な分析など、その成果は基づくデータの質によって決まります。

ゴミを入れればゴミが出るということを忘れないでください!!

EDAは、データアナリストや科学者がデータから意味のある洞察を引き出し、理解し、導き出すことを可能にします。すべてがうまくいっていると思ったとき、データセットが曲芸的な動きを見せることがあります。欠損値や不整合、乱雑なデータを見つけることがあります。まるでデート相手が秘密のワニを飼っていたり、ユニコーンのフィギュアを集めていたりすることを発見するようなものです。探索的データ分析は、その混乱を整理し、全体を理解するためのツールを提供します。

データセットにメイクオーバーを施し、乱れた状態から魅力的な仲間に変えるようなものです。

最終的に、探索的データ分析は、データをより深く知ること、楽しみながら進むこと、さらなる分析のための強固な基盤を築くことに関係しています。だから、推理の帽子をかぶり、データセットとのこのエキサイティングな冒険に乗り出してください。誰が知っています、隠された宝物や真実の愛を見つけるかもしれません!

**The How.

探索的データ分析は、名前の通りデータを探索する分析です。いくつかのコンポーネントで構成されており、すべてが常に必須ではなく、すべてが同じ重要性を持っているわけではありません。以下に、私の経験に基づいていくつかのコンポーネントをリストアップします。これは必ずしも網羅的なリストではありませんが、ガイドとなるフレームワークです。

1. 地形を理解する。

何も知らないことを知らないが、探索することはできます!最初に行うべきことは、データの感触を得ることです-データのエントリを見て、列の値を目で追います。行数、列数を確認します。

  • 小売業のデータセットでは、Mr Xは2023年8月1日に店舗番号2000を訪れ、コカ・コーラの缶とウォーカーのクリスプス1パックを購入したことが分かります。
  • ソーシャルメディアのデータセットでは、Mrs Yは6月3日の朝9時にソーシャルネットワーキングサイトにログインし、A、B、およびCのセクションを閲覧し、友達のMr Aを検索し、20分後にログアウトしました。

あなたが持っているデータのビジネスコンテキストを把握することは有益です。データの収集元や収集方法を知ることが重要です。たとえば、調査データとデジタル収集データなど。

2. 変数をダブルクリックする

変数はデータセットの話し手です。彼らは絶えずあなたに話しかけています。あなたはただ正しい質問をする必要があり、注意深く聞くだけです。

→ 質問すること: – 変数は何を意味/表すのか? – 変数は連続的またはカテゴリカルですか?.. 任意の内在的な順序はありますか? – 変数が取り得る可能な値は何ですか?

→ ACTION:

  • 連続変数の場合 – ヒストグラム、ボックスプロットを使用して分布をチェックし、平均、中央値、標準偏差などを注意深く調べます。
  • カテゴリ/序数変数の場合 – ユニークな値を見つけ、最も/最も少なく発生するものをチェックするために頻度表を作成します。

すべての変数、ラベル、値を理解できないかもしれませんが、できるだけ多くの情報を得るようにしてください

3. データ内のパターン/関係を探す

EDAを通じて、データ内のパターン、トレンド、および関係を発見することができます。

→ 質問すること: – 変数間の関係について事前の仮説/仮説はありますか? – 変数同士が関連している理由はビジネス上の理由がありますか? – 変数は特定の分布に従っていますか?

データの可視化技術、要約、相関分析を使用すると、一見ではわからない隠れたパターンが明らかになります。これらのパターンを理解することは、意思決定や仮説生成に貴重な洞察を提供することができます。

→ ACTION: ビジュアルな二変量分析を考えてください。

  • 連続変数の場合 – 散布図を使用し、相関行列/ヒートマップを作成します。
  • 連続および序数/カテゴリ変数の混合の場合 – バーまたは円グラフをプロットし、共起を視覚化するために古典的な連関表を作成します。

EDAを使用すると、分析やデータモデリングのための正規性、線形性、または独立性などの統計的な仮定を検証することができます。

4. 異常検出

これはあなたがデータ上でシャーロック・ホームズになるチャンスです!以下のことを考えてみてください:

– データセットに重複したエントリがありますか?

重複エントリは同じサンプルポイントを複数回表すエントリです。重複はほとんどの場合役に立たず、追加の情報は提供しません。これはエラーの結果である可能性があり、平均、中央値、その他の統計値を乱れさせる可能性があります。→ ステークホルダーと確認し、このようなエラーをデータから削除してください。

– カテゴリカル変数のラベリングエラーはありますか?

カテゴリカル変数のユニークな値を探し、頻度表を作成してください。スペルミスや似たようなものを表すラベルを探してください。

– いくつかの変数に欠損値がありますか?

これは数値変数とカテゴリカル変数の両方に起こる可能性があります。以下を確認してください。

  • 多くの変数(列)に対して欠損値がある行はありますか?これは、多くの列にわたって空白のデータポイントが存在することを意味します→それらはあまり役に立ちませんので、これらを削除する必要があります。
  • 複数の行にわたって欠損値がある変数(または列)がありますか?これは、ほとんどのデータポイントに値/ラベルがない変数が存在することを意味します→これらは私たちの理解にはあまり貢献できませんので、これらを削除する必要があります。

ACTION:

– すべての変数に対してNULLまたは欠損値の割合を数えます。15〜20%以上の割合の変数は疑わしいです。

– 列ごとに欠損値のある行をフィルタリングし、残りの列がどのように見えるかを確認します。ほとんどの列に欠損値がある場合は、パターンがあるでしょうか?

– データセットには外れ値がありますか?

外れ値検出は、通常の範囲に合わないデータポイントを特定することです。特定の数値変数の場合、非常に高いまたは極端に低い値、またはカテゴリクラス変数の場合、高い/低い頻度が見られることがあります。

  • 外れ値がデータエラーである場合があります。外れ値は、与えられた特徴分布において異常なデータ点ですが、望ましくないエントリや記録エラーは、まず存在すべきではないサンプルです。
  • 外れ値がただの外れ値である場合もあります。他の場合では、極端な値を持つデータ点があり、それらの背後には完全に正当な理由があるかもしれません。

行動:

ヒストグラム、散布図、および度数棒グラフを調べ、他のデータ点から遠くにあるいくつかのデータ点があるかを理解します。以下を考えてみてください:- それらは真実であり、これらの極値を取ることができますか?- それらの極値に対するビジネスの理由や正当化はありますか?- 後の段階で分析に価値を追加しますか

5. データクリーニング。

データクリーニングとは、データセットから不要な変数と値を除去し、その中の不正規な要素を取り除くプロセスを指します。これらの異常値はデータを不均衡に歪め、したがってこのデータセットからの分析結果に悪影響を与える可能性があります。

覚えておいてください:ゴミを入れれば、ゴミが出ます

– データを修正する。

  • 重複したエントリ、欠損値、データセットに価値を追加しない外れ値を削除します。不要な行/列を取り除きます。
  • データ内で観察されるスペルミスや誤ラベルを修正します。
  • データに価値を追加していないデータエラーも削除する必要があります。

– 外れ値を制限するか、そのままにします。

  • 一部のデータモデリングシナリオでは、外れ値を制限する必要がある場合があります。制限は、上位エンドの99番目/95番目パーセンタイルまたは下位エンドの1番目/5番目パーセンタイルで行われることがよくあります。

– 欠損値の処理。

一般的に、変数間で多くの欠損値を持つデータポイント(行)を削除します。同様に、多くのデータポイントにわたって欠損値を持つ変数(列)も削除します

欠損値がいくつかある場合は、それらのギャップを埋めるか、そのままにすることがあります。

  • 欠損値を持つ連続変数の場合、平均値や中央値を使用してそれらを補完することができます(特定の層別での補完も含む場合があります)
  • カテゴリカルな欠損値の場合、最も使用されている「クラス」を割り当てるか、新しい「未定義」のクラスを作成することがあります。

– データの拡張。

将来の分析のニーズに基づいて、データセットにさらに特徴(変数)を追加することができます。次のようなものに限定されないものとして:

  • 何かの存在または不在を示すバイナリ変数の作成。
  • IF-THEN-ELSE節を使用して追加のラベル/クラスを作成。
  • 将来の分析ニーズに応じて、変数をスケールまたはエンコード。
  • 2つ以上の変数を組み合わせる- 合計、差、平均、対数などの数学関数の範囲を使用して、変数を変換する。

概要

EDAにより、データサイエンティストは貴重な洞察を明らかにし、データ品質の問題に対処し、さらなる分析とモデリングのための強固な基盤を築くことができます。これにより、データ分析の結果が信頼性があり、正確で、影響力があるものになります。

EDAの主要なコンポーネント:

  1. データのソースと「意味」を理解する。
  2. すべての変数、その分布、ラベル/クラスを十分に理解する。
  3. 変数間のパターン/関係を探し、事前の仮説や前提を検証する。
  4. データエラー、外れ値、欠損値を検出する。
  5. データクリーニング- データエラー/異常値の削除または修正、外れ値の制限、欠損値の補完(必要な場合)、既存の変数のスケーリング/変換、追加の導出変数の作成によるデータセットの充実化。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more