「統計的検定を用いたデータセットの多重共線性の検出」
「統計的検定を用いたデータセットの多重共線性検出に関する調査」
データセットにおける多重共線性の検出は重要なステップですが、同時に困難でもあります。混合データセット内で同様の動作をする変数を検出し、インタラクティブなチャートで関係をより深く調べる方法を実演します。
データセット内の変数間の関係の強さを理解することは重要です。統計的に類似した動作をする変数はモデルの信頼性に影響を与える可能性があります。連続変数の場合、相関尺度を使用していわゆる多重共線性を除去することができます。しかし、カテゴリ変数を含む混合データセットの場合、多重共線性のテストはさらに困難になります。Hypergeometric testingやMann-Whitney U testなどの統計的テストを使用して、混合データセット内の変数間の関連性を検査することができますが、このプロセスには変数の型付け、ワンホットエンコーディング、複数のテスト修正など、さまざまな中間ステップが必要です。この全体のパイプラインは、HNetというメソッドで簡単に実装することができます。このブログでは、類似動作をする変数を検出する方法を実演します。
データの理解は重要なステップです。
実世界のデータには、連続値と離散値の両方の測定値が含まれることがよくあります。各変数を見て、変数同士が関連しているかどうかを常識を用いて判断する必要があります。ただし、変数が数十個(またはそれ以上)あり、各変数にカテゴリごとに複数の状態がある場合、すべての変数を手動でチェックすると時間がかかり、エラーが発生する可能性があります。統計的なテスト手法とともに時間のかかる前処理手法を実行することで、このタスクを自動化することができます。ここで、HNet [1, 2]が登場します。HNetは統計的なテストを使用してデータセット内のすべての変数間の有意な関係を判定し、入力した生データから複雑な変数間の関係を明らかにするネットワークを出力します。次のセクションで、統計的なテストを使用して類似動作をする変数を検出する方法について説明します…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles