『特徴変換における欠損値の詳細な処理/代入技術』

『特徴変換における欠損値の処理と代入技術の詳細解説』

機械学習とデータサイエンスプロジェクトのためのデータ補完

機械学習アルゴリズムでは、欠損データに対して十分な対処ができません。特徴エンジニアリングの一部として、欠損データの特徴を信頼性のある特徴に変換するために、欠損データの行を削除するか補完する必要があります。

欠損した行/列の値を所望/計算された値で割り当てまたは置き換えるプロセスです。

機械学習モデルにデータを入力する前に、欠損データの行または列を削除/補完する必要があります。次の方法を使用して欠損値の特徴を変換することができます。

削除：欠損値がある行を削除する最も簡単なテクニックです。このテクニックは、完全なケース分析（CCA）とも呼ばれ、欠損値の割合が5％未満の場合に有効です。それ以外の場合、データの損失が発生する可能性があります。
補完：このタイプのテクニックは、欠損データを計算された値で埋めるものです。補完は、単変量および多変量の特徴に基づいて2つの方法に分かれます。

単変量：数値特徴の場合、欠損データは平均値/中央値/ランダム値で置き換えることができます。カテゴリ特徴の場合、欠損値は最頻値や「欠損」として置き換えることができます。sklearnライブラリには、単変量特徴の欠損データを処理するSimple Imputerクラスがあります。
多変量：この方法では、KNN補完（Hot-Deck補完）アルゴリズムや反復方法（MICE）を使用して欠損値を埋めます。
時系列：この場合、線形補間、前方補完、後方補完などの方法を使用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

93 out of 132 found this helpful