「データセットに欠損値がありますか?何もしなさい!」

「データセットに欠損値がある場合の対処法は何ですか?何もせずに放置していませんか!」

モデルは、漏れ値を埋める方法よりも、もともとより効果的に漏れ値を処理できます。経験的な証拠

[Image by Author]

欠損値は実際のデータセットでは非常に一般的です。この問題に対処するために、さまざまな手法が提案されてきました。通常、欠損値を含むデータを削除するか、いくつかのテクニックを使用して補完することが一般的です。

本記事では、第3の選択肢をテストします:

何もしない。

実際には、表形式のデータセットに対する最良のモデル(つまり、XGBoost、LightGBM、CatBoost)は、漏れ値をネイティブに処理できます。したがって、私が試みようとする質問は次のとおりです:

これらのモデルは漏れ値を効果的に処理できるのでしょうか、それとも前もっての補完でより良い結果を得ることができるでしょうか?

誰がヌルに気を使わなければならないと言ったのですか?

漏れ値について何か対策を講じる必要があるという広く信じられている考えがあります。例えば、データセットに欠損値が含まれている場合、ChatGPTに尋ねたところ、それを取り除くための10つの異なる方法が示されました(フルな回答はこちらで読むことができます)。

しかし、この信念はどこから来るのでしょうか?

通常、このような意見は歴史的なモデル、特に線形回帰から起こることが多いです。この場合も同様です。では、なぜでしょうか。

次のデータセットがあると仮定してみましょう:

A dataset with missing values. [Image by Author]

これらの特徴量を使用して線形回帰をトレーニングしようとすると、エラーが発生します。実際、予測をするには、線形回帰は各特徴量を数値係数で乗算する必要があります。特徴量のいずれかが欠損している場合、その行の予測は不可能です。

これが多くの補完手法が提案された理由です。例えば、最も単純な可能性の1つは、ヌルを特徴量の平均で置き換えることです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more