Sklearnの交差検証の可視化:K-Fold、シャッフル&スプリット、および時系列スプリット
Sklearnの交差検証の可視化
Sklearn K-Fold、Shuffle & Split、およびTime Series Splitのクロスバリデーションのプロセスを可視化し、Pythonを使用して検証結果を表示する
クロスバリデーションとは?
基本的に、クロスバリデーションは学習アルゴリズムを評価するための統計的手法です。分析を実行するために、固定数のフォールド(データのグループ)が設定されます。これらのフォールドは、トレーニングセットとテスト(検証)セットにデータをグループ化し、ラウンドごとに交差します。これにより、各データポイントを検証することができます。
主な目的は、モデルが作成に使用されなかった独立したデータを予測する能力をテストすることです。また、オーバーフィッティングや選択バイアスなどの問題に対処するのにも役立ちます。
この記事では、Scikit Learnライブラリの3つのクロスバリデーションのプロセスを可視化するためにPythonを適用します:
- K-Foldクロスバリデーション
- Shuffle & Splitクロスバリデーション
- Time Series Splitクロスバリデーション
さらに、検証結果もプロットして洞察力のある情報を表現することができます。
- 「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」
- 「顔認識システムにおけるバイアスの解消 新しいアプローチ」
- 「月に10000ドルを稼ぐために私が使用するAIツールとスキル—デタラメなことはありません」
さあ、始めましょう
1. K-Foldクロスバリデーション
K-Foldはクロスバリデーションの一般的な方法です。まず、すべてのデータをフォールドに分割します。次に、トレーニングセット(k-1フォールド)から学習モデルを作成し、テストセット(残りのフォールド)を検証に使用します。
通常、K-Foldクロスバリデーションから得られるフォールドはできるだけ均等に分割されます。次に、K-Foldクロスバリデーションのプロセスを見ていきます。
ライブラリのインポートとデータの読み込み
例えば、この記事ではSklearnライブラリからダウンロードできるワインデータセットを使用します。このデータセットは、CC BY 4.0ライセンスの下でのUCI MLワインデータのコピーです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles