評価から啓示へ：クロスバリデーションにおける外部サンプル予測の探求

From Evaluation to Revelation Exploring External Sample Prediction in Cross-Validation

アウトオブフォールド予測を通じた洞察の発見と制限の克服

クロスバリデーションの理解と実践的な日常業務への適用は、すべてのデータサイエンティストに必須のスキルです。クロスバリデーションの主な目的はモデルのパフォーマンス評価とハイパーパラメータの微調整ですが、それによって得られる追加の出力にも注意を払う必要があります。各フォールドの予測を取得して組み合わせることで、一般的に「アウトオブサンプルまたはアウトオブフォールド予測」として知られる、トレーニングセット全体のモデル予測を生成することができます。

これらの予測を無視することは重要ではありません。なぜモデルが期待通りに機能しないのか、特徴エンジニアリングを向上させる方法はあるのか、データ内に固有の制限はあるのか、といった質問に対する貴重な情報がこれらの予測には含まれています。

一般的なアプローチはシンプルです：モデルが高い信頼度を持ちながら誤りを comit するサンプルを調査します。この記事では、これらの予測が私の3つの実世界のプロジェクトでどのように役立ったかを示します。

データの制限の発見

私は予測保守プロジェクトに取り組みました。その目標は、車両の故障を事前に予測することでした。私が試したアプローチの1つは、バイナリ分類器を訓練することでした。比較的シンプルで直感的な方法でした。

時系列クロスバリデーションを使用して訓練した後、アウトオブサンプルの予測を調べました。具体的には、モデルが学習に苦労した偽陽性と偽陰性に焦点を当てました。これらの誤った予測は常にモデルの責任ではありません。いくつかのサンプルが互いに競合し、モデルを混乱させる可能性があります。

私はいくつかの偽陰性のケースを見つけましたが、そのうちのいくつかは故障とラベル付けされており、モデルはそれらをほとんど故障として扱いません。この観察結果には私の好奇心が湧きました。さらなる調査の結果、それらの偽陰性サンプルと非常に似ている正確な陰性サンプルが多く存在することがわかりました。

下の図1は、データの視覚化による偽陰性と真陰性の比較です。詳細には触れませんが、アイデアは生データ空間でユークリッド距離またはマハラノビス距離に基づいて最近傍アルゴリズムを実行することです。私は偽陰性サンプルに非常に近いサンプルがすべて真陰性であることを見つけました。つまり、これらの故障インスタンスは多くの正常なインスタンスに囲まれています。

ここで私たちは典型的なデータセットの制限に直面しています：混同を引き起こすサンプルです。ラベルが間違っているか、それらを区別するためのより多くの情報（より多くの次元）が必要です。3番目の可能性もあります：混同するサンプルを簡単に区別できる新しい空間に全体の空間を移す方法はどうでしょうか？ここではうまくいきません。まず、混乱は生の入力データで起こりました。これは、画像分類データセットの場合、1つの画像が犬とラベル付けされ、ほぼ同じ画像が猫とラベル付けされるようなものです。第二に、考え方はモデル中心であり、一般的にモデルの複雑さを増加させます。

これらの問題をクライアントに提起した後、彼らはラベルが正しいことを確認しました。ただし、彼らはまた、機能が正常に機能しているように見える一部の車両が前兆の症状なしに予期せぬ故障を経験する可能性があることを認めました。私が見つけた偽陰性サンプルは、これらの予期しない故障を完璧に示していました。

クロスバリデーションのアウトオブサンプル予測の分析を行うことで、問題とデータのより深い理解を得るだけでなく、データセットの制限を具体的な例としてクライアントに提供することができました。これは私自身とクライアントの両方にとって貴重な洞察となりました。

特徴エンジニアリングへの示唆

このプロジェクトでは、クライアントは車両のオンロードデータを使用して、車両自体によるレーン変更や先行車両による加速およびレーン変更などの特定のイベントを分類したいと考えていました。データは主に異なるソナーセンサから収集された時系列データです。周囲のオブジェクトの相対速度や自車両から周囲の車両やレーンまでの距離（x方向およびy方向）など、いくつかの重要な情報があります。注釈者はカメラの録画も行っており、イベントにラベルを付けています。

前方車両のレーン変更の分類を実行する際に、モデルがイベントが発生しているとラベル付けしたが、グラウンドトゥルースが異なるという興味深いインスタンスに出くわしました。データサイエンスの用語では、これらは非常に高い確率予測の誤検出です。

クライアントにモデルの予測結果の視覚的な表現を提供するために、図2に示すように、短いアニメーションを提供しました。モデルは、19:59から20:02の間に先行車を「車線変更」と誤ってラベル付けしました。

この謎を解決するために、これらのインスタンスに関連するビデオを確認しました。それによると、その瞬間、道路は曲線を描いていました！車線が直線であれば、モデルは正しい結果を出すことができました。モデルが間違った予測をしたのは、車線が曲がることを学んでいなかったためです。

データには周囲の車両と車線までの距離に関する情報が含まれていませんでした。そのため、モデルは周囲の車両と自車両の距離、および自車両と車線との距離を使用して、それらが車線との相対的な位置関係を把握するようにトレーニングされました。これらの状況を修正するには、モデルが車線の曲率を知る必要があります。クライアントと話し合った後、データセットに曲率情報を見つけ、ジオメトリの公式に基づいて周囲の車両と車線の距離を計測する明示的な特徴を作成しました。これにより、モデルの性能が向上し、そのような誤検知は起こりません。

ラベルの修正

3番目の例では、特定の機械テスト結果（合格または不合格）を予測することを目指し、これは2値分類の問題として捉えることができます。

非常に高い性能の分類器を開発し、データセットには目的変数を予測するための十分な関連情報があると示唆しました。モデルを改善し、データセットをよりよく理解するために、モデルが間違いを犯す交差検証の外部サンプル予測に焦点を当てましょう。偽陽性と偽陰性は、探求する価値のある宝庫です。

図3は、比較的高いしきい値を持つ混同行列です。偽陽性の3つは、モデルがそれらを不合格とラベル付けすることを意味しますが、真のラベルでは合格とされています。これらを修正するために、上記の例のように特徴エンジニアリングを改善するか、次のような質問をすることもできます：与えられたラベルが間違っており、モデルが実際に正しいのではないかということはどうでしょうか？人は間違いを com行います。他の列の値が外れ値や欠損値である可能性があるように、ターゲット列自体もノイズがあり、不正確さに対して感じやすいかもしれません。

データ空間が疎であるため、最近傍アプローチの証拠だけではこれらの3つのサンプルが間違っていることを簡単に示すことはできませんでした。その後、データのラベル付けについてクライアントと話し合いました。私たちは、テスト結果を決定するためのいくつかの基準が欠陥があることに同意し、いくつかのサンプルのラベルが誤っているか不明である可能性があることも認識しました。クリーニングの後、これらの3つのサンプルのラベルが修正され、モデルの性能が向上しました。

データの品質を常に非難するわけではありません。ただし、データサイエンスの仕事では、モデルの改善とデータの修正の両方が同じくらい重要です。モデリングにすべてのエネルギーを費やし、提供されたすべてのデータがエラーがないと仮定することはありません。代わりに、両方の側面に注意を払うことが重要です。交差検証の外部サンプル予測は、データの問題を見つけるための強力なツールです。

詳細については、labelerrors.comには人気のあるベンチマークデータセットのラベルエラーがリストされています。

結論

交差検証は、スコアを提供するだけでなく、複数の目的を果たす役割を果たします。数値評価に加えて、交差検証はフォールド外の予測から有益な洞察を抽出する機会を提供します。成功した予測を詳細に調査することで、モデルの強みをよりよく理解し、最も影響力のある特徴を特定することができます。同様に、失敗した予測を分析することで、データとモデルの制限に光を当て、改善のためのアイデアを生み出すことができます。

このツールがデータサイエンスのスキル向上において非常に貴重であることを願っています。

この記事に拍手を送る価値があると思ったら、お願いします。お好きなだけ何度でも拍手することができます。ありがとうございます！

賈寧

時系列データのためのデータサイエンス

リスト6のストーリーを表示する

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

ClassificationCrossvalidationData scienceFeature EngineeringMachine learning

Was this article helpful?

93 out of 132 found this helpful