「データサイエンスの精度向上のために、このデータ検証プロセスに従ってください」

データ検証プロセスに従って、データサイエンスの精度を向上させてください

トレーニングデータと推論データが異なるソースから来る場合

NordWood Themesによる写真 [1].

目次

  1. はじめに
  2. データ収集の有効化
  3. ベースラインの設定
  4. 外れ値の検出
  5. まとめ
  6. 参考文献

はじめに

この記事は、データサイエンティストがデータの検証プロセスを開始したり、現在のデータの検証プロセスを改善したいと思っている方を対象としています。一般的なアウトラインといくつかの例を提供することで、ガイドとなるものです。まず、ここでデータの検証を定義しておきたいと思います。他の類似する職種には異なる意味を持つことがあるためです。この記事では、トレーニングに使用されるデータが推論データと一致しているか、または一致していることを確認するプロセスと定義します。一部の企業やユースケースでは、データが同じソースから来ている場合にはこの問題を心配する必要はありません。したがって、このプロセスは異なるソースからデータが来る場合にのみ発生し、役立ちます。データが同じソースから来ない理由のいくつかは、トレーニングデータが過去のデータから派生したカスタムデータ(例:既存データから派生した特徴)である場合や、推論データがトレーニングのスナップショットデータである場合などです。つまり、この不一致が存在する理由はたくさんあり、推論時にモデルに供給されるデータが、トレーニングされたモデルデータが期待するものであることを保証するために、スケールでプロセスを考案することは非常に有益です。

データ収集の有効化

Dennis Kummerによる写真 [2].

データ収集を有効化する方法はたくさんありますが、まず、収集されるデータを定義したいと思います。それは推論データです。トレーニングデータ(トレーニングとテストの分割から構成される)がすでにどこかに配置されていることを想定しています。たとえば、S3にあるかもしれませんし、ファイルストレージツールにあるかもしれませんし、一時的なデータベースのテーブルにあるかもしれませんし、CSVファイルにあるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more