「知っておくべき3つの一般的な時系列モデリングの誤り」

3 Common Errors in Time Series Modeling to Know

よくあるエラーとそれらを回避する方法、実践的な例

私自身も何度も経験しました。モデルトレーニングコードを実行して、エラーのスコアリングが素晴らしいと思われる瞬間があります。しかし、疑わしいほど素晴らしいです。特徴量エンジニアリングコードを調べると、将来のデータをトレーニングデータに組み込んでいる計算があり、その特徴量を修正すると、平均二乗誤差が現実的な値に戻ってしまいます。では、白板はどこにあるのでしょうか…

時系列の問題にはいくつかの独特な落とし穴があります。幸いなことに、いくつかの注意と少しの練習をすることで、sklearn importからノートブックに入力する前にこれらの落とし穴を考慮することができます。以下は注意が必要な3つのポイントと、それらに遭遇する可能性のあるシナリオです。

先読みバイアス

これはおそらく時系列の最初の危険であり、エントリーレベルのポートフォリオで最も頻繁に見られる問題です（株式市場の予測プロジェクト、あなたを見ています）。良いニュースは、これを回避するのは一般的に最も簡単なことです。

問題: 簡単に言えば、先読みバイアスとは、モデルが実際にはアクセスできない未来のデータを使用してトレーニングされることです。

この問題をコードに導入する典型的な方法は、トレーニングデータとテストデータをあらかじめ決められたサイズ（例えば80/20）の2つのチャンクにランダムに分割することです。ランダムサンプリングにより、トレーニングデータとテストデータは同じ時間範囲をカバーするため、モデルに将来の知識が「漏れ込む」ことになります。

テストデータを使用して検証する際に、モデルは既に何が起こるかを知っています。この方法では、非常に素晴らしく見えるが、実際には虚偽のエラースコアが得られるでしょう。

修正方法: データセットを割合で分割する代わりに、時間のカットオフを使用してデータセットを分割します。

たとえば、2013年から2023年までのデータがある場合、2013年から2021年をトレーニングデータ、2022年から2023年をテストデータとして設定することがあります。単純なケースでは、テストデータはモデルが完全に無知な期間をカバーし、エラースコアは正確になります。これはk-foldクロスバリデーションなどにも適用されることを忘れないでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「知っておくべき3つの一般的な時系列モデリングの誤り」

よくあるエラーとそれらを回避する方法、実践的な例

先読みバイアス

Was this article helpful?

「回答付きのトップ50のAIインタビューの質問」

「理論から実践への勾配ブースティング（パート2）」

人工知能

OpenAIのCEOであるSam Altman氏：AIの力が証明されるにつれて、仕事に関するリスクが生じる

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

「2023年にデータサイエンスFAANGの仕事をゲットする方法は？」