「知っておくべき3つの一般的な時系列モデリングの誤り」

3 Common Errors in Time Series Modeling to Know

よくあるエラーとそれらを回避する方法、実践的な例

Diggity Marketingによる写真

私自身も何度も経験しました。モデルトレーニングコードを実行して、エラーのスコアリングが素晴らしいと思われる瞬間があります。しかし、疑わしいほど素晴らしいです。特徴量エンジニアリングコードを調べると、将来のデータをトレーニングデータに組み込んでいる計算があり、その特徴量を修正すると、平均二乗誤差が現実的な値に戻ってしまいます。では、白板はどこにあるのでしょうか…

時系列の問題にはいくつかの独特な落とし穴があります。幸いなことに、いくつかの注意と少しの練習をすることで、sklearn importからノートブックに入力する前にこれらの落とし穴を考慮することができます。以下は注意が必要な3つのポイントと、それらに遭遇する可能性のあるシナリオです。

先読みバイアス

これはおそらく時系列の最初の危険であり、エントリーレベルのポートフォリオで最も頻繁に見られる問題です(株式市場の予測プロジェクト、あなたを見ています)。良いニュースは、これを回避するのは一般的に最も簡単なことです。

問題: 簡単に言えば、先読みバイアスとは、モデルが実際にはアクセスできない未来のデータを使用してトレーニングされることです。

この問題をコードに導入する典型的な方法は、トレーニングデータとテストデータをあらかじめ決められたサイズ(例えば80/20)の2つのチャンクにランダムに分割することです。ランダムサンプリングにより、トレーニングデータとテストデータは同じ時間範囲をカバーするため、モデルに将来の知識が「漏れ込む」ことになります。

テストデータを使用して検証する際に、モデルは既に何が起こるかを知っています。この方法では、非常に素晴らしく見えるが、実際には虚偽のエラースコアが得られるでしょう。

修正方法: データセットを割合で分割する代わりに、時間のカットオフを使用してデータセットを分割します。

たとえば、2013年から2023年までのデータがある場合、2013年から2021年をトレーニングデータ、2022年から2023年をテストデータとして設定することがあります。単純なケースでは、テストデータはモデルが完全に無知な期間をカバーし、エラースコアは正確になります。これはk-foldクロスバリデーションなどにも適用されることを忘れないでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

キャルレールの最高製品責任者、ライアン・ジョンソンへのインタビューシリーズ

ライアンは、初期のスタートアップからフォーチュン100の組織まで、多様なテクノロジーと製品開発のリーダーシップ経験を15年...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

人工知能

「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

「ガウタム・バクシは、気候リスク管理とアドバイザリーサービスのグローバルリーダーである15Rockの共同創設者兼CEOですガウ...