「知っておくべき3つの一般的な時系列モデリングの誤り」

3 Common Errors in Time Series Modeling to Know

よくあるエラーとそれらを回避する方法、実践的な例

Diggity Marketingによる写真

私自身も何度も経験しました。モデルトレーニングコードを実行して、エラーのスコアリングが素晴らしいと思われる瞬間があります。しかし、疑わしいほど素晴らしいです。特徴量エンジニアリングコードを調べると、将来のデータをトレーニングデータに組み込んでいる計算があり、その特徴量を修正すると、平均二乗誤差が現実的な値に戻ってしまいます。では、白板はどこにあるのでしょうか…

時系列の問題にはいくつかの独特な落とし穴があります。幸いなことに、いくつかの注意と少しの練習をすることで、sklearn importからノートブックに入力する前にこれらの落とし穴を考慮することができます。以下は注意が必要な3つのポイントと、それらに遭遇する可能性のあるシナリオです。

先読みバイアス

これはおそらく時系列の最初の危険であり、エントリーレベルのポートフォリオで最も頻繁に見られる問題です(株式市場の予測プロジェクト、あなたを見ています)。良いニュースは、これを回避するのは一般的に最も簡単なことです。

問題: 簡単に言えば、先読みバイアスとは、モデルが実際にはアクセスできない未来のデータを使用してトレーニングされることです。

この問題をコードに導入する典型的な方法は、トレーニングデータとテストデータをあらかじめ決められたサイズ(例えば80/20)の2つのチャンクにランダムに分割することです。ランダムサンプリングにより、トレーニングデータとテストデータは同じ時間範囲をカバーするため、モデルに将来の知識が「漏れ込む」ことになります。

テストデータを使用して検証する際に、モデルは既に何が起こるかを知っています。この方法では、非常に素晴らしく見えるが、実際には虚偽のエラースコアが得られるでしょう。

修正方法: データセットを割合で分割する代わりに、時間のカットオフを使用してデータセットを分割します。

たとえば、2013年から2023年までのデータがある場合、2013年から2021年をトレーニングデータ、2022年から2023年をテストデータとして設定することがあります。単純なケースでは、テストデータはモデルが完全に無知な期間をカバーし、エラースコアは正確になります。これはk-foldクロスバリデーションなどにも適用されることを忘れないでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

「ElaiのCEO&共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

ヴィタリー・ロマンチェンコは、ElaiのCEO兼共同創設者であり、マイク、カメラ、俳優、スタジオの必要なく、個人が一流のビデ...