「知っておくべき3つの一般的な時系列モデリングの誤り」

3 Common Errors in Time Series Modeling to Know

よくあるエラーとそれらを回避する方法、実践的な例

Diggity Marketingによる写真

私自身も何度も経験しました。モデルトレーニングコードを実行して、エラーのスコアリングが素晴らしいと思われる瞬間があります。しかし、疑わしいほど素晴らしいです。特徴量エンジニアリングコードを調べると、将来のデータをトレーニングデータに組み込んでいる計算があり、その特徴量を修正すると、平均二乗誤差が現実的な値に戻ってしまいます。では、白板はどこにあるのでしょうか…

時系列の問題にはいくつかの独特な落とし穴があります。幸いなことに、いくつかの注意と少しの練習をすることで、sklearn importからノートブックに入力する前にこれらの落とし穴を考慮することができます。以下は注意が必要な3つのポイントと、それらに遭遇する可能性のあるシナリオです。

先読みバイアス

これはおそらく時系列の最初の危険であり、エントリーレベルのポートフォリオで最も頻繁に見られる問題です(株式市場の予測プロジェクト、あなたを見ています)。良いニュースは、これを回避するのは一般的に最も簡単なことです。

問題: 簡単に言えば、先読みバイアスとは、モデルが実際にはアクセスできない未来のデータを使用してトレーニングされることです。

この問題をコードに導入する典型的な方法は、トレーニングデータとテストデータをあらかじめ決められたサイズ(例えば80/20)の2つのチャンクにランダムに分割することです。ランダムサンプリングにより、トレーニングデータとテストデータは同じ時間範囲をカバーするため、モデルに将来の知識が「漏れ込む」ことになります。

テストデータを使用して検証する際に、モデルは既に何が起こるかを知っています。この方法では、非常に素晴らしく見えるが、実際には虚偽のエラースコアが得られるでしょう。

修正方法: データセットを割合で分割する代わりに、時間のカットオフを使用してデータセットを分割します。

たとえば、2013年から2023年までのデータがある場合、2013年から2021年をトレーニングデータ、2022年から2023年をテストデータとして設定することがあります。単純なケースでは、テストデータはモデルが完全に無知な期間をカバーし、エラースコアは正確になります。これはk-foldクロスバリデーションなどにも適用されることを忘れないでください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...