タイムシリーズの異常値のデマイスティファイ:2/4

[美とファッションのエキスパートが語る]タイムシリーズの異常値デマイスティファイ:2/4

サッカーのソーシャルメディアのタイムシリーズでのアウトライヤーの解明

昨日何が起きたの?

みんなにコーヒーを配った後、モレリ、ザッパ、そして私は昨日起きたことを振り返ります。昨日

タイムシリーズのアウトライヤーの謎を解く:1/4

ロヴェッラと反逆データ

pub.towardsai.net

私たちは#rovella関連のツイートから始めました。これはアウトライヤーが密集しているタイムシリーズであり、平均値と標準偏差の2つの基本情報だけを使ってそれらを特定しました。

import pandas as pdimport numpy as nplink = 'https://raw.githubusercontent.com/ianni-phd/Datasets/main/rovella_tweets.csv'tweets = pd.read_csv(link, sep=';', decimal=',', index_col='date', parse_dates=['date'])tweets_series = tweets['target']

それから私たちはまるでチェーンソーで切り落とすように徹底的にアウトライヤーを削除し始めました。

Cutting-points work: 3 2 1… go! — Author
# 関数の定義def detect_outliers_zscore(ts, thres=3, points_not_to_touch=60, max_window=40, outliers_param=0.9):    '''    param ts                  : 日時インデックスを含むタイムシリーズ    param thres               : アウトライヤーの検出をより厳密にするための3より大きな閾値    param points_not_to_touch : シリーズの最初のいくつかのポイントは操作しない    param max_window          : ローカル最大値を計算するために考慮されるウィンドウ    param outliers_param      : [0、1] アウトライヤーをフォローする場合は低くする    '''    ts_reworked = ts.copy(deep=True)    outliers = []    dates = []    for i, d in zip(ts, ts.index):        ts_so_far = ts[ts.index <= d]        ts_so_far = ts_so_far.iloc[points_not_to_touch:]        ts_so_far = ts_so_far[~ts_so_far.index.isin(dates)]        length_so_far = ts_so_far.shape[0]        mean = np.mean(ts_so_far)        std = np.std(ts_so_far)        max_so_far = np.max(ts_so_far.iloc[:-max_window])                surplus = (outliers_param * (i - max_so_far))…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...