タイムシリーズの異常値のデマイスティファイ:2/4
[美とファッションのエキスパートが語る]タイムシリーズの異常値デマイスティファイ:2/4
サッカーのソーシャルメディアのタイムシリーズでのアウトライヤーの解明
昨日何が起きたの?
みんなにコーヒーを配った後、モレリ、ザッパ、そして私は昨日起きたことを振り返ります。昨日:
タイムシリーズのアウトライヤーの謎を解く:1/4
ロヴェッラと反逆データ
pub.towardsai.net
- 「人間の境界を超えたもの:スーパーインテリジェンスの台頭」
- 最大のLLMベンチマーキングスイート:MEGAVERSE
- 3Dアーティストのヌルハン・イスマイルは、Adobe After EffectsとBlenderを使用して、イソメトリックな革新を「NVIDIA Studio」にもたらす
私たちは#rovella関連のツイートから始めました。これはアウトライヤーが密集しているタイムシリーズであり、平均値と標準偏差の2つの基本情報だけを使ってそれらを特定しました。
import pandas as pdimport numpy as nplink = 'https://raw.githubusercontent.com/ianni-phd/Datasets/main/rovella_tweets.csv'tweets = pd.read_csv(link, sep=';', decimal=',', index_col='date', parse_dates=['date'])tweets_series = tweets['target']
それから私たちはまるでチェーンソーで切り落とすように徹底的にアウトライヤーを削除し始めました。
# 関数の定義def detect_outliers_zscore(ts, thres=3, points_not_to_touch=60, max_window=40, outliers_param=0.9): ''' param ts : 日時インデックスを含むタイムシリーズ param thres : アウトライヤーの検出をより厳密にするための3より大きな閾値 param points_not_to_touch : シリーズの最初のいくつかのポイントは操作しない param max_window : ローカル最大値を計算するために考慮されるウィンドウ param outliers_param : [0、1] アウトライヤーをフォローする場合は低くする ''' ts_reworked = ts.copy(deep=True) outliers = [] dates = [] for i, d in zip(ts, ts.index): ts_so_far = ts[ts.index <= d] ts_so_far = ts_so_far.iloc[points_not_to_touch:] ts_so_far = ts_so_far[~ts_so_far.index.isin(dates)] length_so_far = ts_so_far.shape[0] mean = np.mean(ts_so_far) std = np.std(ts_so_far) max_so_far = np.max(ts_so_far.iloc[:-max_window]) surplus = (outliers_param * (i - max_so_far))…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles