時系列データのためのPandas
Pandas for time series data
Pythonによるデータ処理
この記事では、時系列データのためのpandasのメソッドについて説明します。プロのように時系列データを扱いましょう。
私がデータサイエンティストとして働くようになってから、取り扱うデータのほとんどは時系列データです。時系列データにはさまざまな定義がありますが、一般的には一定期間にわたって収集されたデータポイントの集合と定義されます。Pythonの言葉で言えば、日時のインデックスを持つデータセットであり、少なくとも1つの数値列が含まれています。
これは、過去数ヶ月間の株価、過去数週間のハイパーマーケットの売上、または数ヶ月間にわたって収集された患者の血糖値の記録などです。
この記事では、生成された血糖値の記録の例を使用して、時系列データセットにpandasを適用する方法を紹介します。
それにより、この記事の構成は以下のようになります:
- 日時の形式の操作-日時シリーズを所望の形式に変更する
- 日時を特定の期間に変換-各データポイントを特定の時間期間に変換する
- 条件に基づいた日時シリーズのフィルタリング-選択した時間期間に基づいてデータポイントをフィルタリングする
- 時間シフト-データポイントを特定の期間だけシフトする
- 時系列のリサンプリング-指定された時間期間に基づいてデータポイントをグループ化する
- 折れ線グラフ
さあ、始めましょう!
いつものように、Pythonでの分析の最初のステップは必要なライブラリをインポートすることです。
ライブラリのインポート
import pandas as pd
import random
import numpy as np
from datetime import datetime
データの作成
次に、このデモ用に血糖値の記録データセットを生成しましょう。
def create_demo_data():
random.seed(365)
np.random.seed(365)
number_of_data_rows = 2160
# 日付のリストを生成
dates = pd.bdate_range(datetime(2020, 7, 1), freq='4H', periods=number_of_data_rows).tolist()
# 辞書を作成...
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles