「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」
Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)
ポラーズで超高速な集計と移動平均を行う
はじめに
このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう!
セットアップ
前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。
このプロジェクトで使用するデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polars
を実行してください。
データ処理
データの読み込み
前回の記事と同様に、UKのトレンドデータセットとcategory_id
列のマッピングを読み込みます。
- 「顔認識システムにおけるバイアスの解消 新しいアプローチ」
- 「月に10000ドルを稼ぐために私が使用するAIツールとスキル—デタラメなことはありません」
- 「ChatGPTコードインタプリタは、すべてのプラスユーザーに利用可能です」
csv_path = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f: categories = json.load(f) id_to_category = {}for c in categories['items']: id_to_category[int(c['id'])] = c['snippet']['title']
データのクリーニング
次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。
def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame: expressions = [] for date_col, format in date_cols.items(): expressions.append(pl.col(date_col).str.to_date(format=format)) df = df.with_columns(expressions) return df# 期待される日付形式のカラム名date_column_format = { "trending_date": '%y.%d.%m', "publish_time"…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles