「PolarsによるEDA：集計と分析関数のステップバイステップガイド（パート2）」

Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)

ポラーズで超高速な集計と移動平均を行う

はじめに

このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう！

セットアップ

前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。

このプロジェクトで使用するデータはKaggleからダウンロードできます（CC0：パブリックドメイン）。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polarsを実行してください。

データ処理

データの読み込み

前回の記事と同様に、UKのトレンドデータセットとcategory_id列のマッピングを読み込みます。

csv_path  = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f:    categories = json.load(f)    id_to_category = {}for c in categories['items']:    id_to_category[int(c['id'])] = c['snippet']['title']

データのクリーニング

次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。

def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame:    expressions = []    for date_col, format in date_cols.items():        expressions.append(pl.col(date_col).str.to_date(format=format))            df = df.with_columns(expressions)    return df# 期待される日付形式のカラム名date_column_format = {    "trending_date": '%y.%d.%m',    "publish_time"…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「PolarsによるEDA：集計と分析関数のステップバイステップガイド（パート2）」

ポラーズで超高速な集計と移動平均を行う

はじめに

セットアップ

データ処理

データの読み込み

データのクリーニング

Was this article helpful?

「顔認識システムにおけるバイアスの解消新しいアプローチ」

「Spring Bootを使用して独自のChatGPTアプリケーションを作成する」

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか？

「マーク・A・レムリー教授による生成AIと法律について」

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ