「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」

Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)

ポラーズで超高速な集計と移動平均を行う

写真:Spencer Davis氏撮影、Unsplashより

はじめに

このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう!

セットアップ

前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。

このプロジェクトで使用するデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polarsを実行してください。

データ処理

データの読み込み

前回の記事と同様に、UKのトレンドデータセットとcategory_id列のマッピングを読み込みます。

csv_path  = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f:    categories = json.load(f)    id_to_category = {}for c in categories['items']:    id_to_category[int(c['id'])] = c['snippet']['title']

データのクリーニング

次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。

def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame:    expressions = []    for date_col, format in date_cols.items():        expressions.append(pl.col(date_col).str.to_date(format=format))            df = df.with_columns(expressions)    return df# 期待される日付形式のカラム名date_column_format = {    "trending_date": '%y.%d.%m',    "publish_time"…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

タングイ・ショウは、Paxton AIの共同創設者兼CEOであり、法的研究と起草の負担を軽減するためにGenerative AIを使用するプラ...

人工知能

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

ジェフ・コーフマンは、ABC、CBS、CBCニュースで30年のキャリアを持った後、Trintの創設者兼CEOとなりましたジェフは手作業の...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...