「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」

Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)

ポラーズで超高速な集計と移動平均を行う

写真:Spencer Davis氏撮影、Unsplashより

はじめに

このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう!

セットアップ

前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。

このプロジェクトで使用するデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polarsを実行してください。

データ処理

データの読み込み

前回の記事と同様に、UKのトレンドデータセットとcategory_id列のマッピングを読み込みます。

csv_path  = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f:    categories = json.load(f)    id_to_category = {}for c in categories['items']:    id_to_category[int(c['id'])] = c['snippet']['title']

データのクリーニング

次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。

def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame:    expressions = []    for date_col, format in date_cols.items():        expressions.append(pl.col(date_col).str.to_date(format=format))            df = df.with_columns(expressions)    return df# 期待される日付形式のカラム名date_column_format = {    "trending_date": '%y.%d.%m',    "publish_time"…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...