「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」

Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)

ポラーズで超高速な集計と移動平均を行う

写真:Spencer Davis氏撮影、Unsplashより

はじめに

このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう!

セットアップ

前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。

このプロジェクトで使用するデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polarsを実行してください。

データ処理

データの読み込み

前回の記事と同様に、UKのトレンドデータセットとcategory_id列のマッピングを読み込みます。

csv_path  = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f:    categories = json.load(f)    id_to_category = {}for c in categories['items']:    id_to_category[int(c['id'])] = c['snippet']['title']

データのクリーニング

次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。

def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame:    expressions = []    for date_col, format in date_cols.items():        expressions.append(pl.col(date_col).str.to_date(format=format))            df = df.with_columns(expressions)    return df# 期待される日付形式のカラム名date_column_format = {    "trending_date": '%y.%d.%m',    "publish_time"…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「ElaiのCEO&共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

ヴィタリー・ロマンチェンコは、ElaiのCEO兼共同創設者であり、マイク、カメラ、俳優、スタジオの必要なく、個人が一流のビデ...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...