「Polarsによるデータパイプライン:ステップバイステップガイド」
Polarsデータパイプライン:ステップバイステップガイド
Polarsを使用してスケーラブルかつ高速なデータパイプラインを構築する
イントロダクション
この記事では、Polarsを使用してデータパイプラインを構築する方法を説明し、示します。このシリーズの前の2つのパートで得たすべての知識をまとめ、使用しますので、まだそれらを読んでいない場合は、最初にそちらを読んでから戻ってきてください。
PolarsによるEDA:Pandasユーザーのためのステップバイステップガイド(パート1)
Polarsでデータ分析をレベルアップしましょう
towardsdatascience.com
PolarsによるEDA:集約と解析関数のステップバイステップガイド(パート2)
Polarsによる高度な集約とローリング平均の高速処理
towardsdatascience.com
セットアップ
このリポジトリには、すべてのコードがありますので、クローン/プルしてスターをつけることを忘れないでください。特に、私たちはこのファイルを探求する予定ですので、ノートブックから実際の世界に移動することになります!
このプロジェクトで使用するデータは、Kaggleからダウンロードできます(CC0:パブリックドメイン)。これは前の2つのパートで使用されたYouTubeのトレンドデータセットと同じものです。Polarsがすでにインストールされていることを前提としていますので、最新バージョンに更新するためにpip install -U polars
を実行してください。
データパイプライン
単純に言えば、データパイプラインとは、データを1つまたは複数の場所から取得し、処理ステップを適用し、処理されたデータを他の場所に保存して、その後の使用のために利用可能にする自動化された手順のシーケンスです。
Polarsにおけるパイプライン
Polarsはデータとの作業方法が非常にスケーラブルなデータパイプラインの構築に向いています。まず、メソッドを容易にチェーンできることができるという事実は、かなり複雑なパイプラインを非常にエレガントに記述することを可能にします。
たとえば、2018年の各月で最も視聴数の多かったトレンディングビデオを見つけたいとします。以下に、このメトリックを計算し、それをparquetファイルとして保存するための完全なパイプラインが示されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles