「Polarsによるデータパイプライン:ステップバイステップガイド」

Polarsデータパイプライン:ステップバイステップガイド

Polarsを使用してスケーラブルかつ高速なデータパイプラインを構築する

写真 by Filippo Vicini on Unsplash

イントロダクション

この記事では、Polarsを使用してデータパイプラインを構築する方法を説明し、示します。このシリーズの前の2つのパートで得たすべての知識をまとめ、使用しますので、まだそれらを読んでいない場合は、最初にそちらを読んでから戻ってきてください。

PolarsによるEDA:Pandasユーザーのためのステップバイステップガイド(パート1)

Polarsでデータ分析をレベルアップしましょう

towardsdatascience.com

PolarsによるEDA:集約と解析関数のステップバイステップガイド(パート2)

Polarsによる高度な集約とローリング平均の高速処理

towardsdatascience.com

セットアップ

このリポジトリには、すべてのコードがありますので、クローン/プルしてスターをつけることを忘れないでください。特に、私たちはこのファイルを探求する予定ですので、ノートブックから実際の世界に移動することになります!

このプロジェクトで使用するデータは、Kaggleからダウンロードできます(CC0:パブリックドメイン)。これは前の2つのパートで使用されたYouTubeのトレンドデータセットと同じものです。Polarsがすでにインストールされていることを前提としていますので、最新バージョンに更新するためにpip install -U polarsを実行してください。

データパイプライン

単純に言えば、データパイプラインとは、データを1つまたは複数の場所から取得し、処理ステップを適用し、処理されたデータを他の場所に保存して、その後の使用のために利用可能にする自動化された手順のシーケンスです。

Polarsにおけるパイプライン

Polarsはデータとの作業方法が非常にスケーラブルなデータパイプラインの構築に向いています。まず、メソッドを容易にチェーンできることができるという事実は、かなり複雑なパイプラインを非常にエレガントに記述することを可能にします。

たとえば、2018年の各月で最も視聴数の多かったトレンディングビデオを見つけたいとします。以下に、このメトリックを計算し、それをparquetファイルとして保存するための完全なパイプラインが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more