PolarsによるEDA:Pandasユーザーのためのステップバイステップガイド(パート1)

'PolarsによるEDA:Pandasユーザーのためのガイド(パート1)'

Polarsを使ってデータ分析をレベルアップしましょう

Mitul Grover氏による写真

イントロダクション

時折、データ分析の方法を大きく変えるツールが登場します。Polarsは、私がそんなツールの1つだと信じています。このシリーズの記事では、このライブラリに詳しく触れ、より知名度の高い、確立されたライブラリであるPandasと比較しながら、例のデータセットを使用して分析のワークフローを紹介します。

Polarsとは何ですか?

Polarsは、Rustで書かれた高速なDataFrameライブラリです。私たち(データサイエンティスト/アナリスト)にとっては、データを整理し、データパイプラインを構築するための完全な機能セットを提供するPythonのラッパーが非常によくドキュメント化されています。Polarsに切り替えた後、次の主な利点が見えてきました:

  • はるかに高速な前処理操作
  • RAMよりも大きなデータセットの処理が可能
  • データパイプラインを適切に構造化する必要があるため、コードの品質が向上

利点の詳細は、このユーザーガイドで確認できます。速度比較については、このH20ベンチマークを参照してください。

Pandasからの切り替え

一見すると、PandasとPolarsは非常に似ているように思えます。たとえば、.read_csv().head()などのメソッドは両方で共有されているため、基本的な探索的な操作を変更することなく実行できます。しかし、ライブラリを使用し始めるほど、2つのライブラリがどれだけ異なるかに気付くでしょう。構文から考え方まで、Polarsへの切り替えは容易ではありません。そのため、これらの記事があなたのスタートを支援できることを願っています。

セットアップ

このプロジェクトに参加するには、最新のノートブックを持つこのGitHubリポジトリをプルしてください。このプロジェクトで使用されるデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。これはYouTubeのトップトレンディング動画に関するデータセットであり、このシリーズの記事に十分な複雑さを提供するはずです。また、PandasとPolarsがインストールされていることが必要です。両方のパッケージはpipを使用してインストールできます。

準備が整ったので、プロジェクトに取り組みましょう!ここでは、Polarsにより詳しくなることを目標にしているので、指示に従うか、概念を実践してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

AIテクノロジー

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ

アンソニー・グーネティレーケは、Amdocsでグループ社長、テクノロジーと戦略担当です彼と企業戦略チームは、会社の戦略を策...

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...