PySparkでの最高のデータ整形機能

PySparkにおける最高のデータ整形機能の活用法

PySparkを使用してBig Dataを整理する際の最も役立つ機能を学ぶ

私はデータサイエンティストとして、データブリックスでPySparkを日常的に使用しています。私の仕事は、さまざまなテーブルで大量のデータを扱うことを必要とします。それは挑戦的な仕事です。

「抽出、変換、読み込み（ETL）」プロセスは簡単なことのように聞こえますが、実際はそうではありません。ビッグデータを扱う場合、2つの理由から考え方を大幅に変える必要があります：

データ量は通常のデータセットよりもはるかに大きい。
クラスター内で並列処理を行う場合、データは多くのワーカーノード間で分割され、ジョブの一部として実行された後にまとめられます。そして、このプロセスは非常に時間がかかる場合があります。

それを知っているので、ビッグデータに最適なクエリを作成する方法を学ぶ必要があります。この記事では、pyspark.sql.functionsモジュールからいくつかのお気に入りの関数を紹介し、PySparkでのデータ整理をサポートします。

さあ、今回のコンテンツに移りましょう。

他の言語と同様に、PySparkにも様々な目的に使用できる事前に用意された関数があるモジュールの利点があります。以下は、セッションにロードする関数です：

from pyspark.sql import functions as F

pyspark.sql.functions内の関数のリストがどれほど拡張されているかを見たい場合は、このウェブサイトにアクセスして、APIリファレンスをご覧ください。ただし、これはバージョン3.5.0用です。古いバージョンでは、この記事で紹介するすべての関数を持っていない場合があります。

この例として使用するデータセットは、ggplot2のDiamondsデータセットで、MITライセンスの下で共有されています。

# ファイルパスpath = '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv'# データの読み込みdf = spark.read.csv(path, header=True, inferSchema= True)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

93 out of 132 found this helpful