PySparkでの最高のデータ整形機能
PySparkにおける最高のデータ整形機能の活用法
PySparkを使用してBig Dataを整理する際の最も役立つ機能を学ぶ
はじめに
私はデータサイエンティストとして、データブリックスでPySparkを日常的に使用しています。私の仕事は、さまざまなテーブルで大量のデータを扱うことを必要とします。それは挑戦的な仕事です。
「抽出、変換、読み込み(ETL)」プロセスは簡単なことのように聞こえますが、実際はそうではありません。ビッグデータを扱う場合、2つの理由から考え方を大幅に変える必要があります:
- データ量は通常のデータセットよりもはるかに大きい。
- クラスター内で並列処理を行う場合、データは多くのワーカーノード間で分割され、ジョブの一部として実行された後にまとめられます。そして、このプロセスは非常に時間がかかる場合があります。
それを知っているので、ビッグデータに最適なクエリを作成する方法を学ぶ必要があります。この記事では、pyspark.sql.functions
モジュールからいくつかのお気に入りの関数を紹介し、PySparkでのデータ整理をサポートします。
最適な機能
さあ、今回のコンテンツに移りましょう。
他の言語と同様に、PySparkにも様々な目的に使用できる事前に用意された関数があるモジュールの利点があります。以下は、セッションにロードする関数です:
from pyspark.sql import functions as F
pyspark.sql.functions
内の関数のリストがどれほど拡張されているかを見たい場合は、このウェブサイトにアクセスして、APIリファレンスをご覧ください。ただし、これはバージョン3.5.0用です。古いバージョンでは、この記事で紹介するすべての関数を持っていない場合があります。
データセット
この例として使用するデータセットは、ggplot2のDiamondsデータセットで、MITライセンスの下で共有されています。
# ファイルパスpath = '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv'# データの読み込みdf = spark.read.csv(path, header=True, inferSchema= True)
インデックス列の作成
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles