パンダのGroupByを最大限に活用する

グループバイの活用方法:パンダの魅力を最大限に引き出す

基本的な例から実践的な演習へ

Alex Suprunさんの写真

Pythonのpandasライブラリには、データの照会や操作に便利なツールが多数含まれており、その中でも強力なGroupBy関数があります。この関数を使用すると、さまざまなカテゴリで観測値をグループ化して数多くの方法で集計することができます。

最初は混乱するかもしれませんが、このガイドでは、どのようにしてこの関数とそのさまざまな機能を使用するかを説明します。以下の内容が含まれます:

  • GroupByの紹介
  • 実践データセットへのGroupByの適用
  • さまざまなGroupByのテクニック
  • 実践的な演習と応用

コードとデータ:

このガイドで使用されるデータとPythonコード全体を記述したJupyterノートブックは、リンク先のGitHubページで入手できます。ダウンロードまたはリポジトリのクローンを行って、一緒に進めてください。このガイドでは、筆者がこの記事のために生成した偽名の合成データを使用しています。データはリンクされたGitHubページで入手できます。

次のライブラリが必要です:

# データ処理import pandas as pdimport numpy as np# データの可視化import plotly.express as px

1.1. 開始 – データの読み込みとGroupByの基本

最初のステップはデータセットを読み込むことです:

# データの読み込み:df = pd.read_csv('StudentData.csv')df.head(3)

これにより、次のような学校でテストを受けた学生の情報を含むデータフレームが得られます。年齢、3つのテストのスコア、授業を受けたタイミング、平均成績、アルファベットの成績、および合格したかどうかが含まれています:

作者によるスクリーンショット

PandasのGroupByを使用すると、データフレームを興味のある要素に分割し、何らかの関数を適用することができます。GroupByの操作が解決する質問を考える一番簡単な方法は、コースに合格した学生の数を尋ねることです:

df.groupby('CoursePass')['CoursePass'].count()

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more