「データフレームのマージに使用される3つのPandas関数」

Pandas関数でのデータフレームのマージについて

Pandasのマージ関数の動作とコード例を学ぶ

Lance Grandahlによる写真

データ作業では、データソースから複数のデータセットを持っていたり、データ分析の結果として複数のデータセットを持っていることが一般的です。

時には、さまざまな理由で2つ以上の異なるデータセットを結合したいことがあります。例えば:

  • 複数のデータソースからのデータを1つのデータセットに統合して、より深い分析を行いたい場合
  • 1つのデータセットから別のデータセットに欠損値補完を行いたい場合
  • データセットを分割してそれぞれのデータセットで異なる分析を行い、それらを1つのデータセットに戻したい場合

データセットのマージは、Pandasパッケージの利用可能な関数を使用して行うことができます。この記事では、コーディングの例を交えて3つの異なるマージ関数を学びます。さあ、始めましょう。

1. マージ

merge関数は、基本的なデータセットのマージに使用するPandasの定番の関数です。この関数は、指定されたデータセットのインデックスまたは列に基づいて2つのデータセットを結合します。

例えば、merge関数の動作を示すデータセットの例を作成してみましょう。

import pandas as pd
customer = pd.DataFrame({'cust_id': [1,2,3,4,5],
                    'cust_name': ['Maria', 'Fran', 'Dominique', 'Elsa', 'Charles'],
                   'country': ['German', 'Spain', 'Japan', 'Poland', 'Argentina']})
order = pd.DataFrame({'order_id': [200, 201,202,203,204],
                      'cust_id':[1,3,3,4,2],
                      'order_date': ['2014-07-05', '2014-07-06', '2014-07-07', '2014-07-07', '2014-07-08'],
                      'order_value': [10.1, 20.5, 18.7, 19.1, 13.5]})
著者による画像

上記のサンプルでは、顧客と注文データの2つの異なるデータセットをシミュレートしています。両方のDataFrameにcust_id列が存在していることに注意してください。

関数の動作を理解するために、DataFrameのマージを行いましょう。

pd.merge(customer, order)

merge関数はデフォルトでいくつかの設定がすでに行われています:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more