「データフレームのマージに使用される3つのPandas関数」
Pandas関数でのデータフレームのマージについて
Pandasのマージ関数の動作とコード例を学ぶ
データ作業では、データソースから複数のデータセットを持っていたり、データ分析の結果として複数のデータセットを持っていることが一般的です。
時には、さまざまな理由で2つ以上の異なるデータセットを結合したいことがあります。例えば:
- 複数のデータソースからのデータを1つのデータセットに統合して、より深い分析を行いたい場合
- 1つのデータセットから別のデータセットに欠損値補完を行いたい場合
- データセットを分割してそれぞれのデータセットで異なる分析を行い、それらを1つのデータセットに戻したい場合
データセットのマージは、Pandasパッケージの利用可能な関数を使用して行うことができます。この記事では、コーディングの例を交えて3つの異なるマージ関数を学びます。さあ、始めましょう。
1. マージ
merge
関数は、基本的なデータセットのマージに使用するPandasの定番の関数です。この関数は、指定されたデータセットのインデックスまたは列に基づいて2つのデータセットを結合します。
例えば、merge
関数の動作を示すデータセットの例を作成してみましょう。
import pandas as pd
customer = pd.DataFrame({'cust_id': [1,2,3,4,5],
'cust_name': ['Maria', 'Fran', 'Dominique', 'Elsa', 'Charles'],
'country': ['German', 'Spain', 'Japan', 'Poland', 'Argentina']})
order = pd.DataFrame({'order_id': [200, 201,202,203,204],
'cust_id':[1,3,3,4,2],
'order_date': ['2014-07-05', '2014-07-06', '2014-07-07', '2014-07-07', '2014-07-08'],
'order_value': [10.1, 20.5, 18.7, 19.1, 13.5]})
上記のサンプルでは、顧客と注文データの2つの異なるデータセットをシミュレートしています。両方のDataFrameにcust_id
列が存在していることに注意してください。
関数の動作を理解するために、DataFrameのマージを行いましょう。
pd.merge(customer, order)
merge
関数はデフォルトでいくつかの設定がすでに行われています:
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles