GPBoostを使用した縦断およびパネルデータのための混合効果機械学習(パートIII)

'Mixed effect machine learning for longitudinal and panel data using GPBoost (Part III)

実世界データを使用したPythonとRでのGPBoostのデモ

縦断データのイラスト:異なる被験者(idcode)の時系列プロット — 著者による画像

このシリーズのパートIとパートIIでは、ランダム効果を使用して機械学習モデルで高基数カテゴリカルをモデリングする方法を示し、木ブースティングとランダム効果を組み合わせたGPBoostアルゴリズムを実装するGPBoostライブラリの紹介を行いました。この記事では、GPBoostライブラリのPythonパッケージとRパッケージが縦断データ(または反復測定またはパネルデータ)にどのように使用できるかをデモンストレーションします。最初にこのシリーズのパートIIを読んでいただくことをお勧めします。なぜなら、GPBoostライブラリの最初の紹介が含まれているからです。このデモでは、GPBoostバージョン1.2.1を使用します。

目次

∘ 1 データ:説明、読み込み、およびサンプル分割∘ 2 GPBoostにおける縦断データのモデリングオプション · · 2.1 被験者グループのランダム効果 · · 2.2 固定効果のみ · · 2.3 被験者と時間のグループ化されたランダム効果 · · 2.4 時間的なランダム傾斜を持つ被験者のランダム効果 · · 2.5 被験者固有のAR(1) / ガウス過程モデル · · 2.6 被験者グループのランダム効果と共同AR(1)モデル∘ 3 GPBoostモデルのトレーニング∘ 4 チューニングパラメータの選択∘ 5 予測∘ 6 結論と参考文献

1 データ:説明、読み込み、およびサンプル分割

このデモで使用されるデータは、すでにパートIIで使用された賃金データです。ここからダウンロードできます。データセットには、4,711人の合計28,013のサンプルが含まれており、データは数年にわたって測定されました。このようなデータは縦断データまたはパネルデータと呼ばれ、各被験者(人物ID = idcode)ごとにデータが時間(年 = t)にわたって繰り返し収集されました。言い換えると、カテゴリ変数idcodeの各レベルのサンプルは、時間の経過に伴う繰り返し測定です。応答変数は対数実賃金(ln_wage)であり、データには年齢、総労働時間などの予測変数が含まれています…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more