「高次元のカテゴリ変数に対する混合効果機械学習 – 第二部 GPBoostライブラリ」

Mixing Effects Machine Learning for High-Dimensional Categorical Variables - Part 2 GPBoost Library

実世界のデータを使用したPython＆RでのGPBoostのデモ

Illustration of high-cardinality categorical data: box plots and raw data (red points) of the response variable for different levels of a categorical variable — Image by author — **高基数のカテゴリカルデータのイラスト**: カテゴリカル変数の異なるレベルごとの応答変数の箱ひげ図と生データ（赤ポイント） — 著者による画像

高基数のカテゴリカル変数は、データセットのサンプルサイズに対して異なるレベルの数が大きい変数です。このシリーズの第1部では、さまざまな機械学習手法の実証的な比較を行い、ランダム効果がGPBoostアルゴリズムを用いた高基数のカテゴリカル変数の処理に効果的であり、予測精度が最も高いことがわかりました [Sigrist、2022、2023]。この記事では、ツリーブースティングとランダム効果を組み合わせたGPBoostアルゴリズムを、PythonおよびRパッケージのGPBoostライブラリでどのように適用するかを示します。このデモでは、GPBoostライブラリのバージョン1.2.1を使用しています。

∘ 1 紹介∘ 2 データ：説明、読み込み、サンプル分割∘ 3 GPBoostモデルのトレーニング∘ 4 チューニングパラメータの選択∘ 5 予測∘ 6 解釈∘ 7 さらなるモデリングオプション · · 7.1 カテゴリカル変数と他の予測変数との相互作用 · · 7.2 （一般化）線形混合効果モデル∘ 8 結論と参考文献

1 紹介

GPBoostモデルの適用には、次の主なステップがあります：

以下を指定するGPModelを定義する： — ランダム効果モデル： group_dataを介したグループ化されたランダム効果と/またはgp_coordsを介したガウス過程 — likelihood（固定効果およびランダム効果に条件付けられた応答変数の分布）
応答変数（label）と固定効果の予測変数（data）を含むDatasetを作成する
関数gpb.grid.search.tune.parametersを使用して、チューニングパラメータを選択する
モデルをトレーニングする
トレーニングされたモデルの予測と/または解釈を行う

以下では、これらのポイントをステップバイステップで説明します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「高次元のカテゴリ変数に対する混合効果機械学習 – 第二部 GPBoostライブラリ」

実世界のデータを使用したPython＆RでのGPBoostのデモ

目次

1 紹介

Was this article helpful?

「先天性とは何か、そしてそれは人工知能にとって重要なのか？（パート1）」

エロン・マスクのxAIがOpenAIのChatGPTに挑戦します

機械学習

「GPT4Readability — リードミーをもう一度書く必要はありません」

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

「2023年の最高のAIアバタージェネレーター10選」

メタスの新しいテキストから画像へのモデル - CM3leon論文の説明

ソフトウェアエンジニアリングの未来生成AIによる変革

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」