「高次元のカテゴリ変数に対する混合効果機械学習 – 第二部 GPBoostライブラリ」

Mixing Effects Machine Learning for High-Dimensional Categorical Variables - Part 2 GPBoost Library

実世界のデータを使用したPython&RでのGPBoostのデモ

Illustration of high-cardinality categorical data: box plots and raw data (red points) of the response variable for different levels of a categorical variable — Image by author

高基数のカテゴリカル変数は、データセットのサンプルサイズに対して異なるレベルの数が大きい変数です。このシリーズの第1部では、さまざまな機械学習手法の実証的な比較を行い、ランダム効果がGPBoostアルゴリズムを用いた高基数のカテゴリカル変数の処理に効果的であり、予測精度が最も高いことがわかりました [Sigrist、2022、2023]。この記事では、ツリーブースティングとランダム効果を組み合わせたGPBoostアルゴリズムを、PythonおよびRパッケージのGPBoostライブラリでどのように適用するかを示します。このデモでは、GPBoostライブラリのバージョン1.2.1を使用しています。

目次

∘ 1 紹介∘ 2 データ:説明、読み込み、サンプル分割∘ 3 GPBoostモデルのトレーニング∘ 4 チューニングパラメータの選択∘ 5 予測∘ 6 解釈∘ 7 さらなるモデリングオプション · · 7.1 カテゴリカル変数と他の予測変数との相互作用 · · 7.2 (一般化)線形混合効果モデル∘ 8 結論と参考文献

1 紹介

GPBoostモデルの適用には、次の主なステップがあります:

  1. 以下を指定するGPModelを定義する: — ランダム効果モデル: group_dataを介したグループ化されたランダム効果と/またはgp_coordsを介したガウス過程 — likelihood(固定効果およびランダム効果に条件付けられた応答変数の分布)
  2. 応答変数(label)と固定効果の予測変数(data)を含むDatasetを作成する
  3. 関数gpb.grid.search.tune.parametersを使用して、チューニングパラメータを選択する
  4. モデルをトレーニングする
  5. トレーニングされたモデルの予測と/または解釈を行う

以下では、これらのポイントをステップバイステップで説明します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

データサイエンス

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管...

機械学習

「ディープランゲージモデルは、コンテキストから次の単語を予測することを学ぶことで、ますます優れてきていますこれが本当に人間の脳が行っていることなのでしょうか?」

ディープラーニングは、テキスト生成、翻訳、および補完の分野で最近大きな進歩を遂げています。周囲の文脈から単語を予測す...

機械学習

ディープラーニングによる触媒性能の秘密の解明:異種触媒の高精度スクリーニングのための「グローバル+ローカル」畳み込みニューラルネットワークのディープダイブ

触媒の表面の形状が、触媒のさまざまな特性によって特定の化学反応に影響を与えるため、私たちは表面化学でこれらの効果を研...

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

AIテクノロジー

AIを活用した「ディープフェイク」詐欺:ケララ州のスキャマーに対する継続的な戦い

最近数ヶ月間、ケララではAIによる「ディープフェイク」技術を悪用した巧妙な詐欺の増加が目撃されています。300人以上が驚異...