一般化線形モデルの解説
Generalized Linear Model Explanation
線形回帰を超えたモデリングスキルを身につけましょう
背景
線形回帰は、データサイエンスで学ぶ最も一般的なアルゴリズムです。ほとんどの実践者が聞いたことがあり、使用したことがあるでしょう。しかし、一部の問題においては適切ではなく、「一般化」する必要があります。これが一般化線形モデル(GLM)が登場し、回帰モデリングにおいてより柔軟性を提供し、データサイエンティストにとって貴重なツールとなる理由です。
GLMとは何ですか?
前述の通り、GLMは通常の線形回帰を「一般化」しますが、それは具体的にどういう意味なのでしょうか?
まず、より単純な線形回帰モデルを考えてみましょう:
ここで、βは係数、xは説明変数、εは正規分布に従う誤差です。
保険会社が1時間に受ける請求電話の数をモデル化したいとします。この問題に対して線形回帰は適切なモデルでしょうか?
いいえ!
その理由は次のとおりです:
- 線形回帰は、正規分布に従う誤差を仮定していますが、正規分布は負の値を取ることができます。しかし、請求電話は負の値を取ることはありません。
- 2番目のポイントは、正規分布、つまり線形回帰は連続的です。一方、請求電話は整数で離散的であり、1.1回の電話はありません。
したがって、線形回帰モデルはこの具体的な問題を正しく扱うことができません。しかし、回帰モデルを上記の要件を満たす確率分布に一般化することができます。この場合、それはポアソン分布になります(詳細は後述します)。
GLMは、単に入力を目標分布の所望の出力にリンクする方法のフレームワークを提供します。これにより、多くの回帰モデルを1つの「数学的な傘」の下に統一するのに役立ちます。
理論的な枠組み
概要
GLMの基礎は、次の3つのキー要素に依存しています:
- 線形予測子(システマティックコンポーネント)
- リンク関数(ランダムコンポーネント)
- 指数族
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles