基本に戻ろう:プロビット回帰
再び基本に戻ろう:プロビット回帰
バイナリアウトカム分析の重要な手法
バイナリアウトカムの解析に関連するタスクに取り組む際、私たちは通常、ロジスティック回帰を主要な手法と考えます。そのため、バイナリアウトカム回帰についてのほとんどの記事は、ロジスティック回帰にのみ焦点を当てています。ただし、ロジスティック回帰は唯一の選択肢ではありません。リニアプロビティモデル(LPM)、プロビット回帰、補完ログ対数(Cloglog)回帰など、他の手法も存在します。残念ながら、インターネット上にはこれらのトピックに関する記事がほとんどありません。
リニアプロビティモデルは、バイナリアウトカムと独立変数の曲線的な関係をキャプチャするのに非常に効果的ではないため、ほとんど使用されません。以前に私はCloglog回帰について以前の記事で議論しました。インターネット上にはプロビット回帰に関するいくつかの記事がありますが、非専門読者にとっては技術的で理解しにくい傾向にあります。この記事では、プロビット回帰の基本原理とその応用について説明し、ロジスティック回帰との比較を行います。
背景
バイナリアウトカム変数と独立変数の関係は通常、以下のように見えます:
このプロットで見る曲線はS字カーブまたはシグモイドカーブと呼ばれます。このプロットを注意深く観察すると、確率変数の累積分布関数(CDF)に類似していることがわかります。したがって、バイナリアウトカム変数と独立変数の関係をモデル化するためにCDFを使用するのは合理的です。最も一般的に使用される2つのCDFはロジスティック分布と正規分布です。ロジスティック回帰は、次の方程式で与えられるロジスティックCDFを利用します:
- 「LLM革命:言語モデルの変革」
- 「New DeepMindの研究で、言語モデルのための最高のプロンプトシードが公開されました」
- デルタレイク – パーティショニング、Z-オーダー、リキッドクラスタリング
プロビット回帰では、正規分布の累積分布関数(CDF)を利用します。したがって、プロビット回帰の方程式を得るためにロジスティックCDFを正規分布CDFで置き換えることができます:
ここで、Φ()は標準正規分布の累積分布関数を表します。
この方程式を暗記することもできますが、プロビット回帰に関する概念を明確にするわけではありません。そのため、プロビット回帰の動作原理をより良く理解するために、異なる方法を取り入れます。
プロビット回帰の基本的な概念
体重とうつ病の状態を持つ1000人のサンプルのデータがあると仮定しましょう。私たちの目的は、プロビット回帰を使用して体重とうつ病の関係を調査することです(データはこちらからダウンロードできます)。
直感を提供するために、(「i番目」の)個々の人がうつ病を経験するかどうかは、観測されない潜在変数であるAiに依存すると想像してみましょう。この潜在変数は1つ以上の独立変数の影響を受けます。私たちのシナリオでは、個々の人の体重が潜在変数の値を決定します。うつ病の経験確率は、潜在変数の増加とともに増加します。
質問は、Aiが未観測の潜在変数であるため、上記の方程式のパラメータをどのように推定するかということですか?まあ、もしもその平均と分散が正規分布に従っていると仮定すれば、私たちは潜在変数に関する情報を得て、モデルのパラメータを推定することができるでしょう。詳細は後で方程式を説明しますが、まずはいくつかの実践的な計算を行ってみましょう。
データに戻ると、各年齢でのうつ病の確率を計算して表にまとめましょう。例えば、体重が40kgの人が7人おり、そのうち1人がうつ病であるため、体重40のうつ病の確率は1/7 = 0.14286です。全ての体重について同様に計算を行うと、このような表ができます。
それでは、潜在変数の値をどのように取得するのでしょうか?正規分布はXのある値に対してYの確率を与えることが分かっています。しかし、正規分布の逆累積分布関数(CDF)を使うと、ある確率値に対するXの値を求めることができます。この場合、すでに確率値を持っているため、正規分布の逆CDFを使用して対応する潜在変数の値を決定することができます。(注:逆正規分布CDF関数は、Excelを含むほとんどの統計ソフトウェアで利用可能です。)
この未観測の潜在変数Aiは、通常の等価偏差(n.e.d.)または単にノーミットとして知られています。よく見ると、これは未観測の潜在変数に関連付けられたZスコアにすぎません。推定されたAiがあれば、β1とβ2を比較的簡単に推定することができます。Aiと独立変数の間で単純な線形回帰を実行することができます。
体重0.0256の係数は、重いうつ病の発現変数(depression)のZスコアの変化を示しています。具体的には、体重が1単位増加すると、うつ病の発生確率は約0.0256のZスコア単位増加します。標準正規分布を使用して任意の年齢でのうつ病の確率を計算することができます。例えば、体重70の場合、
Ai = -1.61279 + (0.02565)*70
Ai = 0.1828
Zスコア0.1828に関連する確率(P(x<Z))は0.57です。つまり、体重70のうつ病の予測確率は0.57です。
上記の説明は、中程度に複雑な手法の過度に簡略化されたものであると言えます。また、プロビット回帰で累積正規分布を使用する基本原理のイラストであるということも重要です。それでは、数学的な方程式について見てみましょう。
数学的構造
先程述べたように、予測変数によって決定される潜在変数Aiが存在することを議論しました。潜在変数のある臨界値(Ai_c)が存在すると考えるのは非常に論理的です。この値を超えると、個人はうつ病になります。そうでなければ、うつ病ではありません。正規性の仮定の下では、AiがAi_c以下である確率は、標準化された正規分布の累積分布関数から計算することができます。
ここで、Ziは標準正規変数であり、すなわち Z ∼ N(0, σ 2) であり、Fは標準正規分布関数です。
潜在変数とβ1およびβ2に関連する情報は、上記の式の逆を取ることで得ることができます:
標準化された正規分布の逆累積分布関数は、与えられた確率値のZの値を得るために使用されます。
次に、β1、β2、およびAiの推定プロセスは、集団データまたは個別レベルの非グループ化データの有無に依存します。
集団データがある場合、確率を計算することは簡単です。私たちのうつ病の例では、初期データはグループ化されておらず、つまり各個人と彼/彼女のうつ病の状態(1および0)に対して重みがあります。最初のサンプルサイズは1000でしたが、そのデータを重みごとにグループ化し、各重みグループでのうつ病の確率を計算しました。
ただし、データがグループ化されていない場合は、最尤法(MLE)を使用してモデルパラメータを推定します。以下の図は、非グループ化データ(n = 1000)に対するProbit回帰を示しています:
重みの係数は、グループ化されたデータで推定した値に非常に近いことが観察されます。
Probit vs Logit
Probit回帰の概念を把握し、ロジスティック回帰についても(おそらく)馴染んできたので、次の問いが生じます:どちらのモデルが好ましいのでしょうか?どちらのモデルが異なる条件下でより良いパフォーマンスを発揮するのでしょうか?さて、両モデルはその応用および予測確率の点で非常に似ています。唯一のわずかな違いは、極値への感度です。両モデルについて詳しく見てみましょう:
プロットからわかるように、ProbitモデルとLogitモデルは非常に似ています。ただし、ProbitはLogitに比べて極値への感度が低いです。つまり、極値において、予測確率が説明変数の単位変化に対してロジットモデルよりも高く変化することを意味します。したがって、モデルが極値において感度を持つことを望む場合、ロジスティック回帰を使用することを好むかもしれません。ただし、これらの選択肢は推定にほとんど影響を与えません。というのも、予測確率の観点では、両モデルは非常に似た結果を示すからです。両モデルから得られる係数は異なる量を表し、直接比較することはできません。ロジット回帰は、説明変数の変化に伴う結果の対数オッズの変化を示し、Probit回帰は結果のZスコアの変化を示します。ただし、両モデルを使用して結果の予測確率を計算すると、結果は非常に似たものになります。
実践では、数学的な簡素さと係数の解釈の容易さから、ロジスティック回帰がProbit回帰よりも好まれます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles