統計的推定と推論の初心者向け解説

『統計的推定と推論を初心者にわかりやすく解説』

大数の法則と健全な統計的推論は、データサイエンスにおける効果的な統計的推論の基礎です

Photo by Gabriel Ghnassia on Unsplash — Gabriel Ghnassiaによる写真, Unsplash

大数の法則と健全な統計的推論は、データサイエンスにおける効果的な統計的推論の基礎です。

以下のテキストは、私の書籍「データサイエンス-統計と機械学習の入門」[Plaue 2023]に大きく基づいています。この書籍は最近Springer Natureから出版されました。

はじめに

私たちの日常の経験によって、人口における典型的な身長についての直感的な理解を持っています。世界の大部分では、成人の身長は通常1.60mから1.80mの間であり、2メートル以上の高さの人は珍しいです。身長の頻度分布を提供することによって、この直感的な事実を数値的な証拠として裏付けることができます。

Table 1: Frequency of human body height. Image by author. — Table 1: 人間の身長の頻度. 著者による画像.

これらの数値は、U.S. Centers for Disease Control and Prevention (CDC) によって収集されたデータセットに基づいています。このデータセットには、34万人以上の個人の身長などの属性がリストされています[CDC 2018]。この頻度表を調べると、実際には、調査に参加した人々の半数以上が自分の身長を1.60mから1.80mの間と報告しています。

サンプルのサイズは限られていますが、私たちの調査結果が人口全体についての結論を導くことができるという自信があります。例えば、データだけを基に、人間は3メートルの身長まで成長することはできないという自信をもって結論を出すことができます。

確率論の重要な目標の一つは、そのような結論を厳密に数学的に正当化することです。この分野は以下の二つに分けることができます。

確率理論: 確率の概念の数学的な定義と調査に取り組みます。その中でも主要な対象は確率変数です。確率変数とは、値が正確に特定されたりはっきりと結論されず、不確実性の影響を受ける変数です。言い換えれば、確率は、ランダム変数が特定の範囲内の値を取る確率しか与えることができないということです。
推測統計学: 特定の前提条件のもとで、統計的な観測や測定値（頻度、平均値など）がランダム変数の値または実現値であると仮定します。逆に、この分野では抽出されたデータからランダム変数の特性をどの程度推定できるかを調査します。特に、ある簡略化された仮定のもとでは、その推定値の精度や誤差を定量化することが可能です。

統計的推論のわかりやすい例として、コイントスの連続の観測によってコインが公平か偏っているかを判断することを考えてみましょう。コイントスの結果は、ゼロ（裏）または1（表）などの値を持つ離散的な確率変数X_1によって決定されると仮定できます。同じコインをもう一度投げる場合、結果は第一のコインと独立であり、同じ分布に従うと仮定できます。

もしもコインが偏っているという仮説を支持する証拠がなければ、コインが公平であると仮定できます。つまり、表が出る確率と裏が出る確率は同じであると予想します。この仮説は帰無仮説と呼ばれ、実験を複数回繰り返すと、表と裏がほぼ同じ頻度で出ることを期待します。

逆に、データは私たちに真の分布についての結論を導くことを可能にします。たとえば、もし私たちがヘッズとテールの非常に異なる頻度を観察した場合、例えばヘッズが70%、テールが30%であるような場合、（サンプルサイズが十分に大きい場合）均等な確率の原初の仮定を修正する必要があると確信することができるはずです。つまり、私たちはコインが公平ではないという仮定を放棄する必要があるかもしれません。

上記の例では、データにおけるヘッズの頻度は、ランダムイベント「コインがヘッズを表示する」の確率の推定量として機能します。常識的には、そのような推定値に対する信頼性は、サンプルのサイズが大きくなるにつれて増加すると考えられています。例えば、先に説明した不均衡がコインを投げた回数10回（7回ヘッズ、3回テール）で見つかった場合、まだ私たちはバイアスのあるコインを持っているとは確信できるわけではありません。公平なコインの帰無仮説が真実である可能性がまだあります。日常的な言葉で言えば、実験の結果は「純粋な偶然」に帰することもできます。しかし、もし私たちが100回のコイントスのうち70回がヘッズだと観測した場合、コインがバイアスを持っているという対立仮説を支持するより強力な証拠となるでしょう！

中心極限定理: 点推定から信頼区間へ

点推定は統計学者やデータサイエンティストのツールセットの中でも基本的なものの一つです。例えば、母集団の十分なサンプルから導かれる算術平均は、与えられた変数が取る典型的な値を示しています。機械学習では、ラベル付きの十分な数の例をカバーしたトレーニングデータからモデルパラメータを推定します。

経験と直感により、大きなサンプルと大量のトレーニングデータはより正確な統計手法とより良い予測モデルを可能にすることを信じています。推測統計は、単なる点推定に頼らずに信頼区間を計算することにより、「十分な大きさのサンプル」が何であるかをより深く理解する手助けをしてくれます。信頼区間は、求めたい真のパラメータが存在すると合理的に主張できる値の範囲を提供してくれます。

次のセクションでは、中心極限定理の数学的なフレームワークを独自の方法で説明します。これの核心には、中心極限定理があります。

チェビシェフの大数の法則

私たちは、相対頻度がイベントやバイナリ変数の結果の確率の良い推定量であると期待しているように、算術平均が観測された数値データを生成する確率変数の期待値の良い推定量であると期待しています。

重要なことは、この推定値自体もまた確率変数であることです。例えば、サイコロを50回振って平均数を記録し、その実験を繰り返すと、わずかに異なる値が得られるでしょう。実験を何度も繰り返すと、記録した算術平均は何らかの分布に従うことになります。しかし、大きなサンプルの場合は、それらは非常に小さなばらつきを示し、真の期待値を中心に集まることが期待されます。これは、チェビシェフの大数の法則の肝心なメッセージです。

それを詳細に説明する前に、確率論で重要なツールであるチェビシェフの不等式を紹介します。有限な平均μと分散σ²を持つ確率変数Xが与えられたとします。このとき、任意のε > 0に対して、以下が成り立ちます。ここでPr( · )は「～の確率」という意味です。

この結果は、ばらつきの尺度の直感的な理解と一致しています。分散が小さいほど、確率変数が平均に近い値を取る可能性が高くなります。

例えば、確率変数の観測値が期待値から6つの標準偏差以内にある確率は非常に高く、少なくとも97%です。つまり、確率変数が平均から6つの標準偏差以上離れた値を取る確率は非常に低く、3%未満です。この結果は、期待値と分散が有限の値である限り、どのような形状の分布でも成り立ちます。

今、我々はサンプル内の数値値を観察すると仮定します。これらの値は、ランダム変数X_1、…、X_Nの実現値であるとします。これらのランダム変数は互いに独立であり、同じ分布に従うと仮定します。このような性質は一般に「独立同一分布（independent and identically distributed）」または略して「i.i.d.」と呼ばれています。この仮定は、観察値が独立に設定され同一に準備された試行の結果である場合や、集団からのランダムな選択を表す場合に妥当であると考えられます。ただし、この仮定が常に正当化されるわけではないことに留意する必要があります。

さらに、すべてのランダム変数の期待値μと分散σ²が存在し有限であると仮定します。これらの変数が同じ分布に従っているため、これらの値は各変数に対して同じです。次に、算術平均を生成する次の確率変数を考慮します：

まず、算術平均の推定値x̄が「無バイアス推定子」であることを示します。つまり、その値は真の平均μの周りに分布しています。これは、期待値E[ · ]の線形性から直接導かれる結果です：

次に、大きなサンプルにおいて算術平均推定子の値が真の平均から離れすぎないことを示したいと思います。X_1、…、X_Nが互いに独立であると仮定された場合、それらは対に関して無相関です。すべての交差項が消えるため、無相関なランダム変数に対して分散は次のように表されることを簡単に確認することができます：

したがって、算術平均推定子の分散は次のようになります：

算術平均推定子の平均と分散を知ったので、チェビシェフの不等式を適用することができます：

この結果から、算術平均は期待値の「一貫性ある推定子」であることが分かります。つまり、大きなサンプルにおいて、基になる分布の期待値μとサンプルの算術平均は、大きく異なることはないと言えます。

リンデベルグ・レヴィ中心極限定理

チェビシェフの大数の法則によれば、一般的な条件の下では、大きなサンプルの算術平均は基になる分布の真の平均に非常に近い値となる可能性があります。驚くことに、大きなサンプルの平均は真の期待値の周りでどのように分布するかについてかなり具体的な情報を得ることができます。これがリンデベルグ・レヴィ中心極限定理の主要なメッセージです。ある数a、b（a < b）に対して：

方程式の右辺の積分被積分関数は「標準正規分布」の確率密度関数です。この正規分布にはよく知られた鐘型があり、平均が0、分散が1です。

一般的に、ある確率変数の累積分布関数がその確率変数の分布に対して点収束する場合、その確率変数の中心極限定理は次のように述べることができます。即ち、いかなるX_1, … X_Nがどのように分布していようとも（i.i.d.である限り）、次の確率変数の列は常に標準的に正規分布する確率変数に対して分布収束します：

統計的には、中心極限定理によって、同じ母集団から十分に大きなサンプルを繰り返し収集すると、それらのサンプルの平均値は正規分布に従うということが示されています。この定理には実用的な意義があり、統計的な推定の正確性について正確な記述をすることができます。一般的な誤解として、この定理が多くの経験的な分布を実際に正規分布で近似できる理由だと思われていることが挙げられますが、これは事実ではありません。

この定理の証明には、ここでは詳しく説明しない高度な解析ツールが必要です（例：[Durrett 2019, 定理3.4.1]参照）。しかし、数値的な例を通じて、この定理の実用上の意味を理解することができます。以下の確率密度関数を考えてみましょう。これが研究対象のデータを生成すると仮定しています：

この定理が基になる分布の形状には関係ないことを強調するために、密度関数がベルカーブに似ていないことに注目してください。私たちは、分布から反復的にN個のサンプルを抽出し、計算することで得られる多数の平均値のヒストグラムを数値シミュレーションによって調べることができます。ただし、インスタンスが1つだけのサンプル（N = 1）の場合、定理が適用されることは期待できません。単に基になる分布を再現するだけです：

図2：任意の分布からのサンプルされたヒストグラム（N = 1の場合）。作者による画像。</figcaption></figure><p>しかし、比較的小さいサンプルサイズN = 5の場合でも、算術平均の分布（つまり、反復的なサンプリングと計算 (x_1 + … + x_5) / 5）は、典型的な正規分布のベルの形状を示しています：</p><figure><img alt=

Grant Sanderson氏は、彼のYouTubeチャンネル3Blue1Brownで、中心極限定理に関する直感的な洞察を提供する動画を公開しています。

区間推定と仮説検定

中心極限定理は重要です、なぜなら、何らかの母集団の平均を推定する際に、単に点推定ではなく信頼区間を指定することが可能になるからです。つまり、真の平均が含まれると合理的に確信できる区間を指定します。例えば、十分に大きなサンプルに対して95%の信頼度で推定が正しいことを確認したい場合、信頼水準γ = 0.95を設定して信頼区間を決めることができます：

次の数値Zを利用した仮説を立てます。ここでは、Zはまだ決まっていません：

中心極限定理を用いると、以下の結論が導かれます：

したがって、z = z(γ)は、標準正規ベル曲線の下にγの面積を生成する積分の制限によって決定されます。例えば、z(0.95) = 1.96 または z(0.99) = 2.58 です。

結論として、十分に大きなサンプルに基づいて信頼度γでの平均の区間推定（一般的にはN > 30またはN > 50として使用される規則）は次のようになります：

上記の公式を導くためには、平均μと標準偏差σをそれぞれその推定値x̄とs(x)で置き換えました。これは十分に大きなサンプルの場合には合理的な近似であり、最低でも一つの項/因子が定数に収束する限り、基本的な算術操作が分布の極限を取ることと可換であることを主張するスラツキーの定理によって正当化されます。

信頼度γの代わりに有意水準、または誤り確率α = 1 – γを指定することもできます。

実例を計算しましょう。CDC調査での男性回答者の平均身長の99.9%信頼区間は[177.98 cm, 178.10 cm]で与えられます。この高い統計的精度は、190,000人以上の男性がインタビューされた大規模サンプルサイズNのためです。サンプルサイズが小さい場合に区間推定がどのように機能するかを示すために、N = 50の身長値のランダムサンプルを繰り返し抽出し、対応する95%信頼区間を計算します。結果は以下の図で見ることができます：

Figure 5: Interval estimation of body height from samples of size N = 50. Image by author. — 図5：サイズN = 50の標本からの身長の区間推定。著者による画像。

垂直の誤差棒として表示されるほとんどの信頼区間が、水平の破線で表示される真の値178 cmを含んでいることに注意してください。ただし、いくつかの信頼区間はそれを含んでおらず、約100回のうち約5回あります。これは構築上予想され、指定された誤り確率α = 5%と一致しています。信頼度が低い場合には、区間推定が真の母数の平均を逃す可能性が常にあります。

区間推定に密接に関連する中心極限定理のもう一つの重要な応用は、仮説検定です。ランダム変数Xの期待値がある値μと等しくないと信じる理由があるとしましょう。その場合、帰無仮説E[X] = μを否定したいと考えます。観測された平均値が以下の区間に含まれない場合、この帰無仮説はデータと一致しないと言えます：

導入の可能性のある表記の不公平なコインの例を再考してみましょう。コインの裏表を記録し、ヘッズを示す値1とテールを示す値0のバイナリ値のシーケンスが得られます。そのシーケンスの算術平均はヘッズの相対頻度に等しくなり、それまでのところ学んだことを適用することができます。コインが公平ではないという理由があるとしましょう。帰無仮説はコインが公正であること、つまりE[X] = 0.5であることを主張します。まずの実験では、10回の投げの後、コインがヘッズが7回上になることが観測されます。信頼度γ = 0.95でのこの実験の帰無仮説の区間は次のようになります：[0.24, 0.76]。実際に観測された割合0.7はまだこの区間内にあります。したがって、公平なコインの帰無仮説は与えられた信頼度で否定することはできません。

サンプルサイズは比較的小さいですが、実際には学生のt検定を使用することが推奨されています。 t検定では、臨界標準得点z（0.95）= 1.96を2.26に修正し、より広い信頼区間を得ることができます。

逆に、100回のコイントスのうち70回が表の結果である場合、以下の信頼区間が真の場合に得られる結果です：[0.41、0.59]。この場合、実際に観測された割合0.7は信頼区間に含まれていません。したがって、帰無仮説を棄却する必要があり、与えられた信頼レベルでコインがバイアスされていると結論づけることができます。

サンプルそれぞれに基づいて2つの集団の平均が等しいかどうかを調査することもできます。両側性の2サンプルZテストは、次の条件が満たされる場合、平均が等しい帰無仮説を棄却します：

データから結論を導く：統計的推論の落とし穴

統計的テストを実行し、信頼区間を計算することは、適切な統計的推論を代替するものではありません。統計的に有意な効果でも、実用的な関係性が少ないか、偶発的な関係性であることもあります。

統計的 vs. 実用的な有意性：効果サイズ

特に非常に大きなサンプルの場合、平均または他のタイプの効果について、統計的テストによって有意な差が検出されることはかなり一般的です。ただし、それらの効果は依然として小さい場合があります。

たとえば、CDCのデータセットを使用すると、異なる米国の州を比較することができます。ロードアイランド州の男性回答者の平均身長をニューヨーク州の男性回答者と比較できます。 Zテストを適用すると、95％の信頼レベルでテストスコアが0.33 cmで得られます。この値は0.44 cmの観測差よりも小さいです。したがって、差は統計的に有意です。ただし、その大きさは非常に小さいため、実用的な意義はほとんどないと予想されます。

多くの場合、効果の大きさは自然単位で評価できます。上記の例では、長さのメートル単位を選択しました。別の可能性としては、標準偏差の倍数に対応する単位で指定することもできます。Cohen’s d は統計的効果の実用的な関連性を示す尺度です。これは、平均の差を合併した分散で割ったもので定義されています[Cohen 1988, p.67]。

上記の例で観測された0.44 cmの差は、Cohen’s dの値0.05に対応します。プエルトリコの回答者の平均身長とニューヨークの回答者の平均身長を比較すると、Cohenのdの値は0.50で、メートル単位での差が4.1 cmに相当します。

Cohen’s dの値を解釈するための経験的な目安は、次の表に示されています[Sawiloswky 2009]：

Table 2: Effect size according to Cohen’s d. Image by author.

統計的推論 vs. 因果関係の説明：シンプソンのパラドックス

確かに、統計推論における最も頻繁に引用される罠の一つは、「相関は因果関係を暗示しない」という言葉です。この概念は、しばしば露骨に虚偽で時には滑稽な相関の例を用いて説明されます。例えば、海賊の不足を地球温暖化に帰するというようなものです。

しかし、実際の応用では、統計的な関連性が本当に虚偽なのか、因果関係を示しているのかは明白ではありません。判別しづらい虚偽の相関の一つの原因は、未知の交絡変数が存在することです。実際、未知の交絡変数の存在は、特定のサブポピュレーションを調査する際に相関の反転を引き起こすことがあります。これをシンプソンのパラドックスと呼びます。

シンプソンのパラドックスは、次の例で説明できます（cf. [Blyth 1972], [Bickel et al. 1975] および [Freedman et al. 2007, Chap. 2, Sect. 4]）：ある大学の6つの最大の学部では、1835人の女性応募者のうちp_x = 30％が合格し、2691人の男性応募者のうちp_y = 45％が合格しました。私たちは、この入学率の違いは99％の信頼水準で有意であるとするためにZ検定を使用することができます。

これは、各学部ごとに分解した数値です：

Table 3: University admission rates by department. Image by author.

各部門について、両側検定のスコアを計算し、そのスコアを合格率の実際の差の絶対値、| p_y − p_x |と比較することができます。利用可能なデータから、男女を問わず各学部の合格率pを計算することもできます：

Table 4: Analysis of university admission rates. Image by author.

唯一のA学部だけが合格率において有意な差を示しています。全学部を比較した結果とは逆に、女性応募者有利です。A学部とB学部は、合格の可能性が最も高い学部であり、大きな差があります。男性応募者の51％がこれらの学部に応募しますが、全ての女性応募者のうちわずか7％がそうします。したがって、データは、女性応募者はより競争の激しい研究に応募する傾向があり、それによって彼らが拒否される可能性が高いという仮説と一致しています。

結論

大数の法則は、統計的推定のプロセスに堅固な基盤を提供し、その妥当性は中心極限定理によって厳密にサポートされています。より多くのデータを考慮するほど統計的推定はより正確になり、多くの場合、正確さと結果への自信を量化するメトリックを計算することができます。

ただし、「黙って計算する」というアプローチでは、健全な統計的推論と効果的なデータサイエンスには不十分です。第一に、ランダムエラーが最小限に抑えられていても、統計結果はさまざまなシステマティックエラーの影響を受ける可能性があります。これらは、応答バイアス、不正な測定装置、またはサンプリングバイアスといった要素から生じる可能性があります。そのため、バイアスの潜在的な要因を徹底的に検討することが、信頼性のある統計分析には不可欠です。

第二に、結果を解釈する際には、統計的な有意性と相関だけでは、観察された効果の実用的な重要性やその背後にある理由を評価するには不十分です。統計的な結果は現実の重要性を確認し、観察された現象の説明を提供するために文脈化される必要があります。

参考文献

[Plaue 2023] Matthias Plaue著。『データサイエンス-統計と機械学習の入門』。Springer Berlin, Heidelberg. 2023年。

[CDC 2018] Centers for Disease Control and Prevention (CDC)。Behavioral Risk Factor Surveillance System Survey Data。アトランタ, ジョージア: 米国保健福祉省、疾病対策予防センター, 2018年。

CDCのデータはパブリックドメインであり、許可なく複製することができます。

[Durrett 2019] Rick Durrett著。Probability: Theory and Examples. 第5版. Cambridge University Press, 2019年5月。

[Cohen 1988] Jacob Cohen著。Statistical power analysis for the behavioral sciences. 第2版. ニュージャージー, アメリカ: Lawrence Earlbaum Associates, 1988年。

[Sawilowsky 2009] Shlomo S. Sawilowsky著。『New Effect Size Rules of Thumb』。 In: Journal of Modern Applied Statistical Methods 8.2 (Nov. 2009), pp. 597–599.

[Blyth 1972] Colin R. Blyth著。『On Simpson’s Paradox and the Sure-Thing Principle』。 In: Journal of the American Statistical Association 67.338 (June 1972), pp. 364–366.

[Bickel et al. 1975] P. J. Bickel, E. A. Hammel, and J. W. O’Connell著。『Sex Bias in Graduate Admissions: Data from Berkeley』。In: Science 187.4175 (Feb. 1975), pp. 398–404。

[Freedman et al. 2007] David Freedman, Robert Pisani, and Roger Purves著。Statistics. 第4版. W. W. Norton & Company, 2007年2月。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Central Limit TheoremConfidence IntervalGetting StartedSimpsons ParadoxZ Test

Was this article helpful?

93 out of 132 found this helpful