『大数の法則の解明』

Law of Large Numbers elucidation

Pixabay

LLNは、言わないことと同じくらい興味深い

1966年8月24日、才能ある劇作家トム・ストッパード氏がスコットランドのエディンバラで劇を上演しました。その劇のタイトルは「ローゼンクランツとギルデンスターンは死んだ」で、主要なキャラクターであるローゼンクランツとギルデンスターンは、シェイクスピアの有名な作品「ハムレット」の幼なじみです。劇は、ギルデンスターンが何度もコインを投げて、コインが裏になることが続く様子で始まります。結果ごとにギルデンスターンの財布は軽くなり、ローゼンクランツの財布は重くなっていきます。裏が続くドラムの音によって、ギルデンスターンは心配になります。ギルデンスターンは、長い間忘れ去られた罪の自己責任として、コインが裏になるように密かに願っているのではないかと心配しています。または、最初の裏返しの後に時間が止まり、彼とローゼンクランツが同じ結果を何度も経験しているのではないかと心配しています。

ストッパード氏は、確率の法則が私たちの世界観にどのように織り込まれ、私たちの期待感、人間の思考の本質に組み込まれるかを見事に描いています。92回目の裏返しもまた裏になった場合、ギルデンスターンは、確率の法則がもはや作用しない非自然な現実の支配下にあるのではないかと尋ねます。

ギルデンスターンの恐怖は当然のことながら根拠がありません。92回連続で裏になる確率は想像を絶するほど小さいです。実際、その数は小数点の後に28個のゼロが続き、2が続きます。ギルデンスターンが隕石に当たる可能性の方が高いです。

ギルデンスターンは、翌日に戻ってきて92回のコイントスのシーケンスをもう一度行えば、結果はほぼ確実に大きく異なるものになることがほとんどです。毎日このルーティンを続けると、ほとんどの日において裏と表の数がほぼ一致することがわかります。ギルデンスターンは、私たちの宇宙が示す魅力的な振る舞い、つまり「大数の法則」を体験しています。

大数の法則を平易な英語で説明する

大数の法則(LLN)は、弱い法則と強い法則の2つのバリエーションがあります。弱いLLNは直感的で理解しやすいですが、誤解される可能性もあります。この記事では弱いバージョンについて説明し、強いバージョンについての議論は後の記事に譲ります。

弱い大数の法則は、標本平均と母集団平均の関係について関心を持っています。以下に、平文で説明します:

ある特定のサイズ(例えば100)の母集団から無作為にサンプルを抽出するとします。ところで、「サンプルサイズ」という用語について心に留めておいてください。サンプルの「サイズ」はこの法則のリングマスター、大元の重要な要素です。次に、このサンプルの平均値を計算して一時的に保留します。次に、このプロセスを何度も繰り返します。すると、不完全な平均値のセットが得られます。これらの平均値は不完全です。なぜなら、それらと真の母集団平均との間に常に「ギャップ」、「デルタ」、「偏差」が存在するからです。ある程度の偏差を許容すると仮定しましょう。このセットの平均値から無作為にサンプル平均を選択する場合、サンプル平均と母集団平均の絶対差が選択した許容範囲を超える確率があるでしょう。

弱い大数の法則は、サンプルサイズが無限または母集団のサイズに成長するにつれて、この偏差が選択した許容レベルを超える確率がゼロに収束すると言っています。

選択した許容レベルがどれだけ小さくても、サンプルのサイズを増やしていくと、セットから無作為に選択したサンプルの平均がこの許容範囲を超える可能性はますます低くなります。

弱いLLNがどのように機能するかの実世界の例

弱いLLNがどのように機能するかを見るために、例を通じて説明します。そのために、お付き合いいただければ、北東北大西洋の冷たく陰鬱な広がりに連れて行ってもらいましょう。

アイルランド政府は、北東北大西洋の水温測定データセットを毎日公開しています。このデータセットには、緯度と経度で索引付けされた表面水温の数十万件の測定値が含まれています。例えば、2023年6月21日のデータは以下の通りです:

北東北大西洋の水面温度データセット(CC BY 4.0)

8万件の水温値を想像するのは少し難しいかもしれません。そのため、このデータを視覚化するために散布図を作成しましょう。以下にそのプロットを表示します。プロット内の白い空白地域はアイルランドとイギリスを表しています。

北東北大西洋の海面温度のカラーコードされた散布図(著者による画像)(データソース:データセット)

統計学の学生として、あなたは「母集団」にアクセスすることはありません。ですので、私が800,000件の温度測定値を「母集団」と宣言しても厳しく非難するのは正しいことでしょう。しかし、しばらく我慢してください。すぐに、LLNを理解するためになぜこのデータを「母集団」として考えることが役立つのかがわかるでしょう。

では、このデータが(咳)「母集団」であると仮定しましょう。この810,219箇所の「母集団」の表面水温の平均値は、17.25840度セルシウスです。17.25840は、810K個の温度測定値の平均値です。この値を母集団平均μとします。この値を覚えておいてください。後で参照する必要があります。

さて、この810,219件のデータが利用できないとします。代わりに、この「母集団」からランダムに抽出されたわずかなサンプル(20箇所)にアクセスすることしかできません。以下にそのようなランダムサンプルの一例を示します:

サイズ20のランダムサンプル(著者による画像)

サンプルの平均温度は16.9452414度Cです。これがサンプル平均です。以下のように計算されます:

= (X1 + X2 + X3 + … + X20) / 20

同じ「母集団」から20個のランダムサンプル、第2サンプル、第3サンプル、そして任意の数のサンプルを簡単に抽出できます。以下にいくつかのランダムサンプルの例を示します:

同じ母集団から抽出されたサイズ20のランダムサンプル(著者による画像)

ランダムサンプルの本当の意味についてのちょっとした話題

先に進む前に、ランダムサンプルの概念について少しの視点を持つために一時停止しましょう。これにより、弱いLLNがどのように機能するかを理解しやすくなります。そして、この視点を得るために、カジノのスロットマシンについて紹介しなければなりません:

Pixabay

上記に示したスロットマシンには3つのスロットがあります。マシンのレバーを引くたびに、マシンは内部に保持されている果物のリストなどの画像の母集団からランダムに選択した画像を各スロットに表示します。今度はX1からX20という名前の20個のスロットを持つスロットマシンを想像してください。このマシンは810,219個の温度測定値の母集団から値を選ぶように設計されています。アームを引くと、20個のスロットX1からX20が、810,219個の値の母集団からランダムに選択された値でそれぞれ埋められます。したがって、X1からX20は、母集団から任意の値を保持できるランダム変数です。 言い換えると、ランダムサンプルの各要素はそれ自体がランダム変数です。

X1からX20までにはいくつかの興味深い特性があります:

  • X1が取る値は、X2からX20が取る値とは独立しています。同様に、X2、X3、…、X20も独立しています。したがって、X1からX20独立した確率変数です。
  • X1X2、…、X20は、それぞれ人口から任意の値を持つことができるため、各々の平均は人口の平均μです。期待値を表す記号E()を用いて、次のように表します: E(X1) = E(X2) = … = E(X20) = μ。
  • X1からX20は同じ確率分布を持ちます。

したがって、X1X2、…、X20独立かつ同一の確率分布を持つ (i.i.d.) 確率変数です。

…そして今、弱いLLNの動作を示すことに戻りましょう

この20要素のサンプルの平均(X_barと表記)を計算して取っておきましょう。そして再び機械のアームを回して、別の20要素のランダムサンプルが出てきたら、その平均を計算して取っておきます。このプロセスを1000回繰り返すと、1000個のサンプル平均が計算されます。

以下は、この方法で計算された1000個のサンプル平均の表です。それらをX_bar_1からX_bar_1000と指定します:

1000個のサンプル平均の表。各平均はサイズ20のランダムサンプルから計算されています

ここで以下の文を注意深く考えてみてください:

サンプル平均はランダムなサンプルから計算されるため、サンプル平均自体もランダム変数です

この時点で、もしあなたが賢明に頷きながらあごをなでているなら、それは非常に正しいことです。サンプル平均がランダム変数であるという認識は、統計学において持つことができる最も深遠な認識の一つです。

また、上記の表の各サンプル平均が人口平均μからある距離にあることにも注意してください。これらのサンプル平均がμの周りにどのように分布しているかを確認するために、これらのサンプル平均のヒストグラムをプロットしてみましょう:

サンプル平均のヒストグラム(著者による画像)

サンプル平均のほとんどは、17.25840度 Celsiusという人口平均に近い位置にあるようです。ただし、μからかなり離れているものもあります。もし、この距離に対する許容範囲が0.25度 Celsiusであるとすると、この1000個のサンプル平均のバケツに手を突っ込み、手の届く範囲内にある平均値を掴んで引き出した場合、この平均値とμの絶対差が0.25度 C以上である確率はどれくらいでしょうか?この確率を推定するためには、μから少なくとも0.25度離れたサンプル平均の数を数え、この数を1000で割る必要があります。

上記の表では、この数が422であり、したがって確率 P(|X_bar — μ | ≥ 0.25) は 422/1000 = 0.422 となります

この確率を一時的に置いておきましょう。

さて、上記の手順をすべて繰り返しますが、この時にサンプルサイズを20ではなく100にすることにしましょう。したがって、次のようなことを行います: サイズ100のランダムサンプルを1000回抽出し、各サンプルの平均を取り、それらの平均値をすべて保存し、μから少なくとも0.25度C離れたものを数え、この数を1000で割ります。もしこれがヘラクレスの労働のように聞こえたなら、それは間違いではありません。一息つくための時間を取ってください。そして、一息ついたら、あなたの労働の成果として以下の結果に注目してください。

下の表には、サンプルサイズが100の1000個のランダムサンプルから計算された平均値が含まれています。

1000個のサンプル平均値の表。各平均値はサイズ100のランダムサンプルから計算されています

この1000個の平均値のうち、56個の平均値がμから0.25度C以上乖離していることがわかります。これにより、そのような平均値に出くわす確率は56/1000 = 0.056となります。この確率は、サンプルサイズが20の場合に計算した0.422よりも明らかに小さいです。

この手順を何度も繰り返し、サンプルサイズを徐々に増やして実行すると、確率の満ちた表が得られます。私はサンプルサイズを10から490まで10ずつ増やしてこの演習を行いました。以下はその結果です:

確率の表。サンプルサイズが10から490まで増えるにつれて、P(|X_bar — μ | ≥ 0.25)が表示されます (Image by Author)

この表の各行は、810219の温度測定値の集団からランダムに抽出した1000の異なるサンプルに対応しています。 sample_size 列には、これら1000のサンプルのサイズが記載されています。抽出後、各サンプルの平均値を取り、μから0.25度C以上乖離しているものを数えました。 num_exceeds_tolerance 列には、この数が記載されています。 probability 列は num_exceeds_tolerance / sample_size です。

サンプルサイズが増加するにつれて、この数が急速に減少していくことに注意してください。対応する確率 P(|X_bar — μ | ≥ 0.25) も同様に減少します。サンプルサイズが320に達すると、確率はゼロになります。時々0.001に上昇することもありますが、これは有限な数のサンプルを抽出しているためです。1000の代わりに10000のサンプルを毎回抽出すれば、時々上昇する部分も平坦化され、確率の減衰もより滑らかになります。

以下のグラフは、サンプルサイズに対する P(|X_bar — μ | ≥ 0.25) をプロットしています。サンプルサイズが増えるにつれて確率がゼロになる様子がはっきりと示されています。

P(|X_bar — μ | ≥ 0.25) に対するサンプルサイズのグラフ (Image by Author)

0.25度Cの代わりに、より小さなまたはより大きな許容度を選択した場合はどうなるでしょうか?選択した許容度のレベルに関係なく、確率 P(|X_bar — μ | ≥ ε) はサンプルサイズが増えるにつれて常にゼロに収束します。これが大数の法則の弱い形が働いていることです。

弱法則の形式的な表現

弱法則の振る舞いは、以下のように形式的に述べることができます:

確率変数X1X2、…、Xnがi.i.d.(独立同分布)なランダム変数で、n個のランダムサンプルを形成するとします。このサンプルの平均X_bar_nを表すとします。また、E(X1) = E(X2) = … = E(Xn) = μとします。このとき、非負の実数εに対してX_bar_nがμからεだけ離れた位置にある確率は、サンプルの大きさが無限に近づくにつれてゼロに近づきます。この振る舞いを捉えた次の優れた式があります:

弱法則のイメージ(作者提供)

この法則の310年の歴史を通じて、数学者たちは、X1からXnが独立同分布であるという要件を徐々に緩和しながら、この法則の本義を保ち続けることができました。

確率収束の原理、「plim」表記法、そして極めて短い言葉で重要なことを述べる技術

確率を輸送手段としてある値に収束する特定のスタイルを「確率収束」と呼びます。一般的には、以下のように述べられます:

確率収束のイメージ(作者提供)

上記の式で、X_nとXは確率変数です。εは非負の実数です。この式は、nが無限に近づくと、X_nが確率的にXに収束することを示しています。

統計学の広大な領域全体で、あなたは「plim」という静かな表記に出会うことになります。それは「p lim」と発音するか、「plim」と発音します(「プラム」という言葉の「i」を入れて)。plimは、「確率収束」という意味の省略表記です。plimを使用することで、弱法則の形式的な表現は次のように簡潔に述べることができます:

短いインクで表現された弱法則のイメージ(作者提供)

または:

(作者提供)

この表記の簡潔さは驚くべきものです。数学者は簡潔さに魅せられます。深遠な真理を伝える際、数学はおそらく最もインク効率の良い分野であるかもしれません。そして、この効率志向の分野の中でも、plimは最も優れた位置にあります。あなたは、より少ないインクや電子で表現されたplimと同じように深遠な概念を探し出すのに苦労するでしょう。

しかし、もう苦労する必要はありません。簡潔な美しさのplimがさらに欲しいと感じた場合、もう1つ、おそらくそれ以上に効率的な表記があります。それは次のような意味を持つ表記です:

少ないインクで表現された弱法則のイメージ(作者提供)

弱い大数の法則に関する神話を解明する

この記事の冒頭で、弱い大数の法則は、言われていることだけでなく、言われていないことでも注目に値すると述べました。それについて説明します。弱い大数の法則は、サンプルサイズが増加するにつれて、その平均が母集団の平均やその一般化といった考え方に近づくと誤解されることがよくあります。先ほど見たように、弱い大数の法則に関するそうした考えは、現実とはまったく関係ありません。

実際には、弱い大数の法則に関する神話をいくつか解明しましょう。

神話1:サンプルサイズが増えると、サンプル平均は母集団平均に近づく

これはおそらく弱い大数の法則に関する最も頻繁な誤解です。しかし、弱い大数の法則はそのような主張をしていません。それがなぜかを見るために、次のような状況を考えてみてください:非常に大きなサンプルを手に入れたとしましょう。その偉業をうれしそうに称えながら、次のような質問を自分自身に投げかける必要があります:サンプルが大きいからといって、それがバランスの取れたものでなければならないのでしょうか?自然がバイアスを含んだ巨大なサンプルであなたを打ちのめすことを何が防いでいるのでしょうか?答えはまったく何もありません!実際、ギルデンスターンは92回の表が連続するシーケンスで何が起こったのではありませんか?それは完全にランダムなサンプルでした!もし大きなバイアスを持つことが偶然起こるならば、大きなサンプルサイズにもかかわらず、バイアスは真の母集団値から遠く離れた点にサンプル平均を吹き飛ばします。逆に、小さなサンプルは非常にバランスの取れたものであることがわかるかもしれません。ポイントは、サンプルサイズが増えても、サンプル平均が忠実に母集団平均に向かって進むことを保証するものではないということです。自然はそのような不必要な保証を提供しません。

神話2:サンプルサイズが増えると、サンプルのほぼすべて(中央値、分散、標準偏差など)が同じ母集団の値に収束する

この文は、1つのパッケージに2つの神話がまとめられています。まず第一に、弱い大数の法則は確率収束を仮定しており、値の収束ではありません。第二に、弱い大数の法則は、サンプル平均だけに関する確率収束に適用されます。中央値、分散、標準偏差など、他の統計量の収束には言及していません。

弱い大数の法則が成り立つかどうかを知る方法

弱い大数の法則を述べ、実際のデータを使ってその動作を示すことは一つのことです。しかし、それが常に動作することを確信するにはどうすればよいでしょうか?サンプル平均が確率的に母集団の値に収束しない状況や、弱い大数の法則が台無しになる状況はあるのでしょうか?それを知るためには、弱い大数の法則を証明し、それが適用される条件を正確に定義する必要があります。

そこで、弱い大数の法則には、非常に興味深い証明があります。その証明には、刺激的な「チェビシェフの不等式」などが使用されます。もし興味があれば、次回の記事で弱い大数の法則の証明について詳しくご紹介します。

ギルデンスターンを再訪する

このトピックを取り上げる際に、私たちの友人ギルデンスターンの心配を和らげることなく去るのは失礼です。彼が経験した結果がいかに疑いの余地のない驚くべきものであるかを認識してみましょう。疑いの余地のない結果です。私たちは、疑似乱数生成器を使用して92枚の公平なコインを投げる行為をシミュレートします。表を1、裏を0としてエンコードします。92回の結果の平均値を記録します。平均値は、コインが表になる回数の割合です。この実験を1万回繰り返して、92回のコイン投げの平均値を1万個取得し、その頻度分布をプロットします。この演習を完了した後、次のようなヒストグラムプロットが得られます:

A histogram of sample means of 10000 samples (Image by Author)

私たちは、ほとんどのサンプル平均が0.5の母集団平均の周りに集まっていることがわかります。ギルデンスターンの結果である92回の表は、非常に起こりにくい結果です。したがって、この結果の頻度も非常に小さいです。しかし、ギルデンスターンの恐れに反して、この結果や確率の法則は何の不自然さもありません。ギルデンスターンの結果は、ただ想像を絶するほど不運だったというだけのことです。

参考文献と著作権

データセット

北東大西洋リアルタイム海面温度データセットは、CC BY 4.0の下でDATA.GOV.IEからダウンロードされました。

画像

この記事のすべての画像は、別のソースと著作権が画像の下に記載されていない限り、CC-BY-NC-SAの下で著作権があります。

お読みいただきありがとうございます!この記事がお役に立ちましたら、回帰分析や時系列分析に関するヒント、方法、プログラミングアドバイスを受け取るためにフォローしてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...