パレート、パワーロー、そしてファットテール
パレート、パワーロー、そしてファットテールのビューティーとファッション' (Parēto, pawā rō, soshite fattotēru no byūtī to fasshon)
統計学で教えてくれないこと
統計学はデータサイエンスや分析の礎です。複雑な問題に客観的に答えるための強力なツールボックスを提供してくれます。しかし、私たちのお気に入りの統計ツールの多くは特定のデータクラス、すなわちパワーローに適用すると無意味になることがあります。
この記事では、パワーローに関する初心者向けのガイドを提供し、従来の統計的手法を分析に使用する際に生じる3つの主要な問題について説明します。
目次
- バックグラウンド — ガウス分布、パレートの80-20の法則、パワーロー、重量と富の違い。
- STAT 101の3つの問題 — (ずっと)多くのデータが必要です。
- ファットテール — 特異点を回避し、ガウスとパレートの間の差を数量化します。
バリスタの重さを測る
自然界の多くの数量は、典型的な値に集まる傾向があります。例えば、(混雑している)コーヒーショップに座って、出入りするすべてのバリスタと顧客の重さを測定した場合、以下のプロットのようなパターンが(やがて)観察されるでしょう。
このプロットは、あなたがSTAT 101や経営統計学で遭遇したことがあるガウス分布の例です。ガウス分布の美しいところは、私たちは単一の数値、つまり平均値だけで、基礎となるもの(例えばバリスタの体重)の本質的な情報の多くを捉えることができる点です。
さらに進んで、標準偏差や分散などの尺度を使って、データがどれだけ広がっているかをさらに詳しく分析することもできます。
これらの概念は、統計学の入門レベルで学ぶことで、データを分析するための強力な方法を提供してくれます。しかし、私たちが気にかける数量のすべてが、典型的な値に集まるというこの質的特徴を持っているわけではありません。
パレートの法則(80-20の法則)
おそらく、ビジネスの中で「80-20の法則」という言葉を聞いたことがあるかもしれません。「売上の80%は顧客の20%から得られる」という考え方ですが、これは実はセールスやマーケティングから生まれたものではありません。これは、ヴィルフレード・パレートがイタリアの土地所有に関する研究をしたことに由来します(約1890年)[1]。
パレートは、イタリアの土地の約80%が人口の約20%によって所有されているということを観察しました。この単純な観察結果は、私たちが知っているガウス分布とは非常に異なる統計的な特性を示しています。
つまり、この「80-20の法則」はパレート分布の結果です。以下のプロットに示されています。
ガウス分布とパレート分布の主な違いは、パレート分布に 「典型的な値」 がない という点です。そのため、分布を効率的に要約するために使用できる値がありません。
言い換えると、イタリア人男性の平均体重(約175ポンド)を知っていると、次のローマ旅行では何を期待すべきかの良いアイデアが得られますが、イタリアの都市の平均人口(約7,500人)を知っていることは無意味です。
冪乗則分布
パレート分布は、冪乗則と呼ばれる広範な分布クラスの一部です。冪乗則を次のように定義できます[2]。
ここで、PDF()は確率密度関数を表し、Xは確率変数を表します。xはXの特定の値です。L(x)は[x_min、∞]の範囲を持つゆるやかな正の関数です。x_minは冪乗則が成り立つ最小値(つまり、x<x_minの場合PDF(x) = 0)です[2]。αは数値であり、通常2から3の間にあります。
上記のプロットでわかるように、冪乗則はガウス分布とは質的に非常に異なります。これは、ガウス様とパレート様分布の間の一種の二分性を形成します。すなわち、ガウス分布と冪乗則分布は、現実世界の事物を質的に分類するための概念的なアンカーを提供します。
メディオクリスタンとエクストリミスタン
著者のナシーム・ニコラス・タレブは、ガウス様とパレート様の事物のこの二分性を、「メディオクリスタン」と「エクストリミスタン」と呼ぶ2つのカテゴリを介して説明しています。
メディオクリスタンは、ガウス様のものの土地です。その市民の基本的な特性は、単一の観測値が集計統計に重大な影響を与えないことです[3]。例えば、ローマ旅行中にコロッセオで観光客を全員計量し、平均体重を計算したとします。地球上で最も重いイタリア人を加えても、この平均値はほとんど変化しません(+0.5%)。
この概念的な風景の反対側にあるのはエクストリミスタンであり、ここでは逆の統計的性質が見られます。すなわち、エクストリミスタンでは、単一の観測値が(しばしば)集計統計を動かすことができるのです。同じコロッセオの観光客を想定しましょうが、体重を測定する代わりに、各人の純資産を尋ね、平均を計算します。先ほどとは異なり、この平均値は大幅に変化します(+2500%)もし、世界で最も裕福なイタリア人、ジョヴァンニ・フェレロ(チョコレートとヘーゼルナッツの家族)をサンプルに加えた場合です。
以下の画像に示す例を考えることで、それぞれのカテゴリについてのより良い直感を得ることができます。
ご覧の通り、エクストリミスタンのパレート様な住人は、少なくも取るに足りないものではありません。実際、私たちが気にする多くのことは、STAT 101で学んだガウス曲線とは異なるものです。
これは過度に技術的で教訓的に思われるかもしれませんが、エクストリミスタンから生成されるデータを分析するために私たちの馴染みのある統計的手法や直感を使用する際には、重大な制約があり、(場合によっては)大きなリスクがあることに気付かなければなりません。
STAT 101の思考に関する3つの問題
私たちはローマのコロッセオで見たように、メディオクリスタン(例:体重)から生成されるデータとエクストリミスタン(例:富)から生成されるデータは逆の特性を持ちます。
エクストリミスタン(つまりエクストリミスタンのデータ)を分析するためにSTAT 101の手法を使用する際の最大の問題の1つは、平均、標準偏差、分散、相関などの数量が「実用的な意味を持たない」ということです。
これはすべて、1つの核心的な問題である「不十分なデータ」に由来します。
統計学では、「大数の法則」というものを学びます。それによれば、「N個のランダムなサンプルを取ると、サンプルの平均は真の平均にN → ∞で近づく」ということです。これはどの分布にも当てはまります(有限な平均を持つ分布):正規分布、べき法則、一様分布などです。
しかし、実際には、「ある分布では他の分布よりもゆっくりと漸近挙動が起こる」ということがわかっています(例:べき法則は正規分布よりもゆっくりと漸近します)。そして、実践では、必然的に有限のデータセットを持つため、これが問題を引き起こすことがあります。ここでは、そのような問題を3つ取り上げます。
問題1: 平均値は意味を持たず(その他の多くの指標も同様)
いつでも2つの値のセットを比較したい場合(例:4月と5月の売上、LAとNYCの交通事故、対照群と治療群の患者の結果など)、私たちはしばしば平均値を計算します。これにより、複数の値を1つの代表的な数値に圧縮する直感的な方法が得られます。
この方法は、データがきれいな正規分布に従う場合に非常にうまく機能します(N =〜 10の小さなサンプルサイズで平均値を正確に推定することができます)。しかし、べき法則に従うデータを扱う際には、このアプローチは破綻します。
以下のプロットで示すように、サンプルサイズが増加するにつれて、べき法則と正規分布のサンプル平均を比較することで、これを確認することができます(サンプルサイズN = 100、N = 1,000、およびN = 10,000の場合)。べき法則と正規分布のサンプル平均は、それぞれオレンジ色と青色でプロットされています。
べき法則のサンプル平均は、正規分布よりもより乱れがあり(バイアスがかかっています)、サンプルサイズがN = 100,000に増加しても、べき法則の精度はN = 100の正規分布と比べてはるかに悪いままです。これは以下のプロットで示されています。
このような乱れの挙動は、平均値に限定されるものではありません。これは多くの一般的に使用される統計量にも当てはまります。以下に、中央値、標準偏差、分散、最小値、最大値、1番目と99番目のパーセンタイル、尖度、エントロピーの収束プロットを示します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful