パレート、パワーロー、そしてファットテール

パレート、パワーロー、そしてファットテールのビューティーとファッション' (Parēto, pawā rō, soshite fattotēru no byūtī to fasshon)

統計学で教えてくれないこと

A Black Swan. Image from Canva.

統計学はデータサイエンスや分析の礎です。複雑な問題に客観的に答えるための強力なツールボックスを提供してくれます。しかし、私たちのお気に入りの統計ツールの多くは特定のデータクラス、すなわちパワーローに適用すると無意味になることがあります。

この記事では、パワーローに関する初心者向けのガイドを提供し、従来の統計的手法を分析に使用する際に生じる3つの主要な問題について説明します。

目次

  1. バックグラウンド — ガウス分布、パレートの80-20の法則、パワーロー、重量と富の違い。
  2. STAT 101の3つの問題 — (ずっと)多くのデータが必要です。
  3. ファットテール — 特異点を回避し、ガウスとパレートの間の差を数量化します。

バリスタの重さを測る

自然界の多くの数量は、典型的な値に集まる傾向があります。例えば、(混雑している)コーヒーショップに座って、出入りするすべてのバリスタと顧客の重さを測定した場合、以下のプロットのようなパターンが(やがて)観察されるでしょう。

Example Gaussian distribution. Technical Note: when measuring adult human weight, a Gaussian-like distribution will appear for each sex. Image by author.

このプロットは、あなたがSTAT 101や経営統計学で遭遇したことがあるガウス分布の例です。ガウス分布の美しいところは、私たちは単一の数値、つまり平均値だけで、基礎となるもの(例えばバリスタの体重)の本質的な情報の多くを捉えることができる点です。

さらに進んで、標準偏差や分散などの尺度を使って、データがどれだけ広がっているかをさらに詳しく分析することもできます。

これらの概念は、統計学の入門レベルで学ぶことで、データを分析するための強力な方法を提供してくれます。しかし、私たちが気にかける数量のすべてが、典型的な値に集まるというこの質的特徴を持っているわけではありません。

パレートの法則(80-20の法則)

おそらく、ビジネスの中で「80-20の法則」という言葉を聞いたことがあるかもしれません。「売上の80%は顧客の20%から得られる」という考え方ですが、これは実はセールスやマーケティングから生まれたものではありません。これは、ヴィルフレード・パレートがイタリアの土地所有に関する研究をしたことに由来します(約1890年)[1]。

パレートは、イタリアの土地の約80%が人口の約20%によって所有されているということを観察しました。この単純な観察結果は、私たちが知っているガウス分布とは非常に異なる統計的な特性を示しています。

つまり、この「80-20の法則」はパレート分布の結果です。以下のプロットに示されています。

Pareto distribution, where 20% of the population accounts for 80% of the volume. Image by author.

ガウス分布とパレート分布の主な違いは、パレート分布に 「典型的な値」 がない という点です。そのため、分布を効率的に要約するために使用できる値がありません。

言い換えると、イタリア人男性の平均体重(約175ポンド)を知っていると、次のローマ旅行では何を期待すべきかの良いアイデアが得られますが、イタリアの都市の平均人口(約7,500人)を知っていることは無意味です。

冪乗則分布

パレート分布は、冪乗則と呼ばれる広範な分布クラスの一部です。冪乗則を次のように定義できます[2]。

冪乗則分布クラスの定義[3]。著者による画像。

ここで、PDF()は確率密度関数を表し、Xは確率変数を表します。xはXの特定の値です。L(x)は[x_min、∞]の範囲を持つゆるやかな正の関数です。x_minは冪乗則が成り立つ最小値(つまり、x<x_minの場合PDF(x) = 0)です[2]。αは数値であり、通常2から3の間にあります。

さまざまなα値を持つ冪乗則分布の例。注:α = 1.16はおおよその80–20の法則を意味します。著者による画像。

上記のプロットでわかるように、冪乗則はガウス分布とは質的に非常に異なります。これは、ガウス様とパレート様分布の間の一種の二分性を形成します。すなわち、ガウス分布と冪乗則分布は、現実世界の事物を質的に分類するための概念的なアンカーを提供します。

メディオクリスタンとエクストリミスタン

著者のナシーム・ニコラス・タレブは、ガウス様とパレート様の事物のこの二分性を、「メディオクリスタン」と「エクストリミスタン」と呼ぶ2つのカテゴリを介して説明しています。

メディオクリスタンは、ガウス様のものの土地です。その市民の基本的な特性は、単一の観測値が集計統計に重大な影響を与えないことです[3]。例えば、ローマ旅行中にコロッセオで観光客を全員計量し、平均体重を計算したとします。地球上で最も重いイタリア人を加えても、この平均値はほとんど変化しません(+0.5%)。

この概念的な風景の反対側にあるのはエクストリミスタンであり、ここでは逆の統計的性質が見られます。すなわち、エクストリミスタンでは、単一の観測値が(しばしば)集計統計を動かすことができるのです。同じコロッセオの観光客を想定しましょうが、体重を測定する代わりに、各人の純資産を尋ね、平均を計算します。先ほどとは異なり、この平均値は大幅に変化します(+2500%)もし、世界で最も裕福なイタリア人、ジョヴァンニ・フェレロ(チョコレートとヘーゼルナッツの家族)をサンプルに加えた場合です。

以下の画像に示す例を考えることで、それぞれのカテゴリについてのより良い直感を得ることができます。

それぞれメディオクリスタンとエクストリミスタンのアイテム[3]。著者による画像。

ご覧の通り、エクストリミスタンのパレート様な住人は、少なくも取るに足りないものではありません。実際、私たちが気にする多くのことは、STAT 101で学んだガウス曲線とは異なるものです。

これは過度に技術的で教訓的に思われるかもしれませんが、エクストリミスタンから生成されるデータを分析するために私たちの馴染みのある統計的手法や直感を使用する際には、重大な制約があり、(場合によっては)大きなリスクがあることに気付かなければなりません。

STAT 101の思考に関する3つの問題

私たちはローマのコロッセオで見たように、メディオクリスタン(例:体重)から生成されるデータとエクストリミスタン(例:富)から生成されるデータは逆の特性を持ちます。

エクストリミスタン(つまりエクストリミスタンのデータ)を分析するためにSTAT 101の手法を使用する際の最大の問題の1つは、平均、標準偏差、分散、相関などの数量が「実用的な意味を持たない」ということです。

これはすべて、1つの核心的な問題である「不十分なデータ」に由来します。

統計学では、「大数の法則」というものを学びます。それによれば、「N個のランダムなサンプルを取ると、サンプルの平均は真の平均にN → ∞で近づく」ということです。これはどの分布にも当てはまります(有限な平均を持つ分布):正規分布、べき法則、一様分布などです。

しかし、実際には、「ある分布では他の分布よりもゆっくりと漸近挙動が起こる」ということがわかっています(例:べき法則は正規分布よりもゆっくりと漸近します)。そして、実践では、必然的に有限のデータセットを持つため、これが問題を引き起こすことがあります。ここでは、そのような問題を3つ取り上げます。

問題1: 平均値は意味を持たず(その他の多くの指標も同様)

いつでも2つの値のセットを比較したい場合(例:4月と5月の売上、LAとNYCの交通事故、対照群と治療群の患者の結果など)、私たちはしばしば平均値を計算します。これにより、複数の値を1つの代表的な数値に圧縮する直感的な方法が得られます。

この方法は、データがきれいな正規分布に従う場合に非常にうまく機能します(N =〜 10の小さなサンプルサイズで平均値を正確に推定することができます)。しかし、べき法則に従うデータを扱う際には、このアプローチは破綻します。

以下のプロットで示すように、サンプルサイズが増加するにつれて、べき法則と正規分布のサンプル平均を比較することで、これを確認することができます(サンプルサイズN = 100、N = 1,000、およびN = 10,000の場合)。べき法則と正規分布のサンプル平均は、それぞれオレンジ色と青色でプロットされています。

3つの異なるサンプルサイズのサンプル平均の収束。著者による画像。

べき法則のサンプル平均は、正規分布よりもより乱れがあり(バイアスがかかっています)、サンプルサイズがN = 100,000に増加しても、べき法則の精度はN = 100の正規分布と比べてはるかに悪いままです。これは以下のプロットで示されています。

N=1,000,000で平均値が多少安定しますが、正規分布と比較して依然として大幅なバイアスがあります。著者による画像。

このような乱れの挙動は、平均値に限定されるものではありません。これは多くの一般的に使用される統計量にも当てはまります。以下に、中央値、標準偏差、分散、最小値、最大値、1番目と99番目のパーセンタイル、尖度、エントロピーの収束プロットを示します。

異なるサンプルサイズでの他の指標の収束プロット。上から下まで:中央値、標準偏差、分散、最小値、最大値、1番目と99番目のパーセンタイル、尖度、エントロピー。著者による画像。</figcaption></figure><p>これからわかるように、<strong>一部の指標は他の指標よりも安定しています</strong>。たとえば、中央値、最小値、パーセンタイルは比較的よく保持されています。一方、標準偏差、分散、最大値、尖度、エントロピーは一つの数値に収束することができません。</p><p>この後者のグループの中で、私は最大値を指摘したいと思います。この量は小さなサンプルでは収束するように見えるかもしれませんが、Nが大きくなると桁数が飛び越える可能性があります(N=10,000のプロットで見られるように)。これは特に危険です、なぜならそれは予測可能性と安全性の誤った感覚につながる可能性があるからです。</p><p>これを現実世界に結び付けるために、基になるデータが、例えばパンデミックからの死亡者数である場合、過去100年間で最も大きなパンデミックは1000年以上にわたる最大のものの10倍小さいことになります。</p><p>例えば、過去100年間で最も致命的なパンデミックはスペイン風邪(約5000万人の死亡者)[4]であり、したがってパンデミックの死亡者数がべき乗分布に従う場合、次の1000年以内に5億人の命を奪うパンデミックが起こることが予想されます(暗い例で申し訳ありません)。</p><p>これは、極地からのデータの主な特徴である、「稀なイベントが集計統計に影響を与える」という点を強調しています。</p><p>ただし、これはここで提示された統計指標に止まりません。稀なイベントの重要性は、予測を効果的に行う能力にも影響を与えます。</p><h2 id=問題2:回帰が機能しない

回帰は、過去のデータに基づいて予測を行うことになります。しかし、問題1で見たように、べき乗法に対処する際には、真の統計データを正確に捉えるための十分なデータがない場合があります。

この点は、α ≤ 2のパワーローディストリビューションに従う変数で回帰を行う場合に悪化します。なぜなら、α ≤ 2は分布に無限の分散を示すことを意味し、人気のある回帰手法(最小二乗回帰など)の重要な仮定を破壊するからです。

ただし、実際にデータを使用する場合、無限分散を計算することはありません(データは必然的に有限です)。これは問題1と似た問題を引き起こします:結果は安定して見えますが、より多くのデータを収集すると維持されなくなります

別の言い方をすれば、モデルを開発する際にR²が素晴らしく見えるかもしれませんが、サンプルサイズが増え、実際の値であるR²=0に近づくと、すぐに悪化することができます。

(人工的な)例を通じてこれを見ることができます。2つの変数XとYを考えてみましょう。これらは線形に関連しています(つまり、Y = mX + b)であり、Xはべき乗法に従う付加的なノイズ項を持つ正規分布です。少ないサンプルサイズ(N=100)で回帰を行うと、適合が誤解を招くほどうまく機能します。

Linear regression fit involving predictor with additive noise following a Power Law for a small sample size (N=100). Image by author.

しかし、より多くのデータを収集するにつれて(N=100,000,000)、R²は正確な値に向かって正しく減少します(つまり、R²=0)。

R² approaches actual value (i.e. R²=0) as sample size increases. Image by author.

問題3:確率が結果と乖離する

この時点で、「ショー… 何が大した問題なんだろう?希なイベントを予測できなくても、ほとんどの場合は正しい。」と思うかもしれません。

私も同感です。極地からのデータを扱う場合、大半のデータがテール部分には存在しないため、ほとんどの場合は正しい結果が出ることが容易です。ただし、確率は結果を予測し、意思決定をする際のストーリーの半分に過ぎません。

もう半分のストーリーはペイオフです。言い換えれば、正しい(間違っている)頻度だけでなく、正しい(間違っている)場合に何が起こるかも重要です。

たとえば、99.9%の確率でうまく機能するが0.1%の確率で命を奪うというデイリーマルチビタミンが提供された場合、おそらく別のブランドを選ぶでしょう(またはより良い食品を摂取するでしょう)。

確率だけを頼りに決定をすることは、パワーローと「80-20の法則」に関わる場合には特に有害です。次の事例を考えてみましょう。

仮に、3つのオファリングを持つソフトウェア会社があるとします: 1) 広告つき無料版、2) プレミアム版、3) エンタープライズ版。各オファリングの顧客と収益の分布は以下の表に示されています。

顧客と収益の分布(オファリングごと)。作成者による画像。

この会社は処理時間を50%高速化するためのアップデートをリリースしたいと考えています。最先端でデータ駆動型のテクノロジー企業である彼らは、アクティブユーザーにアンケートを実施し、95%の顧客がアップデートされたソフトウェアを好むことを発見しました。データを手に入れた会社は、ソフトウェアのアップデートを承認します。

しかしそれから6週間後、会社は混乱状態になり、収益が50%減少しました。

実際、アップデートの後、3人の顧客がサービスを辞めました。アップデートが重要なユースケースに必要なレガシーデータ統合を削除してしまったのです。しかも、これはただの顧客ではありませんでした。これらは会社のトップ3の顧客(約1%)で、収益の50%(カスタムアップセル含む)を占めていたのです。

これは、確率に焦点を当てることだけによる(95%の顧客がアップデートを好んでいる)(致命的な)ミスの一例です。この物語の教訓は、Extremistanからのレアイベント駆動のデータに取り組む際には、1回間違えることが99回正しいこと(それ以上)を打ち消す可能性があることです。

プロットを生成するためのコード👇

YouTube-Blog/power-laws at main · ShawhinT/YouTube-Blog

VoAGIのYouTubeビデオとブログ投稿を補完するためのコード – YouTube-Blog/power-laws at main · ShawhinT/YouTube-Blog

github.com

Extremistanにおける論争

パワーローは、ガウス分布と同様に理想化された数学的な抽象です。しかし、現実の世界は複雑で、美しく正確な構築に完全に適応することはめったにありません。これが、特定の分布が本当にパワーローかどうかの論争を引き起こしています。

議論の1つは、富がパワーロー(パレートの研究で示唆されているように)であるのか、単に対数正規分布であるのかということです。

論争の一部は、対数正規分布は低いシグマではガウス分布のように振る舞い、高いシグマではパワーローのように振る舞うという観察によって説明されます。

しかし、論争を避けるために、私たちは与えられたデータがパワーローに適合するかどうかではなく、尾部の太さに焦点を当てることができます。

尾部の太さ — MediocristanとExtremistanの間のスペースを測定する

尾部の太さは、パレート分布やパワーロー分布よりも一般的なアイデアです。我々は、「尾部の太さ」を、「分布の集計統計を希少イベントがどの程度駆動するか」と捉えることができます。この観点から見ると、尾部の太さはガウス分布(尾部が太くない)からパレートの80-20(非常に尾部が太い)までのスペクトル上に存在しています。

これは、先程議論されたメディオクリスタンとエクストリミスタンのアイデアに直接マップします。以下の画像は、この概念的な景色にわたるさまざまな分布を視覚化しています。

MediocristanとExtremistanの地図。注意:fat-tailednessはスペクトラム上に存在するため、分布を「Fat Tailed」とラベル付けするかどうかは、多少主観的です。 作者による画像。

fat-tailednessの正確な尺度は存在しないが、MediocristanとExtremistanの地図上で特定の分布がどこに位置しているかを把握するために、実践的に使用できる多数の指標やヒューリスティックがあります。以下にいくつかのアプローチを示します。

  • パワーローカス:パワーローの尾指数であるαを使用します。 αが低いほど、分布の尾が太くなります[2]
  • 非ガウス性:尖度(α≤4のパワーローには適用されません)
  • 対数正規分布の分散
  • タレブのκ指標[6]

まとめ

fat-tailedデータの中心的な課題は、その統計的特性を正確に捉えるために十分なデータを常に持っているわけではないことです。これに基づき、データプラクティショナーに残されるいくつかの要点があります。

  • 分布をプロットする(ヒストグラム、PDF、CDFなど)
  • 自問してください – このデータはMediocristanまたはExtremistanのどちらから来たものですか(またはその間のどこに位置するものですか)?
  • モデルを構築する際には、正しい予測の価値と誤った予測のコストを考えてください。
  • (非常に) fat-tailedデータを扱う場合には、レアイベントを無視しないでください。代わりに、それらをどのように活用するかを考えてください(たとえば、トップ1%の顧客に特別なプロモーションを行って事業を増やすことはできますか?)

プロットの再現コードはここで入手できます。

リソース

連絡先私のウェブサイト | 通話を予約する | 何でも質問してください

ソーシャルメディアYouTube 🎥 | LinkedIn | Twitter

サポートコーヒーを買ってください ☕️

データ起業家

データスペースの起業家向けコミュニティ。👉 Discordに参加しましょう!

VoAGI.com

[1] Pareto principle. (2023年10月30日). Wikipedia. https://www.voagi.com/llama-2-wikipedia-knowledge-empowered-agent-creation.html

[2] arXiv:2001.10488 [stat.OT]

[3] Taleb, N.N. (2007). The Black Swan: the impact of the highly improbable. New York; Random House.

[4] https://www.archives.gov/exhibits/influenza-epidemic/

[5] arXiv:0706.1062 [physics.data-an]

[6] Taleb, N. N. (2019). 必要なデータ量はどのくらいですか?ファットテールのための操作可能な、漸近的前指標. International Journal of Forecasting, 35(2), 677–686. https://doi.org/10.1016/j.ijforecast.2018.10.003

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more