「比率の信頼性はどの程度ですか?」

「比率の信頼性はどれくらいですか?」

Pythonを使ってEmpirical Bayes分析を使用して比率の信頼性を評価する方法を学びましょう

Photo by rupixen.com on Unsplash

はじめに

Data Scienceの分野で参考にしている一人がJulia Silgeです。彼女のTidy Tuesdayビデオでは、特定の技術を教えるためのコード同行型のビデオを作成し、他のアナリストがスキルアップしてそれを自分のレパートリーに取り入れるのに役立っています。

先週の火曜日、話題はEmpirical Bayesでした(彼女のブログ投稿)。これに私の注意が集まりました。

では、それは何でしょうか?

Empirical Bayes

Empirical Bayesは、[成功数]/[試行総数]のような比率で作業する場合に使用される統計的手法です。このような変数を扱う際には、成功率50%の1/2、75%の3/4、0%の0/1など、極端な割合が多くあります。

これらの極端な割合は、長期的な実態を表しているわけではありません。非常に少ない試行回数だと、トレンドがあるかどうかを判断するのが非常に難しくなり、ほとんどの場合、これらのケースは無視されたり削除されたりします。ビジネスに適した試行回数、例えば30/60、500/100などを使用すると、実際の成功率がわかります。

しかし、Empirical Bayesを使用することで、現在のデータ分布を利用して、以前や後の段階の自らのデータの推定値を計算することができます。このポストで詳しく見ていきましょう。

データ分布を使用して各観測の比率の以前や後の段階の推定値を計算します。

分析

分析に進みましょう。以下の手順に従います。

  1. データを読み込む
  2. 成功を定義し、成功率を計算する
  3. 分布のパラメータを決定する
  4. Bayes推定値を計算する
  5. 信頼区間を計算する

さあ、進んでいきましょう。

Imports

# インポートimport pandas as pdimport numpy as npimport scipy.stats as scsimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as pxfrom distfit import distfit

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more