ヒストグラムとカーネル密度推定の理解

ヒストグラムとカーネル密度推定の理解方法' (Understanding Histograms and Kernel Density Estimation)

ヒストグラムとKDEの詳細な探索

ヒストグラムは、数値データの頻度を可視化するグラフです。データサイエンスや統計学で一般的に使用され、データセットの分布の生の推定値を得るために使用されます。カーネル密度推定(KDE)は、その分布が未知の確率密度関数(PDF)を持つランダム変数の推定をするための手法で、その分布から抽出した有限のデータセットに基づいて、人口の確率密度を推定することができます。KDEは、信号処理やデータサイエンスで頻繁に使用され、確率密度を推定するための必須のツールとなっています。本記事では、ヒストグラムとKDEの数学と直感的な理解、およびそれらの利点と制約について説明します。また、KDEをPythonでスクラッチから実装する方法も示します。本記事のすべての図は著者によって作成されました。

確率密度関数

Xを連続的なランダム変数とします。Xが区間[a, b]の値を取る確率は次のように表すことができます。

ここで、f(x)はXの確率密度関数(PDF)です。Xの累積密度関数(CDF)は次のように定義されます。

したがって、Xの値がx以下になる確率は、XのCDFで評価されます。式1を用いると、次のように書くことができます。

積分の基本定理を用いると、

となります。これは、XのPDFはそのCDFをxに関して微分することで求めることができることを意味します。ヒストグラムは、データセットのPDFを推定するための最も単純な手法であり、次のセクションで示すように、この目的のために式1を使用します。

ヒストグラム

リスト1では、2つの正規分布の混合として2峰性分布を作成し、この分布からサイズが1000のランダムサンプルを抽出しています。ここでは2つの正規分布を混ぜています。

したがって、正規分布の平均はそれぞれ0と4で、分散はそれぞれ1と0.8です。混合係数は0.7と0.3であり、したがってこれらの分布の混合のPDFは次のようになります。

リスト1では、このPDFとサンプルを図1にプロットしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more