ヒストグラムとカーネル密度推定の理解
ヒストグラムとカーネル密度推定の理解方法' (Understanding Histograms and Kernel Density Estimation)
ヒストグラムとKDEの詳細な探索
ヒストグラムは、数値データの頻度を可視化するグラフです。データサイエンスや統計学で一般的に使用され、データセットの分布の生の推定値を得るために使用されます。カーネル密度推定(KDE)は、その分布が未知の確率密度関数(PDF)を持つランダム変数の推定をするための手法で、その分布から抽出した有限のデータセットに基づいて、人口の確率密度を推定することができます。KDEは、信号処理やデータサイエンスで頻繁に使用され、確率密度を推定するための必須のツールとなっています。本記事では、ヒストグラムとKDEの数学と直感的な理解、およびそれらの利点と制約について説明します。また、KDEをPythonでスクラッチから実装する方法も示します。本記事のすべての図は著者によって作成されました。
確率密度関数
Xを連続的なランダム変数とします。Xが区間[a, b]の値を取る確率は次のように表すことができます。
- 「機械学習アルゴリズムとGAN」
- システムデザインシリーズ:ゼロから高性能データストリーミングシステムを構築するための究極のガイド!
- 「初めてのデータサイエンスプロジェクトに打ち勝つための6つの初心者向けの素晴らしいヒント」
ここで、f(x)はXの確率密度関数(PDF)です。Xの累積密度関数(CDF)は次のように定義されます。
したがって、Xの値がx以下になる確率は、XのCDFで評価されます。式1を用いると、次のように書くことができます。
積分の基本定理を用いると、
となります。これは、XのPDFはそのCDFをxに関して微分することで求めることができることを意味します。ヒストグラムは、データセットのPDFを推定するための最も単純な手法であり、次のセクションで示すように、この目的のために式1を使用します。
ヒストグラム
リスト1では、2つの正規分布の混合として2峰性分布を作成し、この分布からサイズが1000のランダムサンプルを抽出しています。ここでは2つの正規分布を混ぜています。
したがって、正規分布の平均はそれぞれ0と4で、分散はそれぞれ1と0.8です。混合係数は0.7と0.3であり、したがってこれらの分布の混合のPDFは次のようになります。
リスト1では、このPDFとサンプルを図1にプロットしています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles