核密度估计(KDE)原理及实现

参数估计指样本数据来自一个具有明确概率密度函数的总体,而在非参数估计中,样本数据的概率分布未知,这时,为了对样本数据进行建模,需要估计样本数据的概率密度函数,核密度估计即是其中一种方式。

引言

统计学中,核密度估计,即Kernel Density Estimation,用以基于有限的样本推断总体数据的分布,因此,核密度估计的结果即为样本的概率密度函数估计,根据该估计的概率密度函数,我们就可以得到数据分布的一些性质,如数据的聚集区域。

从直方图开始

直方图由 Karl Pearson 提出,用以表示样本数据的分布,帮助分析样本数据的众数、中位数等性质,横轴表示变量的取值区间,纵轴表示在该区间内数据出现的频次与区间的长度的比例。

美国人口普查局(The U.S. Census Bureau)调查了 12.4 亿人的上班通勤时间,数据如下:

起点 组距 频次 频次/组距 频次/组距/总数
0 5 4180 836 0.0067
5 5 13687 2737 0.0221
10 5 18618 3723 0.03
15 5 19634 3926 0.0316
20 5 17981 3596 0.029
25 5 7190 1438 0.0116
30 5 16369 3273 0.0264
35 5 3212 642 0.0052
40 5 4122 824 0.0066
45 15 9200 613 0.0049
60 30 6461 215 0.0017
90 60 3435 57 0.0005

使用直方图进行数据可视化如下

Histogram of travel time (to work), US 2000 census. Area under the curve equals the total number of cases. This diagram uses Q/width from the table.

该直方图使用单位间隔的人数(频次/组距)表示为每个矩形的高度,因此每个矩形的面积表示该区间内的人数,矩形的总面积即为 12.4 亿。

而当直方图使用(频次/组距/总数)表示为每个矩形的高度时,数据可视化如下

Histogram of travel time (to work), US 2000 census. Area under the curve equals 1. This diagram uses Q/total/width from the table.

此时,矩形的面积表示该区间所占的频率,矩形的总面积为 1,该直方图也即频率直方图

频率直方图有以下特点:

  1. 矩形面积为该区间的频率;
  2. 矩形的高度为该区间的平均频率密度。

概率密度函数

极限思维:我们使用微分思想,将频率直方图的组距一步步减小,随着组距的减小,矩形宽度越来越小,因此,在极限情况下频率直方图就会变成一条曲线,而这条曲线即为概率密度曲线。

对于概率密度曲线,我们知道:随机变量的取值落在某区域内的概率值为概率密度函数在这个区域的积分(见概率密度函数),即:P(a<xb)=abf(x)dxP(a< x \leq b) = \int\limits_a^b f(x)dx

设累积分布函数为 F(x)F(x),根据上述定义,则 F(x)=xf(x)dxF(x) = \int\limits_{-\infty}^x f(x)dx

根据微分思想,则有:

f(x0)=F(x0)˙=limh0F(x0+h)F(x0h)2h\begin{aligned} f(x_0) &= \dot{F(x_0)}\\ &= \lim^{}_{h \to 0}\frac{F(x_0+h)-F(x_0 – h)}{2h} \end{aligned}

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享