【机器学习】 核密度估计(KDE)

核密度估计是在概率论中用来估计未知密度函数的方法,是一种非参数检验方法。
对于一个未知的概率密度函数(pdf) p(x), 某一个随机变量x落在区间R的概率为:
在这里插入图片描述
假设R足够窄,则可以用P来表示p(x)进行平均后的结果。假设有n独立同分布的样本,则这n个样本中,有k个样本落在R内的概率为:
在这里插入图片描述
期望和方差分别为:
【机器学习】 核密度估计(KDE)_第1张图片
当N足够大时,科技近似的将k/N作为p的一个近似值,则有
【机器学习】 核密度估计(KDE)_第2张图片
所以有:
在这里插入图片描述
在上式中,V是R的体积。则有:
【机器学习】 核密度估计(KDE)_第3张图片
在有限的数据下,使用KDE估计的概率密度是真实概率密度平滑后的结果。对于V的选择而言:如果选择的V太大,估计的结果和真实的结果相比而言就太平滑了;但如果选择的V太小,就会导致这块小区域R中没有点落在里面,进而得到该点的概率密度为0,或者如果只有非常少的点落在里面,会由于V太小而使得概率密度接近无穷。

【Parzen窗法】
假设Rn是一个以x为中心的d维超立方体,且边长为h,则Vn=h^d。
根据一下公式,表示x是否落入超立方体区域中:
【机器学习】 核密度估计(KDE)_第4张图片
通过这种方式,我们就可以用K来表示体积V内的样本个数:
【机器学习】 核密度估计(KDE)_第5张图片
则核密度估计为:
【机器学习】 核密度估计(KDE)_第6张图片

你可能感兴趣的:(机器学习)