核密度估计原理

        最近在读wek的代码的时候,发现weka的naive bayes分类器中有使用到核概率密度估计,想了一下核概率密度估计原理。

        核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。

        假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的:


                                                                  

 其中N(x,z)为正太分布的概率密度函数,z为设定的参数

       (1)基本原理:

       核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。

      (2)存在的问题:

      我感觉这种方法会存在一个问题。

      边界问题。比如满足[0,1]之间的均匀分布的数有1000w个,人工大致已经可以看出概率分布。但用核密度估计估计出来的结果会非常奇怪。[-1,0]和[1,2]之间的数的概率密度不会被估计为0。主要原因是因为有边界的影响。具体怎么影响,我还没有想或者看明白。

      我也是初看核密度估计,有不对的地方,欢迎大牛拍砖。



本文地址: http://blog.163.com/rustle_go_go/blog/static/202945014201211271746980/

你可能感兴趣的:(核密度估计原理)