上篇学习了PDF的参数估计方法,主要有最大似然估计和贝叶斯估计,他们主要对有确定形式的PDF进行参数估计,而在实际情况下,并不能知道PDF的确切形式,只能通过利用所有样本对整个PDF进行估计,而且这种估计只能是利用数值方法求解。通俗的说,如果参数估计是从指定的某一类函数中选择一个作为目标估计,那么非参数估计就是从所有可能的函数中找到一个合适的选择。
非参数估计主要有三种方法:直方图法、kn近邻法、核函数法,其中核函数法又叫Parzen窗法或核密度法。
这是一种最简单也最直观的一种非参数估计方法,说起这个方法,相信很多人都在初中时都有接触过,举个简单的粒子;
a.如果将一个班上的数学成绩x(为简单起见,这里假定样本只有一个分量)从及格60分到100分划分为4个等间隔的小窗,由于x是一维向量,则会分割得到4的1次方等于4个bin,把每个bin的体积记为V;
b.按照统计方式,统计出落入每个bin的样本数目Ni(通常我们把它叫做频数);
c.假设这个班上有60个学生,但这次数学考试及格的有40人,那么样本总量就为40,很明显,这时候每个bin的概率密度是一个常量,可以由以下公式计算得到:
根据上例,我们来简单的分析下直方图的基本思想。我们的目标是求出每个样本的概率密度所服从的函数分布,即求出p(x)的估计量,同样的,不考虑类别问题,假设所有样本都是同一类的。
step1:假设某一小区域R,则某个随机样本落入R的概率:
step2:根据二项分布,可求出有k个这样的样本落入R的概率为:
其中,N为样本总数,k的取值等于其期望值,k=PR*N,所以可以得到PR的估计量等于:
step3:当p(x)连续且R的体积V足够小时,p(x)可以认为是一个常量,因此落入R的概率近似为:
将PR的估计量代入上式可得:
是不是跟上面数学成绩粒子中的估计是一样的。
在直方图估计中,有一个直接影响估计结果的问题,就是bin的体积V选择,不可太大,也不可太小,应该与样本总数相适应,太大会导致分辨率低,太过平均;太小的话分类太过精细,波动太大。对此,有一个官方的解释就是:随着样本数的增加,bin的体积应该尽可能小,同时又必须保证在bin内有足够多的样本,但每个bin内的样本数又必须是总样本数中的一小部分,用公式表达就是:
直方图法虽然简单,但却不能范化,比如在样本总数有限的情况,毕竟一个bin内落入多少样本不仅与bin的体积有关,还与样本的分布有关,为了得到更好的估计,我们需要根据样本分布情况及时调整bin的体积大小,而kn近邻法就是有限样本下的这样一种估计方法,可以看作是一种自适应的直方图估计法。
基本思想:在样本x的取值范围内,把每一个取值作为一个bin的中心点,根据总样本确定kn,用来规定每个bin内落入的样本个数,这样一来,在求p(x)的估计量时,找到与当前中心点最近的kn个样本放进当前bin中,在寻找这kn个样本的过程中,bin的体积是在不断变化的,直到bin中恰好落入kn个样本时,bin的体积确定,这时估计量为:
从上面公式中不难发现,样本密度与bin体积成反比,这样在高密度的bin就会有比较好的分辨率,而低密度的bin也会保证估计的连续性。与直方图估计一样,为了达到好的估计效果,我们需要按照公式(1)的原则来选择kn的函数形式,也就是它与样本总体的关系满足一个什么样的方程,比如:
kn近邻法与直方图法的不同之处,除了bin体积的可变外,还体现在:kn近邻没有将x的可能取值划分为若干bin,而是在x的取值范围内以每一点值作为bin的中心,当求得与当前点最接近的kn个样本时,当前bin的体积也随之被确定。kn近邻法尽管解决了有限样本下直方图估计的样本分布不均现象,但是却易陷入另一问题,就是维数灾难,即当x的维数较高时,样本数量无法达到精确。
这是一种用核函数来估计当前样本x处的概率密度的方法,可以看作一种在x的取值空间内用核函数对样本进行插值的过程。
回到(基本公式)上来,在统计落入一个bin的样本个数时,需要判断观测样本xi是否应该放进包含x样本的bin中,那么该怎么判断呢?是不是跟两个样本的距离有关呢?继续往下看。。
在直方图中,举了个样本只有一维的例子,这里我们回到常规,假设x是一个d维的特征向量,这时候每个bin也会是多维的,确切的说就是一个超立方体,设其每一维的棱长为h,那么bin的体积就是h的d次方。为统计落入bin的样本数目,我们定义一个二值函数:
有了这个二值函数,就可以很容易的来判断了,只需要计算该二值函数在(x-xi)/h处的函数值即可,为1就放进当前bin,否则不放进,于是可以统计下落入bin的所有样本数:
将上式代入(基本公式)可得:
上式(2)中,∑符号后的那一串式子就被叫做核函数,也称窗函数,记作:
它反映了观测样本xi对x处的概率密度估计的贡献,跟两个样本之间的距离有关,因此公式(2)的直观解释就是:对落入每一个bin的所有观测样本的距离贡献值取平均,就会得到总体样本的概率密度函数估计。
对于核函数,需要满足麦瑟尔约束条件,即函数值非负且积分为1:
最后,介绍几种常见的核函数:
a.方窗
b.高斯窗(多维)
即以观测样本xi为均值,协方差矩阵∑的正态分布,其中
c.超球窗
其中,V是超球体的体积,p是半径。
可以注意到,上面三种核函数中都有一个共同的h参数,它就是平滑参数,反映了一个样本对多大范围内的估计产生影响。
概率密度函数的非参估计要求样本数量足够多,只要有足够多的样本总能够保证收敛于任何密度函数,但也因此计算量和存储量比较大;反观前面的参数估计,则更适合于小样本的情况,并且对密度函数有充分的先验知识的前提下,参数估计可能会达到更好的估计效果。总之就是,要么对先验概率和类条件概率密度有充分的先验知识,要么有足够多的样本,那么就能够进行较好的概率密度估计。