在介绍Bayes决策论之前,我们先介绍有关概率的两个基本准则:求和准则与相乘准则。
给定两个随机变量X,Y,假设X可以为任意值 xi ,其中 i=1,2,...M , 同样的,Y可以取的值为 yj ,其中 j=1,2,...L ,假设我们对这两个随机变量的所有可能的值进行采样,一共做了N次采样,我们假设这N次采样中,X= xi , Y= yj 的样本出现的个数为 nij , X取值为 xi (不管Y取何值)的样本出现的个数为 ci ,而Y取值为 yj (不管X取何值)的样本出现的个数为 rj 。
我们可以定义,X取值为 xi 并且Y取值为 yj 的概率为 p(X=xi,Y=yj) ,这个称为联合概率,可以通过如下的表达式得到:
同样地,X取值为 xi (不管Y取何值)的概率为 p(X=xi) ,其概率表达式为:
我们很容易可以得出 ci=∑jnij ,相当于将随机变量X的取值固定为 xi ,然后将所有包含 xi 的(X,Y)的样本个数进行相加。因此,综上我们可以得到:
这就是概率的求和准则,一般我们把 p(X=xi) 称为边缘概率。
如果我们想考虑所有包含 X=xi 的(X,Y)的样本中, Y=yj 的样本所占的比重,可以表示成 p(Y=yj|X=xi) ,这个称为Y= yj 关于X= xi 的条件概率,可以由如下的表达式得到:
综合以上的式子,我们可以得到联合概率 p(X=xi,Y=yj) 为:
这个称为概率的相乘准则.
这两个准则可以概括如下:
这两个准则是机器学习中概率分析机制的基础。
最后介绍一下Bayes定理,因为 P(X,Y)=P(Y,X) ,由相乘准则我们可以得到如下的表达式:
利用求和准则,我们可以将定理中的分母表示成:
从某种角度来看,我们也可以将分母 P(X) 看成一个归一化常数,以保证条件概率 P(Y|X) 关于Y的所有可能取值的概率和为1.
机器学习或者模式识别中,一个常见的挑战就是分类,将一个样本特征 x 进行分类,当然一个直观的方法就是求出这个样本属于某一类的概率,即 P(wi|x) ,这个概率称为posterior(后验)概率,而Bayes估计就是利用概率进行分类的基础。
我们先考虑两类的情况,假设 w1 , w2 分别表示第一类和第二类, P(w1) , P(w2) 表示每一类的priori(先验)概率,这个可以由训练样本的统计得到, P(w1)≈N1/N , P(w2)≈N2/N , 另外我们还需要知道每一类的条件概率密度函数 p(x|wi),i=1,2 ,这个函数可以描述每一类的样本分布,这个函数也可以叫做 wi 关于样本特征 x 的似然函数(likelihood function),这里一个隐含的假设就是特征 x 可以取任意值,如果 x 只能取有限值,那么概率密度函数就变为概率估计,写作 P(x|wi) .
根据前面介绍的Bayes准则,我们有:
其中 p(x)=∑2i=1p(x|wi)P(wi) ,很明显,利用Bayes概率来进行分类,只要比较 P(w1|x) 和 P(w2|x) 的大小,哪一类的后验概率更大,则该样本就属于哪一类。因为 p(x) 对于两类来说是一样的,相当于一个归一化常数,所以我们可以只比较 p(x|w1)P(w1) 与 p(x|w2)P(w2) 的大小,为了简化问题,假设两类的先验概率一样,即 P(w1)=P(w2)=0.5 ,那么,进一步,我们可以只要考虑 p(x|w1) 与 p(x|w2) ,所以,这个分类问题,最终演化成比较两类的条件概率密度函数在样本特征取值为 x 时的大小,
上图给出了在同样的先验概率下,两类的条件概率密度函数的形状,这里的样本特征是一维的,其中穿过 x0 的虚线表示一个阈值,将样本特征空间分成两个区域 R1,R2 ,根据Bayes决定准则,样本特征落在区域 R1 则该样本属于 w1 ,如果样本特征落在
区域 R2 则该样本属于 w2 ,我们可以看到,有些决策错误是无法避免的,比如本应该属于 w1 的样本特征,落在了区域 R2 ,
因此被划为 w2 ,同样地,属于 w2 的样本特征,落在了区域 R1 ,因此被划为 w1 ,我们可以用 Pe 表示错分的概率,其表达式如下:
可以看出, Pe 相当于上图中阴影部分的面积,这个表达式其实给出了Bayes概率估计中非常重要的一个评价,我们最初是通过直观的经验来建立分类准则,即将样本划分给最有可能的那一类,我们接下来要证明,这个简单的分类准则有着非常完备的数学解释。
参考文献
Sergios Theodoridis, Konstantinos Koutroumbas, “Pattern Recognition”, 4th edition, 2008, Elsevier.
Christopher M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006.