我们接下来将要证明,Bayes分类器是使得错分概率最小化的一个最佳选择,假设 R1 是 w1 这一类的样本特征所在的区域,
R2 是 w2 这一类的样本特征所在的区域,那么,如果一个样本特征原来是属于 w2 却落在区域 R1 ,
即 x∈R1 ,或者一个样本特征原来是属于 w1 却落在区域 R2 ,
即 x∈R2 ,那么这就会产生一个决策错误,即:
其中, P(⋅,⋅) 表示联合概率,利用前面介绍的Bayes准则,我们可以得到:
利用Bayes法则,可以得到:
很容易可以看到,如果区域 R1,R2 的划分满足如下:
综上,我们可以得到:
这个表达式意味着,如果区域 R1 满足 P(w1|x)>P(w2|x) ,那么 Pe 就会取得最小值,这也意味着区域 R2
满足 P(w2|x)>P(w1|x) ,因为这两个区域覆盖了整个空间,并且是互补的。
到目前为止,我们讨论的都是两类的情况,但是这个结论可以很直接地推广到多类的情况,对于多分类的情况,如果:
那么,说明该样本特征属于 w1 .
一般来说,错分概率不一定是最好的衡量指标,因为它对于每一类分错的概率赋予相同的权重,但在实际应用中,每一类分错的后果是不一样的,
有些分错的后果可能比其它类的后果严重,比如把恶性肿瘤判断成良性的比把良性的判断成恶性的后果要严重的多,
因此,可以对于每一类分错的概率赋予一个惩罚项用来权衡. 这里,假设 w1 表示恶性肿瘤这一类, w2 表示良性肿瘤这一类,进一步假设
R1 和 R2 分别表示 w1,w2 的样本特征所在的区域。那么引入惩罚项之后,错分的概率 Pe 可以表示为:
上面的表达式说明了每一类的错分概率通过一个权重表示其对整体的贡献,在上述的假设情况下,权值 λ12,λ21 的合理设定应该
满足 λ12>λ21 ,因为把 w1 (恶性肿瘤)错分成 w2 (良性肿瘤)的后果要更严重.
现在我们来考虑一个M类的问题,假设 Rj,j=1,2,...M , 表示每一类 wj 的样本特征所在的区域, 现在设想有一个属于 wk 样本特征 x 落在区域
Ri,i≠k . 那么该样本会被判断属于 wi , 这样就产生一个决策错误, 一个惩罚项 λki ,称为loss, 与该决策错误捆绑在一起, 矩阵
L , 其位置 (k,i) 上有对应的惩罚项, 称为 loss 矩阵, 显然, 矩阵对角线上的值 (k,k) 对应的都是决策正确的权值, 实际应用中一般都设为0, 这里为了不失一般性, 我们也把对角线上的值考虑进去, 那么某一类 wk 的决策风险可以表示为:
可以看到, 上式中的积分项表示属于 wk 的某一样本特征被判断为属于 wi 的概率, 这个概率乘以 λki 作为加权, 我们的目标是将整个
样本特征的空间进行划分, 并且使得所有类的决策风险的平均值最小, 即:
要最小, 如果上式中的每一个积分项都能取得最小值, 那么平均值就能最小, 相当于区域划分将满足如下的不等式:
对于两类的情况, 我们可以得到:
如果 l1<l2 , 那么 x 属于 w1 , 即:
比率 l12 叫做似然比率, 如果我们假设 λ11,λ22 都为0的话, 并且假定 λ21>λ12 , 那么如果满足下述不等式:
>
Sergios Theodoridis, Konstantinos Koutroumbas, “Pattern Recognition”, 4th edition, 2008, Elsevier.
Christopher M. Bishop, “Pattern Recognition and Machine Learning”, Springer, 2006.