贝叶斯分类器

1.1、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面以多分类任务为例来解释其基本原理。

假设有N种可能的类别标记,即Y={,.......},是将一个真实标记为的样本误分类为所产生的损失。基于后验概率P(|x)可以获得将样本x分类为所产生的期望损失(expected loss),即在样本x上的“条件风险”(conditional risk)



显然,对每个样本x,若h能最小化条件风险R(h(x)|x),则总体风险R(h)也将被最小化。则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个使得条件风险R(c|x)最小的类别标记,即


此时,称为贝叶斯最优分类器,与之对应的总体风险R()称为贝叶斯风险。1-R()反映了分类器所能达到的最好性能。即通过机器学习所能产生的模型精度的理论上限。

具体来说,若我们的目标是最小化分类错误率,则误判损失可以写为


即对每个样本x,选择能使后验概率P(c|x)最大的类别标记。

可以看出,要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x)。然而,在现实任务中这通常难以直接获得。机器学习所要实现的是基于有限的训练样本集尽可能地估计出后验概率P(c|x).大体来说,主要有两种策略:给定x,可通过直接建模P(c|x)来预测c,这样可以得到的是“判别式模型”(discriminative models);也可先对联合概率分布P(x,c)建模,然后再由此获得p(c|x),这样可以得到的是“生成式模型”(generative models).显然,前面介绍的决策树、BP神经网络、支持向量机等,都可归入判别式模型的范畴。

对于生成式模型来说,必然考虑


基于贝叶斯定理,可得


其中,P(c)是类“先验”概率;P(x|c)是样本x相对于类标记c的似然;P(x)是用于归一化的“证据”因子;给定样本x,证据因子P(x)与类标记无关,因此估计P(c|x)的问题就转化为如何基于训练数据集D来估计先验P(c)和似然P(x|c).

类先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定律,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。

对于类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的概率来估计将会将会遇到严重的困难。例如,假设样本的d个属性都是二值的,则样本空间将有种可能的取值,在现实应用中,这个值往往远大于训练样本数m,也就是说,很多样本取值在训练集中没有出现,直接按照频率来估计P(x|c)显然是不可行的,因为“未被观测到”与“出现概率为零”通常是不同的。

1.2 极大似然估计

未完待续

你可能感兴趣的:(贝叶斯分类器)