【西瓜书笔记三】贝叶斯分类器

一,贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。



具体来说,若目标是最小化分类错误率,则误判损失可写为:

不难看出,欲使贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x)。然而,在现实任务中这通常难以获得。从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。 大体来说,主要有两种策略:给定X,可通过直接建模P(c|x)来预测c,这样得到的是”判别式模型“。也可以先对联合概率分布p(x,c)建模,然后再由此获得p(c|x),这样得到的是”生成式模型“。显然决策树,神经网络,支持向量机都属于判别式范畴,而贝叶斯属于”生成式模型“。对于”生成式模型“来说,必然考虑:


其中,P(c)是类”先验“概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为”似然“;p(x)与类标记无关,因此估计p(c|x)的问题就转换成如何基于训练集D来估计先验P(c)和似然P(x|c)。

根据大数定律,P(c)可以通过各类样本出现的概率来进行估计。对于类条件概率 P(x|c) 来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的概率来估计将会遇到严重的困难。

可以通过极大似然估计来估计 P(x|c) 的值:


,朴素贝叶斯分类器








参考:http://blog.csdn.net/tinkle181129/article/details/51475865



你可能感兴趣的:(机器学习)