周志华 《机器学习》之 第七章(贝叶斯分类器)概念总结

贝叶斯分类器是利用概率的知识完成数据的分类任务,在机器学习中使用贝叶斯决策论实施决策的基本方法也是在概率的框架下进行的,它是考虑如何基于这些概率和误判损失来选择最优的类别标记。

1、贝叶斯决策论

假设有 N 种可能的类别标记, Y={c1,c2,c3,...,cN},λij 是将一个真实标记为 cj 的样本误分类为 ci 所产生的损失。基于后验概率 P(ci|x) 可获得奖样本 x 分类为 ci 所产生的期望损失,即在样本 x 上的“条件风险”。

R(ci|x)=j=1NλijP(cj|x)

机器学习的过程就是要寻找一个判定准则: h:XY 以最小化总体风险。
为最小化总体风险,只需要在每个样本上选择哪个能使条件分析最小的类别标记。
h(x)=argminR(c|x)(cY)
此时, h 称为贝叶斯最优分类器,与之对应的总体风险 R(h) 称为贝叶斯风险。则 1R(h) 反映了分类器所能达到的最好性能。
生成式模型 如:贝叶斯分类器
判别式模型 如:决策树、BP神经网络、支持向量机

2、极大拟然估计

概率模型的训练过程就是参数估计过程,
本文中采用极大拟然估计就是试图在所有的可能的取值中,找到一个能使数据出现的“可能性”的最大值。

3、朴素贝叶斯分类器

朴素贝叶斯分类器 基于贝叶斯公式来估计后验概率 P(c|x) 的主要困难在于求类条件概率 P(x|c) 是所有属性上的联合概率,难以从有限的训练样本直接估计得到。为了解决这个问题,提出朴素贝叶斯分类器 它采用了“属性条件独立假设”对已知类别,假设所有属性相互独立,换言之,假设每个属性独立地对分类结果发生影响。

4、半朴素贝叶斯分类器

为了降低贝叶斯公式中估计后验概率的困难,提出使用朴素贝叶斯分类器采用属性条件独立性假设,然而在现实任务中这个假设很难成立,因此就提出半朴素贝叶斯分类器,它的基本思想是适当考虑一部分属性间的相互依赖信息,从而既不需要完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

5、贝叶斯网

贝叶斯网是借助有向无环图(DAG)来刻画属性之间的依赖关系,并使用条件概率表(CPT)来描述属性的联合概率分布
结构
学习
推断

6、EM算法

如果训练样本的属性“不完整”,因此在这种存在“未观测”变量(隐变量)的情形下,如何进行模型参数估计呢?EM算法就是常用的估计参数隐变量的利器。
EM 算法 简单来说,使用两个步骤交替计算:一是期望( E )步,利用当前估计的参数值来计算对数似然的期望值;二是最大化( M )步,寻找能使 E 步产生的似然期望最大化的参数值。然后,新得到的参数值重新被用于 E 步,……直至收敛到局部最优解。

你可能感兴趣的:(机器学习)