西瓜书学习笔记7-贝叶斯分类器

chapter 7 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于概率误判损失来选择最优的类别标记,以多分类为例解释原理:
假设分类问题有N种可能的类别,λij是将真实标记为j的样本误分类为i所产生的损失,基于==后验概率P(ci丨x)==可获得将样本x分类为ci所产生的 期望损失,即在样本x上的 “条件风险”
西瓜书学习笔记7-贝叶斯分类器_第1张图片
我们的任务是寻找一个判定准则h,X→Y以最小化 总体风险
在这里插入图片描述
对每个样本,若h能最小化条件风险R(h(x)丨x),则总体风险也将被最小化。这就产生了 贝叶斯判定准则,为最小化总体风险,只需在每个样本上选择那个能 使条件风险最小的类别标记,即:
在这里插入图片描述
此时的h,称为 贝叶斯最优分类器,与之对应的总体风险R(h)称为 贝叶斯风险,1-R(h)反映了分类器所能达到的最好性能,即通过 机器学习所能产生的模型精度的理论上限(这里指所有的机器学习方法)。
为最小化错误率,误判损失λij可写为:
西瓜书学习笔记7-贝叶斯分类器_第2张图片
(如果判别正确,则损失为0,否则为1),此时条件风险:
在这里插入图片描述
于是,最小化分类错误率的最优贝叶斯分类器为:
在这里插入图片描述
即对每个样本x,选择能使后验概率P(c丨x)最大的类别标记。
欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c丨x),然而这在现实任务中通常 难以获得
机器学习的目标是基于有限的训练集样本尽可能准确地估计出后验概率P(c丨x)。
主要有两种策略:1、给定x,可以通过直接建模P(c丨x)来预测c,这得到的是 “判别式模型”。也可对联合概率分布P(x,c)建模,再由此获得P(c丨x),这样得到的是“生成式模型”,前面的决策树,BP,SVM都可纳入判别式模型的范畴,对生成式模型来说,必然考虑:
西瓜书学习笔记7-贝叶斯分类器_第3张图片
Pc是类先验概率,P(x丨c)是样本x相对于类标记c的 类条件概率,或称为 似然。px是用于归一化的“证据”因子。对给定样本x,证据因子Px与类标记c 无关,因此估计P(c丨x)的问题转化为 如何基于训练数据D来估计先验P(c)和似然P(x丨c)。
类先验概率P(c)表达了样本空间中各样本所占的比例,根据大数定律,当训练集包含充足的 独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。
对类条件概率P(x丨c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本估计会遇到困难,使用频率来估计不可行,因为“未被观测到”与“出现概率为零”通常是不同的。

7.2 极大似然估计

估计类条件概率的方法:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。
具体来说:记关于类别C的类条件概率为P(x丨c),假设其具有确定的形式,并且被参数向量αc唯一确定,则任务变为利用训练集D估计参数αc,明确起见,将P(x丨c)记为P(x丨αc)。
事实上,概率模型的训练过程就是参数估计过程,对于参数估计,有两种不同的方案:
1、 频率主义学派认为参数虽然未知,但存在客观的固定值,因此可通过优化似然函数等准则来确定参数值;
2、 贝叶斯学派认为参数是未观察到的随机变量,其本身可有分布,因此可假设服从一个先验分布,然后基于观测到的数据来计算参数的后验分布

极大似然估计MLE:根据数据采样来估计概率分布参数(αc)的经典方法。
令Dc表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,则参数对于数据集Dc的似然是:
在这里插入图片描述
对αc(αc就是sitac,sita不会打)进行极大似然估计,就是去寻找最大化似然P(Dc丨αc)的参数值αc’。
式7.9的连乘操作易导致下溢,通常使用对数似然:
西瓜书学习笔记7-贝叶斯分类器_第4张图片
此时参数αc的最大自然估计为:
在这里插入图片描述
西瓜书学习笔记7-贝叶斯分类器_第5张图片
通过极大似然法得到的正态分布均值就是样本均值,这显然是符合直觉的结果。
这种方法虽然简单,但结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布

7.3朴素贝叶斯分类器

贝叶斯公式估计后验概率 P(C丨x)的困难在于类条件概率 P(x丨c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。

朴素贝叶斯分类器采用==“属性条件独立性假设”==,对已知类别,假设所有属性相互独立,假设每个属性独立地对分类结果产生影响(即不同的属性之间没有关联性,不会相互影响)。基于此假设,式7.8重写为:
基于属性相互独立假设
由于对所有属性来说,px都相同,因此基于式7.6,有
朴素贝叶斯分类器
这就是 朴素贝叶斯分类器的表达式。
朴素贝叶斯分类器的训练过程就是 ==基于训练集D来估计类先验概率P(c)并为每个属性估计条件概率P(xi丨c)。
西瓜书学习笔记7-贝叶斯分类器_第6张图片
以西瓜3.0训练一个朴素贝叶斯分类器:
首先估计后验概率P(c):
西瓜书学习笔记7-贝叶斯分类器_第7张图片
然后为每个属性估计条件概率P(xi丨c):
西瓜书学习笔记7-贝叶斯分类器_第8张图片
西瓜书学习笔记7-贝叶斯分类器_第9张图片
西瓜书学习笔记7-贝叶斯分类器_第10张图片
若每个属性值在训练集中没有与某个类同时出现过(如清脆没有与好瓜同时出现),则它的条件概率会变为零,这种情况在估计概率值时常进行“平滑”。常用“拉普拉斯修正”。
令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,则式7.16和式7.17分别修正为:
西瓜书学习笔记7-贝叶斯分类器_第11张图片
西瓜书学习笔记7-贝叶斯分类器_第12张图片
西瓜书学习笔记7-贝叶斯分类器_第13张图片
西瓜书学习笔记7-贝叶斯分类器_第14张图片

7.4 半朴素贝叶斯分类器

朴素贝叶斯分类器采用了属性条件独立性假设来降低贝叶斯公式7.8中估计后验概率P(c丨x)的困难,但这个假设在现实任务中往往很难成立,于是人们对这一假设进行一定程度上的放松,由此产生“半朴素贝叶斯分类器”。
半朴素贝叶斯分类器:适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略比较强的属性依赖关系。
“独依赖估计”是半朴素贝叶斯分类器最常用的策略,假设每个属性在类别之外最多依赖于一个其他属性,即:
在这里插入图片描述
其中pαi为xi所依赖的属性,称为xi的“父属性”,如何确定每个属性的父属性,不同策略的独依赖分类器不同。
1、假设所有属性都依赖于同一个属性,这个属性称为超父,通过交叉验证等模型选择方法来确定超父属性,由此形成SPODE方法,下图x1是超父属性。
西瓜书学习笔记7-贝叶斯分类器_第15张图片
2、TAN:
西瓜书学习笔记7-贝叶斯分类器_第16张图片
TAN实际仅保留了强相关属性之间的依赖性。
3、AODE:尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果,即:
在这里插入图片描述
不难看出,与朴素贝叶斯分类器类似,AODE的训练过程也是“计数”,即在训练数据集上对符合条件的样本进行计数的过程,与朴素贝叶斯分类器类似,AODE无需模型选择,既能通过预计算节省预测时间,也能采取懒惰学习方式在预测时再进行计数,并且易于实现增量学习
可以将独依赖假设进一步放宽,通过考虑属性间的高阶依赖来提升泛化性能。若训练数据非常充分,泛化性能有可能提升,但在有限样本条件下,会陷入估计高阶联合概率的泥沼。

7.5 贝叶斯网

贝叶斯网又称信念网,借助有向无环图(directed acyclic graph,DAG)来刻画属性间的依赖关系,并使用条件概率表(CPT)来刻画属性之间的联合概率分布(注意对比朴素贝叶斯分类器估计联合概率的方法)。
一个贝叶斯网由结构G和参数θ两部分构成,B=,
G是一个有向无环图,每个结点对应于一个属性,两属性若有直接依赖关系,则由一条边连接。参数θ定量描述这种依赖关系。
假设属性xi在G中的父节点集为πi,则θ包含了每个属性的条件概率表:
在这里插入图片描述
西瓜书学习笔记7-贝叶斯分类器_第17张图片

7.5.1 结构

贝叶斯结构有效表达了属性间的条件独立性
给定父结点集,贝叶斯网络假设每个属性与它的非后裔属性独立,于是利用贝叶斯模型,得到属性x1,x2到xd的联合概率分布为:西瓜书学习笔记7-贝叶斯分类器_第18张图片
(x3和x4在给定x1时独立,x4和x5在给定x2的取值时独立),下面是贝叶斯网中三个变量之间的典型依赖关系,其中前两种在式7.26中已有所体现。
西瓜书学习笔记7-贝叶斯分类器_第19张图片
同父结构中,给定父结点x1的取值,则x3与x4条件独立,在“顺序”结构中,给定x的值,则y与z条件独立。V型结构中,给定x4的取值,x1与x2必不独立,但==若x4取值完全未知,则x1与x2却是相互独立的。(独立指p(x1,x2)=p(x1)p(x2))。
为了分析有向图中变量间的条件独立性,可使用“有向分离”,先把有向图转变为无向图:
西瓜书学习笔记7-贝叶斯分类器_第20张图片
由此产生的无向图称为“道德图”,令父节点相连的过程称为道德化。从道德图中能容易地找出所有的条件独立关系。

7.5.2 学习

若网络结构已知,即属性间的依赖关系已知,则贝叶斯网的学习过程相对简单,只需通过对训练样本“计数”,估计出每个结点的“条件概率表”即可。
但现实任务中,往往不知晓网络结构,所以贝叶斯网学习的首要任务就是根据训练数据集来找出结构最恰当的贝叶斯网。“评分搜索”是求解这个问题的常用方法,具体来说,我们先定义一个“评分函数”,以此评估贝叶斯网和训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网(学习)
常用的评分函数基于信息论准则,此类准则将学习问题看做一个数据压缩任务,学习目标是找到一个能以最短编码长度描述训练数据的模型。编码长度包括描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度,对贝叶斯网学习而言,模型就是一个贝叶斯网。我们应选择综合编码长度最短的贝叶斯网,称为“最小描述长度”准则。
西瓜书学习笔记7-贝叶斯分类器_第21张图片在这里插入图片描述
第一项是计算编码贝叶斯网B所需的字节数,第二项是计算B所对应的概率分布PB需多少字节来描述D,于是学习任务转化为一个优化任务,即寻找一个贝叶斯网B使评分函数最小。
若贝叶斯网的网络结构G固定,则评分函数的第一项为常数,此时最小化s等价于对参数θ的极大似然估计,参数θ能直接在训练数据D上通过经验估计获得,即:
西瓜书学习笔记7-贝叶斯分类器_第22张图片
但是从所有可能的网络结构空间搜索最优贝叶斯网络是一个NP难问题,难以快速求解。有两种方法可以较快得到近似解:1、贪心算法,从某个结构出发,每次调整一个边(增加删减等),直到评分函数不再降低为止。2、通过给网络结构施加约束,例如将网络结构限定为树形结构等。

7.5.3 推断

贝叶斯网训练好后,可以通过一些属性变量的观测值来推测其它属性变量的取值,通过已知变量观测值来推断待查询变量的过程称为“推断”,已知变量的观测值称为“证据”。
当网络结点较多,连接稠密时,难以进行精确推断,此时需借助“近似推断”,通过降低精度要求,在有限时间内求得近似解,贝叶斯网的近似推断常使用吉布斯采样来完成,这是一种随机采样方法。

7.6 EM算法

1、期望步E:利用当前估计的参数值来计算对数似然的期望值;
2、最大化M:寻找参数最大化期望似然;
直至收敛得到局部最优解
EM算法是最常见的隐变量估计方法,

你可能感兴趣的:(西瓜书)