第七章 贝叶斯分类器

章节目录

  • 贝叶斯决策论

  • 极大似然估计

  • 朴素贝叶斯分类器

  • 半朴素贝叶斯分类器

  • 贝叶斯网

  • EM算法

7.1 贝叶斯决策论

贝叶斯决策论是概率框架下的基本方法。
该理论假设有N种可能的类别标记,即y={c1,c2,...,cN},λij是一个将真实标记为cj的样本误分类为ci产生的期望损失,即在样本x上的“条件风险”。
image.png
我们的任务是寻找一个判断准则h:X→ y以最小化总体风险。对每个样本最小化条件风险,则总体分线也被最小化。
当我们在适用贝叶斯判定准则来最小化决策风险时,我们首先要获得后验概率P(c|x),但是在现现实任务中这通常难以直接获得,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。
主要有两种策略:
给定x,可通过直接建模P(c|x)来预测c,这样得到的是“判别式模型”。
先对联合概率分布P(x,c)建模,然后再由此获得P(c|x),这样得到的是“生成式模型”。 显然,前面介绍的决策树、BP神经网络、支持向量机等,都可归入判别式模型的范畴。
image.png
基于贝叶斯定理可写成,P(c|x)可写为
image.png
P(c)是类“先验”概率,P(x | c)是样本x相对于c地类条件概率,或称为“似然”;P(x)是用于归一化地“证据”因子。

7.2 极大似然估计

估计类条件概率的一种常见策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。 课本里介绍的是频率主义学派的极大似然估计:
令Dc表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,则参数θc对于数据集Dc的似然是
image.png

7.3 朴素贝叶斯分类器

朴素贝叶斯分类器采取了“属性条件独立性假设:对已知类别,假设所有属性相互独立,换言之,假设每个属性独立地对分类结果发生影响,则有
image.png
其中d为属性数目,Xi为X在第i个属性上的取值。
由于对所有类别来说P(x)相同,则贝叶斯判断准则有
image.png
朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(Xi | c)。
令Dc表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计类先验概率
image.png
对离散属性而言,令Dc,xi表示Dc中在第i个属性为xi为样本组成的集合,则条件概率P(xi|c)可估计为
image.png
对连续属性可考虑概率密度函数,假定p(xi|c)~N(μc,i,σc,i2),其实μc,i和σc,i2分别是第c类样本在第i个属性上取值的均值和方差,则有
image.png
若某个属性值在训练集中没有于某个类同时出现过,直接算的话就为0了。为了避免这个情况,我们可以用拉普拉斯修正:令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数
image.png

image.png

7.4 半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
image.png
其中pai为属性xi所依赖的属性,称为xi的父属性。
最直接的做法是假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE(Super-Parent ODE)方法。
image.png
TAN则是在最大带权生成树算法的基础上,有以下步骤:
1.计算任意两个属性之间的条件互信息
2.以属性为结点构建完全图,任意两个结点之间边的权重设为I(xi,xj|y)
3.构建次完全图的最大带权生成树,挑选根变量,将边置为有向
4.加入类别结点y,增加从y到每个属性的有向边
AODE是一种基于集成学习机制、更为强大的独依赖分类器。
image.png
其中Dxi是在第i个属性上取值为xi的样本的集合,m'为阈值常数。显然,AODE需估计P(c,xi)和P(xj|c,xi)
image.png

image.png
其中N是D中可能的类别数,Ni是第i个属性可能的取值数,Dc,xi是类别为c且在第i个属性上取值为xi的样本集合,Dc,xi,xj是类别为c且在第i和第j个属性上取值分别为xi和xj的样本集合。

7.5贝叶斯网

贝叶斯网亦称“信念网”,借助有向无环图来刻画属性之间的依赖关系。,并使用条件概率表来描述属性的联合概率分布。
image.png
从图中可以看出,“色泽”直接依赖于“好瓜”和“甜度”,而“根蒂”则直接依赖于“甜度”:进一步从条件概率表能得到“根蒂”对“甜度”量化依赖关系。

7.5.1 结构

贝叶斯网结构有效地表达了属性间的条件独立性,给定结点集,贝叶斯网假设每个属性与他的非后裔属性独立,于是
image.png
以上图为例,联合概率分布为:
image.png
贝叶斯网中三个变量之间的典型依赖关系:
image.png

7.5.2 学习

评分函数:给定训练集D={x1,x2,...,xm},贝叶斯网B={G,Θ}在D上的评分函数可写为
image.png
其中,|B|是贝叶斯网的参数个数;f(θ)表示描述每个参数θ所需的字节数;而
image.png
是贝叶斯网B的对数似然。评分函数的第一项是计算编码贝叶斯网B所需的字节数,第二项是计算B所对应的概率分布PB对D描述得有多好。我们要做的是寻找一个贝叶斯网B使评分函数s(B|D)最小。
-若f(θ)=1,即每个参数用1字节描述,则得到AIC评分函数
image.png
-若f(θ)=(1/2)log(m),即每个参数用(1/2)log(m)字节描述,则得到BIC(Bayesian Information Criterion)评分函数
image.png
-若f(θ)=0,则学习任务退化为极大似然估计。

7.5.3 推断

贝叶斯网训练好之后就能用来回答”查询“,即通过一些属性变量的观测值来推测其他属性变量的取值,最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,但是这样的”精确推断“已被证明是NP难的,所以我们通过降低精度要求,在有限时间内求得近似解,在现实应用中,贝叶斯网的近似推断常采用吉布斯采样来完成。

7.6 EM算法

未观测变量的学名是”隐变量“。令X表示已观测变量集,Z表示隐变量集,Θ表示模型函数。若欲对Θ做极大似然估计,则应最大化对数似然
image.png
然而由于Z是隐变量,上式无法直接求解。此时我们可通过对Z计算期望,来最大化已观测数据的对数“边际似然”
image.png
EM算法是常用的估计参数隐变量的利器,它是一种迭代式的方法,其基本想法是:若参数Θ已知,则可根据训练数据推断出最优隐形变量Z的值(E步);反之,若Z的值已知,则可方便地对参数Θ做极大似然估计(M步)。

以初始值Θ0为起点,对上式可迭代执行以下步骤直至收敛:

-基于Θt推断隐变量Z的期望,记为Z^t;
-基于已观测变量X和Zt对参数Θ做极大似然估计,记为Θ^t+1。
这就是EM算法的原型。
若我们不是取Z的概率分布P(Z|X,Θt),则EM算法的两个步骤是:
-E步(Expectation):以当前参数Θt推断变量分布P(Z|X,Θt),并计算对数似然LL(Θ|X,Z)关于Z的期望
image.png
-M步(Maximization):寻找参数最大化期望似然,即
image.png

你可能感兴趣的:(第七章 贝叶斯分类器)