西瓜书笔记—7.贝叶斯分类器

7.1贝叶斯决策论(如何基于已知概率和误判损失来选择最优的类别标记)

关键词:期望损失与条件风险,贝叶斯判定准则、贝叶斯最优分类器、贝叶斯风险,判别式与生成式,贝叶斯定理,类概率与类条件概率

1.(1)后验概率

(2)期望损失与条件风险:基于后验概率P可获得样本x分类为ci所产生的期望损失,也即样本x上的‘条件风险’,.λij
将一个真实样本标记为cj 的样本错误分类为ci所产生的损失。

(3)贝叶斯判定准则:我们要寻找一个判定准则h:X—>Y来最小化总体风险,若h能最小化每个样本x的条件风险,则总体风险也将被最小化。

贝叶斯判定准则为:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即

此时,h*为贝叶斯最优分类器,与之对应的总体风险R(h*)成为贝叶斯风险。

若目标是最小化分类错误率,则误判损失可写为:

西瓜书笔记—7.贝叶斯分类器_第1张图片

欲使贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x)。(在现实任务中这通常难以获得),机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)。 大体来说,主要有两种策略:
”判别式模型“:给定X,可通过直接建模P(c|x)来预测c。
”生成式模型“:先对联合概率分布p(x,c)建模,然后再由此获得p(c|x)。
可看出决策树,神经网络,支持向量机都属于判别式范畴,而贝叶斯属于”生成式模型“。
对于”生成式模型“来说,贝叶斯定理:

cic

西瓜书笔记—7.贝叶斯分类器_第2张图片

P(c)是类”先验“概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为”似然“;

p(x)与类标记无关,因此估计p(c|x)的问题就转换成如何基于训练集D来估计先验P(c)和似然P(x|c)。

P(c)可以通过各类样本出现的概率来进行估计。对于类条件概率 P(x|c) 来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的概率来估计将会遇到严重的困难。

7.2极大似然估计

西瓜书笔记—7.贝叶斯分类器_第3张图片

7.3朴素贝叶斯分类器

西瓜书笔记—7.贝叶斯分类器_第4张图片

接着,

西瓜书笔记—7.贝叶斯分类器_第5张图片

同时,也要注意,

西瓜书笔记—7.贝叶斯分类器_第6张图片

最后,朴素贝叶斯分类器有多种使用方式:

若任务对预测速度要求较高,则给定训练集,可将涉及到的所有概率估计值先计算好存储起来,在进行预测时只需“查表”即可进行判别;

若任务数据更换频繁,可采用懒惰学习(lazy learning)方式,先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估计值;

若数据不断增加,则可在现有估值基础上,仅对新样本的属性所涉及的概率估值进行计数修正,实现增量学习。

7.4半朴素贝叶斯分类器(与朴素贝叶斯相比,半朴素 适当考虑一部分属性间的相互依赖信息

1.独依赖估计(One-Dependent Estimator,简称ODE)是半朴素贝叶斯分类器最常用的一种策略。



其中paipai为属性xixi所依赖的属性,称为xixi的父属性。

2.SPODE

假设所有属性都依赖于同一个属性,称为“超父”(super-parent),然后通过交叉验证等模型选择方法来确定超父属性。这个算法是每个属性值只与其他唯一 一个有依赖关系.

西瓜书笔记—7.贝叶斯分类器_第7张图片

其中,xi为超父属性。

3.TAN

西瓜书笔记—7.贝叶斯分类器_第8张图片

4.AODE

AODE是一种基于集成学习机制,更为强大的独依赖分类器,尝试将每个属性作为超父属性来构建SPODE,将具有足够训练数据支撑的SPODE集成起来作为最终结果。

西瓜书笔记—7.贝叶斯分类器_第9张图片

7.5贝叶斯网络(信念网)

c
i

贝叶斯网:借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表(Conditional Probability Table)来描述属性的联合概率分布。一个贝叶斯网B由结构G和参数Θ两部分构成,即B=<GΘ>

网络结构G: 一个有向无环图,其每一个结点对应于一个属性,若两个属性有直接依赖关系,则它们由一条边连接起来。

参数Θ: 描述属性间的直接依赖关系,假设属性xixi在G中的父节点集为πiπi,则Θ包含了每个属性的条件概率表

7.5.1结构

西瓜书笔记—7.贝叶斯分类器_第10张图片

贝叶斯网中三个变量之间的典型依赖关系如下:

西瓜书笔记—7.贝叶斯分类器_第11张图片

7.5.2学习

贝叶斯网学习的首要任务就是根据训练数据集找出结构最“恰当”的贝叶斯网。“评分搜索”是求解这一问题的常用办法:
   (1)定义一个评分函数用于评估贝叶斯网与训练数据的契合程度;

   (2)基于评分函数寻找结构最优的贝叶斯网

常用评分函数通常基于信息论准则,其将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型,其中编码的长度包括描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度。

对于贝叶斯网学习而言,模型就为一个贝叶斯网,每个贝叶斯网描述了一个在训练数据上的概率分布,其自由一套编码机制。因此,我们只需选择综合编码长度最短的贝叶斯网。这就是“最小描述长度”准则。

西瓜书笔记—7.贝叶斯分类器_第12张图片

7.5.3推断

通过已知变量观测值来推测待查询变量的过程称为“推断”,其中已知变量观测值称为“证据”。在现实应用中,贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)来完成。


吉布斯采样法(后续补充)

参考:
http://blog.csdn.net/u013058162/article/details/78499713?locationNum=10&fps=1

c通过已知变量观测值来推测待查询变量的过程称为“推断”,其中已知变量观测值称为“证据”。在现实应用中,贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)来完成。参考:http://blog.csdn.net/w417950004/article/details/77602710

chttp://blog.csdn.net/u013058162/article/details/78499713?locationNum=10&fps=1

你可能感兴趣的:(西瓜书笔记—7.贝叶斯分类器)