《西瓜书》第七章贝叶斯分类器

章节思路

章节思路写在文章开头，是因为每一节之间都有很强的联系，带着每一节的问题去学比较容易接受知识点

7.1贝叶斯决策论

—— 从贝叶斯决策出发，需要求出 P(c|x) 来得到贝叶斯最优分类器

—— 但是，P(c|x)又需要求出P(x|c)，因为其涉及属性联合概率，难以用频率来估计

7.2极大似然法

—— 直接把 P(x|c) 当成确定的概率分布形式，利用极大似然估计求解分布参数来求解 P(x|c)

—— 但是，准确度依赖于分布猜测

7.3朴素贝叶斯分类器——7.5贝叶斯网

—— 通过假设样本属性条件的关系再进行求解 P(x|c)

7.6EM算法

—— 假设样本有未观测到的属性，用EM算法可以求解极大似然估计（7.3）

7.1贝叶斯决策论

贝叶斯决策论：基于相关概率和误判损失来选择最优的类别标记

以多分类任务为例：

误判损失：将样本 x 的真实标记 c 分类错产生的损失

对于每个样本我们都希望预判损失小，即选择让其损失最小的类别标记

贝叶斯判定准则

当其误判损失是0/1损失函数，则可更新上式

贝叶斯最优分类器

7.2极大似然估计

P(x|c) 难以求出，我们就将其假定为某种确定的概率分布形式，再基于训练样本对概率分布进行参数估计

参数估计的两种方案：

频率学派：“客观性”

认为参数虽然未知，但却是客观存在的确定值，可通过优化似然函数等准则来确定参数值；

贝叶斯学派：主观性

认为参数是未观察到的随机变量，其本身也可以有分布，因此可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布

极大似然估计（MLE）——频率学派

极大似然估计其实就是在参数的取值中，找到能使数据出现“可能性”最大的值。

对数似然

特点：准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数

可以使用sklearn进行测试，下面例子正是在手写数字的方面，多项式分布更为合适

结果分别为0.8069281956050759、0.8241736304549674、0.8703497369235531

代码实现

7.3朴素贝叶斯分类器

属性条件独立性假设：每个属性独立对分类结果发生影响

我们采用“属性条件独立性假设”来缓解求属性联合概率 P(x|c) 的难度

朴素贝叶斯分类器

计算概率:

离散属性（频率估计）

连续属性（概率密度函数）

进行”平滑“处理（拉普拉斯修正）——避免未出现属性值被抹去

特点：

属性条件独立性假设现实中往往很难实现

7.4半朴素贝叶斯分类器

独依赖假设：每个属性在类别外最多仅依赖一个其他属性

属性条件独立性假设往往很难实现，我们对其进行一定程度放松，P(x|c) 变为 P(x|c,pa)

计算概率：

P(x|c,pa) 需要确定每个属性的父属性，不同做法产生不同的独依赖分类器

SPODE：假设所有属性都依赖于同一个属性（超父）

TAN：最大带权生成树算法基础上将依赖关系构建为树形结构，保留强相关属性依赖性

AODE：每个属性构建SPODE并集成，无需模型选择

特点：

若训练数据非常充分，泛化性能能有可能提升；但在有限样本条件下，则又会陷入估计高阶联合概率的泥沼

7.5贝叶斯网

贝叶斯网B:结构G（有向无环图）+ 参数θ（条件概率表）

贝叶斯网（信念网）：它借助有向图来刻画属性之间的依赖关系，并使用条件概率表来描述属性的联合概率分布

西瓜问题的一种贝叶斯网结构以及属 "根蒂的条件概率表

其中结构G有以下多中依赖关系（包括同父、V型、顺序结构），为了直观地分析有向图变量间条件独立性，使用“有向分离”转换为道德图

道德图

学习：求解结构G和参数θ

定义评分函数评估贝叶斯网与训练数据的契合程度，寻找结构最优的贝叶斯网B

评估

评分函数：基于信息论准则，即找到一个能以最短编码长度描述训练数据的模型（包括描述网络和编码数据）

评分函数（越小越好）

第一项表示贝叶斯网B所需编码位数；第二项表示贝叶斯网B所在概率分布的描述好坏

寻找

1（关键）用贪心法和约束网络结构可以有限时间搜索结构G的最优近似解，第一项就为固定值

2 最小化评分函数即等价于对参数θ的极大似然估计，可以通过经验估计求解

推断：通过已知变量观测值推断待查询变量

直接根据贝叶斯网定义的联合概率分布来精确计算后验概率是NP难问题，所以我们借助“近似推断”，在有限时间内求得近似解，常用吉布斯采样完成

吉布斯采样：

吉布斯采样是随机采样方法，其样本有效是因为使用马尔可夫链获取样本

马尔科夫链最终收敛至平稳分布就是我们采样的目标分布P(Q=q|E=e)

算法：

吉布斯采样算法

算法大致有以下步骤

1 对Q所有变量取值q进行随机赋值

2 迭代T次

2.1 除了所求的变量取值 q1，使用其他所有变量取值，通过贝叶斯网，更新 q1

2.2 若更新 q1 后的Q=符合我们预测，np 加 1

3 得到 np 和 T，计算 P(Q=q|E=e)

特点：

收敛速度慢、出现极端概率会错误估计

7.6EM算法

有些样本的属性变量是未观测到，即存在“隐变量”。对于隐变量，我们进行模型（7.2）参数估计时，可以用梯度下降等优化算法求解，但EM算法更为优秀

梯度下降等优化算法

求和的项数将随着隐变量数目以指数级上升，给梯度计算带来麻烦，所以不建议用

EM算法

是常用的估计参数隐变量的利器，它是一种迭代式的方法，分为重复两个步骤直至收敛

1 期望（E步）：用当前估计的参数值求隐变量的期望值并更新

2 最大化（M步）：基于更新后的值，对参数极大似然估计

其中在高斯混合聚类（9.4.3）中采用EM算法更新模型参数

k均值算法（9.4.1）是EM算法思想的体现，E步骤为聚类过程，M步骤为更新类簇中心

EM算法的推导和代码实现可以参考这里

《西瓜书》第七章贝叶斯分类器

章节思路

7.1贝叶斯决策论

7.2极大似然法

7.3朴素贝叶斯分类器——7.5贝叶斯网

7.6EM算法

7.1贝叶斯决策论

误判损失：将样本 x 的真实标记 c 分类错产生的损失

相关概率：联合概率分布 P(x,c)

7.2极大似然估计

极大似然估计（MLE）——频率学派

7.3朴素贝叶斯分类器

属性条件独立性假设：每个属性独立对分类结果发生影响

计算概率:

特点：

7.4半朴素贝叶斯分类器

独依赖假设：每个属性在类别外最多仅依赖一个其他属性

计算概率：

特点：

7.5贝叶斯网

贝叶斯网B:结构G（有向无环图）+ 参数θ（条件概率表）

学习：求解结构G和参数θ

评估

寻找

推断：通过已知变量观测值推断待查询变量

吉布斯采样：

算法：

特点：

7.6EM算法

你可能感兴趣的:(《西瓜书》第七章贝叶斯分类器)

《西瓜书》第七章 贝叶斯分类器

章节思路

7.1贝叶斯决策论

7.2极大似然法

7.3朴素贝叶斯分类器——7.5贝叶斯网

7.6EM算法

7.1贝叶斯决策论

误判损失：将样本 x 的真实标记 c 分类错产生的损失

相关概率：联合概率分布 P(x,c)

7.2极大似然估计

极大似然估计（MLE）——频率学派

7.3朴素贝叶斯分类器

属性条件独立性假设：每个属性独立对分类结果发生影响

计算概率:

特点：

7.4半朴素贝叶斯分类器

独依赖假设：每个属性在类别外最多仅依赖一个其他属性

计算概率：

特点：

7.5贝叶斯网

贝叶斯网B:结构G（有向无环图）+ 参数θ（条件概率表）

学习：求解结构G和参数θ

评估

寻找

推断：通过已知变量观测值推断待查询变量

吉布斯采样：

算法：

特点：

7.6EM算法

你可能感兴趣的:(《西瓜书》第七章 贝叶斯分类器)

《西瓜书》第七章贝叶斯分类器

你可能感兴趣的:(《西瓜书》第七章贝叶斯分类器)