【Abee】吃掉西瓜——西瓜书学习笔记(六)

贝叶斯分类器

 

目录

【内容包含 第七章】

贝叶斯决策论(Bayes decision theory)

极大似然估计(Maximum Likelihood Estimation,MLE)

朴素贝叶斯分类器(naive Bayes classifier)

半朴素贝叶斯分类器

贝叶斯网

道德图(moral graph)

贝叶斯网学习

贝叶斯网推断

EM算法(Expectation-Maximization)


贝叶斯决策论(Bayes decision theory)

目标:最小化总体风险(基于代价的条件风险(conditional risk))

                                                                        R(c_{i}|x)=\sum_{j=1}^{N}\lambda _{ij}P(c_{j}|x)

                                                                         R(h)=E_{x}[R(h(x)|x)]

                                                                       h^{*}(x)=argmin_{c\in \gamma }R(c|x)

此时h*成为贝叶斯最优分类器(Bayes optimal classifier)

 目标:最小化分类错误率(是最小化总体风险的子类)

此时代价可写作

                                                                      \lambda _{ij}=\left\{ \begin{matrix} 0,if i =j\\ 1,otherwise \end{matrix}

由贝叶斯定理,后验概率正比于先验概率和样本x关于标记c的类条件概率的乘积,由大数定律,训练集包含足够的独立同分布样本时,先验概率可以用样本出现频率估计,类条件概率的估计比较困难。

 


极大似然估计(Maximum Likelihood Estimation,MLE)

对于参数估计(parameter estimation),频率主义学派(Frequentist)认为参数是未知、客观存在的固定值,贝叶斯学派(Bayesian)认为参数是未观察到的随机变量,本身也有分布。极大似然估计是频率主义学派的一个方法。

 对数似然为

                                                                     LL(\theta _{c})=log P(D_{c}|\theta _{c})

                                                                                  =\sum_{x\in C_{c}}log P(x|\theta _{c})

参数\theta _{c}的极大似然估计为\hat \theta _{c}

                                                                       \hat\theta_{c}=\begin{matrix} argmax\\ \theta_{c} \end{matrix}LL(\theta_{c})

 


朴素贝叶斯分类器(naive Bayes classifier)

采用属性条件独立性假设,朴素贝叶斯表达式

                                                               h_{nb}(x)=argmax_{c\in \gamma }P(c)\prod_{i=1}^{d}P(x_{i}|c)

P(c)可以用样本频率来估计,P(x_{i}|c)可以估计为标记为c的样本中在第i个属性上取值为xi的集合与标记为c的样本的比值,如果是连续属性的话可以考虑概率密度函数(书里整理了西瓜的案例,非常简单易懂)

 


半朴素贝叶斯分类器

和朴素贝叶斯的区别在于半朴素贝叶斯不采用属性独立假设,而是放宽了对属性的要求,比如假设每个属性最多依赖一个别的属性。

 可以认为所有属性都依赖同一个属性,然后交叉验证,选取出这个属性(Super-Parent ODE 方法)。也可以使用TAN(Tree Augmeted naive Bayes)将属性间的关系构建完全图,并构建最大带权生成树,保留强相关属性之间的依赖性。AODE是一种集成学习机制,将每个属性作为super-parent的SPODE的结果集成。

 


贝叶斯网

借助有向无环图(Directed Acyclic Graph,DAG)使用条件概率表(Conditional )描述属性的联合概率分布。

可以直接根据网的结构判断联合概率分布的表达式,每个属性与他的非后裔属性独立。

                                     P(x_{1},x_{2},x_{3},x_{4},x_{5})=P(x_{1})P(x_{2})P(x_{3}|x_{1})P(x_{4}|x_{1},x_{2})P(x_{5}|x_{2})

【Abee】吃掉西瓜——西瓜书学习笔记(六)_第1张图片 贝叶斯网

 


道德图(moral graph)

        1.将所有的V型结构的父节点相连

        2.将所有有向边无向化

道德图可以轻松得到各属性的条件独立关系

 


贝叶斯网学习

如果网络结构已知,只需计算各节点条件概率表即可,若网络结构未知,需要指定评分函数(score function)确定网络结构,选择综合编码长度最短的贝叶斯网,即 最小描述长度(Minimal Description Length,MDL)准则

                                                                    s(B|D) = f(\theta)|B|-LL(B|D)

以上公式第一项体现最短编码,第二项体现贝叶斯网的对数似然,当f(θ)取0时退化为极大似然估计。

 


贝叶斯网推断

贝叶斯网构建完成后可以进行属性查询,就是已知一些属性求解另一些属性(比如分类标记也可以作为一种属性)。理想情况下可以使用贝叶斯网的联合概率分布精确地计算后验概率,为了追求效率可以“近似推断”,使用吉布斯采样(Gibbs sampling)。

吉布斯采样算法首先使得证据变量不变(相当于已知变量不变),然后在未知变量随机一个初始值,在这个基础上在这个初始值上每次改变一个属性的取值(按照已知数据和条件概率,值未必真的改变了),进行T次采样,那么其中未知属性Q符合待求值q的有n个,后验概率近似等于n/T。

这件事情其实是在贝叶斯网所有变量联合状态空间与证据一致的子空间中进行 随机漫步(random walk),每一步仅依赖前一步的状态,是一个 马尔科夫链(Markov chain)。当t无穷大的时候马尔科夫链可以收敛于一个平稳分布。

 


EM算法(Expectation-Maximization)

当训练样本不完整时,可以使用em算法估计参数隐变量。

1.基于模型参数推断隐变量z的期望

2.基于已观测变量x和z对参数做极大似然估计

 


 

你可能感兴趣的:(python,机器学习)