机器学习——贝叶斯分类器(西瓜书)

贝叶斯分类器

  • 一、贝叶斯决策论
  • 极大似然估计
  • 朴素贝叶斯分类器
  • 半朴素贝叶斯分类器
  • 贝叶斯网
  • EM算法

一、贝叶斯决策论

贝叶斯决策论(bayesian decision theory)是在概率框架下实施决策的基本方法。贝叶斯考虑如何基于这些概率和误判损失来选择最优的类别标记。

基于后验概率可以获得其期望损失,即样本x上的条件风险:
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R\left(c_{i} | \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} | \boldsymbol{x}\right) R(cix)=j=1NλijP(cjx)
最小化总体风险:
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) | \boldsymbol{x})] R(h)=Ex[R(h(x)x)]
最小化样本条件风险:
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ Y R ( c ∣ x ) h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x}) h(x)=cYargminR(cx)
此时, h ∗ h^{*} h被成为贝叶斯最优分类器。与之对应的是 R ( h ∗ ) R(h^{*}) R(h)总体风险,被称为最优条件风险。 1 − R ( h ∗ ) 1-R(h^{*}) 1R(h)反应了分类器所能够达到的最好性能。

极大似然估计

估计类条件概率的一种常用方法是先假定其某种确定的概率分布形式,再基于训练样本对概率分布进行的参数估计。

概率模型的训练过程就是参数估计过程,对于参数估计,统计学有两种不同的解决方案,频率派主义认为参数虽然未知,但是确实客观存在的固定值,可以通过似然函数等准则来确定参数值。贝叶斯学派则认为参数是未知的随机变量,其本身也是有分布的,因此可以假定参数服从一个先验分布,然后基于观测到的数据计算参数的后验分布。

最大似然估计(Maximum Likelihood Estimation,简称 MLE)

朴素贝叶斯分类器

由于类条件概率是所有属性的联合概率,难以从有限的训练样本中得到,因此朴素贝叶斯分类器采用了属性条件独立性假设。,对已知的类别,假设所有属性相互独立。
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c | \boldsymbol{x})=\frac{P(c) P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})} \prod_{i=1}^{d} P\left(x_{i} | c\right) P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)

h n b ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{n b}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P\left(x_{i} | c\right) hnb(x)=cYargmaxP(c)i=1dP(xic)
上述式子就是朴素贝叶斯分类器。

半朴素贝叶斯分类器

由于朴素贝叶斯分类器所采用的是属性条件独立性假设,但是现实当中,这一假设很难成立,因此就产生了半朴素贝叶斯分类器

独立依赖估计(one-Dependent Estimator,简称ODE)是半朴素贝叶斯分类器常用的策略。独依赖就是假设每个属性在类别之外最多依赖于一个其他属性。
P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c | \boldsymbol{x}) \propto P(c) \prod_{i=1}^{d} P\left(x_{i} | c, p a_{i}\right) P(cx)P(c)i=1dP(xic,pai)

NB(朴素贝叶斯)
SPODE(Super-Parent ODE)超父独立依赖估计
TAN(Tree Augmented Naive Bayes)

贝叶斯网

贝叶斯网(bayesian network)亦称信念网。借助无环图来刻画属性之间的依赖关系。
贝叶斯采用联合概率分布。

EM算法

对于训练样本所有属性中的某些属性未知的。即为观测到的变量称之为“隐变量”。

EM算法就是常用常用来估计参数隐变量的。
若参数已知,根据训练数据推断书最优隐变量的值(E步);若隐变量的值已知,则可以推断出参数进行极大似然估计(M步);

你可能感兴趣的:(算法,机器学习,python,人工智能,深度学习)