西瓜书笔记03:贝叶斯分类

贝叶斯分类

@[后验概率|最大似然估计|贝叶斯分类|吉布斯采样]

贝叶斯决策论

贝叶斯决策考虑如何基于概率和误判损失来选择最优的类别标记。

贝叶斯判定准则:最小化总体风险,只需在每个样本上选择使条件风险R(c|x)最小的类别标记,即 h(x)=argminR(c|x) h ∗ ( x ) = a r g m i n R ( c | x ) ,R(c|x)为样本x分类为c的期望损失。

R(ci|x)=j=1NλijP(cj|x) R ( c i | x ) = ∑ j = 1 N λ i j P ( c j | x )

λij={0,1,i=1otherwise λ i j = { 0 , i = 1 1 , o t h e r w i s e ,则 R(c|x)=1P(c|x) R ( c | x ) = 1 − P ( c | x ) 。贝叶斯最优分类器为 h(x)=argmaxP(c|x) h ∗ ( x ) = a r g m a x P ( c | x )

判别式模型:给点x,直接建模P(c|x)。如决策树、BP神经网络、支持向量基。
生成式模型:先建模P(x,c),再得到P(c|x),贝叶斯公式如下。

P(c|x)=P(x,c)P(x)=P(c)P(x|c)P(x) P ( c | x ) = P ( x , c ) P ( x ) = P ( c ) P ( x | c ) P ( x )

其中,P(x|c)是似然,样本x相对于类标记c的类条件概率。

极大似然估计

参数估计有两种方案:
- 频率主义学派:参数未知,但是客观存在的固定值,所以优化似然函数确定参数值。
- 贝叶斯学派:参数是未观察到的随机变量。
极大似然估计源于频率主义学派。

假设样本是独立同分布, Dc D c 是训练集D中c类样本集合,

P(Dc|θc)=P(x|θc) P ( D c | θ c ) = ∏ P ( x | θ c )

考虑到连乘下溢,数太小超出double范围,通常最大化对数似然求出 θ θ
maxLL(θc)=logP(Dc|θc)=xDlogP(x|θc) m a x L L ( θ c ) = l o g P ( D c | θ c ) = ∑ x ∈ D l o g P ( x | θ c )

朴素贝叶斯分类器

  • 朴素贝叶斯分类器假设所有属性相互独立,类先验概率 P(x|c) P ( x | c ) 通常用“拉普拉斯修正”。
  • 半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖。常用“独依赖”,假设每个属性在类别外最多依赖一个其他属性。
    P(c|x)P(c)i=1dP(xi|c,pai) P ( c | x ) ∝ P ( c ) ∏ i = 1 d P ( x i | c , p a i )
  • 贝叶斯网借助有向无环图来刻画属性间的依赖关系,使用条件概率表来描述属性的联合概率分布。贝叶斯网近似推断常采用吉布斯采样,这是一种随机采样方法。
  • 吉布斯采样
    Q是待查询变量,如Q={好瓜,甜度},证据变量E={色泽,敲声,根蒂}取值e={青绿,浊响,蜷缩},查询目标是q={是,高}。吉布斯采样先随机产生一个与证据E=e一致的样本为初始点,然后对非证据变量采样,采样概率根据贝叶斯网获得。T次采样得到的与q一致的样本有 nq n q 个,则后验概率为
    P(Q=q|E=e)nqT P ( Q = q | E = e ) ≃ n q T

EM算法

EM算法是估计参数隐变量的利器。
E步:若参数 θ θ 已知,根据训练数据推断出最优隐变量Z值
M步:若Z值已知,则对参数 θ θ 极大似然估计

优缺点

优点:速度快,高偏离/低方差的分类器适合小训练集。
缺点:朴素贝叶斯属性独立的假设限制太多,贝叶斯网络很难确定拓扑依赖结构。

你可能感兴趣的:(西瓜书笔记03:贝叶斯分类)