李航《统计学习方法》第4&9章 朴素贝叶斯分类器&EM算法

朴素贝叶斯(naive Bayes)定义

  • 基本假设
    输入x为n维向量,输出y取值在{c1,…,ck}K个值范围内,训练集样本个数N,假设样本独立同分布,且
    特征条件独立 。具体的:
    P(X=x|Y=ck)=P(X(1)=x(1),,X(n)=x(n)|Y=ck)=nj=1P(X(j)=x(j)|Y=ck)

由于这一假设,朴素贝叶斯的学习大为简化,但对分类性能有一定影响

  • 学习参数
    极大似然估计来学习先验概率分布 P(Y=ck) 以及条件概率分布 P(X=x|Y=ck)=P(X(1)=x(1),,X(n)=x(n)|Y=ck) 。具体的:
    P(Y=ck)=Ni=1I(yi=ck)N,k=1,2,,K
    假设第j个特征 x(j) 的可能取值为{a_{j1},…a_{jS_j}},其中l = 1,2,…, Sj
    P(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)Ni=1I(yi=ck),k=1,2,,K
  • 进行预测
    利用 贝叶斯定理 求后验概率
    P(Y=ck|X=x)=P(Y=ck)nj=1P(X(j)=x(j)|Y=ck)kP(Y=ck)nj=1P(X(j)=x(j)|Y=ck)

    另该 后验概率 最大的y就是我们需要的结果
    y=argmaxckP(Y=ck)nj=1P(X(j)=x(j)|Y=ck)
    i.e.经验风险最小化

贝叶斯估计 不等于 朴素贝叶斯

贝叶斯估计

用极大似然估计可能会导致求出的先验概率和条件概率取值为0,这时分类会产生偏差
解决方法是采取贝叶斯估计,贝叶斯估计中的先验概率和条件概率的计算中加入了一个 λ ,i.e.结构风险最小化,使得每个概率都不会等于0。
Pλ(Y=ck)=Ni=1I(yi=ck)+λN+Kλ,k=1,2,,K
Pλ(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)+λNi=1I(yi=ck)+Sjλ,k=1,2,,K
λ 取值为1成为拉普拉斯平滑

如果特征条件不独立,存在概率依赖关系,模型就变成了贝叶斯网络

贝叶斯网络

EM算法是一种求解贝叶斯网络的算法,将在第九章介绍

你可能感兴趣的:(读书笔记)