李航 统计学习方法 第四章 朴素贝叶斯

李航 统计学习方法 第四章 朴素贝叶斯

基于贝叶斯定理和特征条件独立假设的分类方法.对于给定的训练数据集, 首先基于特征条件独立假设学习输入/输出的联合分布; 然后基于此模型, 对给定的输入x, 利用贝叶斯定理求出后验概率最大的输出y.

介绍朴素贝叶斯法, 包括朴素贝叶斯的学习和分类, 朴素贝叶斯法的参数估计算法.

基本方法

输入空间是n维向量的集合, 输出空间为类标记集合 Y = c 1 , c 2 , . . . , c K \mathcal{Y}={c_1, c_2,..., c_K} Y=c1,c2,...,cK, 输入为特征向量, 输出为类标记. X X X是定义在输入空间 X \mathcal{X} X上的随机向量, P ( X , Y ) P(X, Y) P(X,Y)是联合概率分布.

训练数据集由联合概率分布独立同分布产生.朴素贝叶斯法通过训练数据集学习联合概率分布, 也就是学习以西先验概率分布和条件概率分布. 先验概率分布 P ( Y = c k ) P(Y=c_k) P(Y=ck), 条件概率分布 P ( X = x ∣ Y = c k ) P(X=x|Y=c_k) P(X=xY=ck)从而可以学习出联合概率分布 P ( X , Y ) P(X, Y) P(X,Y).条件概率分布有指数级数量的参数, 对其估计不可行.

朴素贝叶斯对条件概率分布作了条件独立性的假设, 这是一个强假设.

朴素贝叶斯法实际上学习到生成数据的机制, 是生成模型.

后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中, 这等价于期望风险最小化. 假设选择0-1损失函数 L ( Y , f ( X ) ) = 1 o r 0 L(Y, f(X))=1 or 0 L(Y,f(X))=1or0期望风险函数为 R e x p ( f ) = E [ L ( Y , f ( X ) ) ] R_{exp}(f)=E[L(Y, f(X))] Rexp(f)=E[L(Y,f(X))], 该期望对联合分布 P ( X , Y ) P(X, Y) P(X,Y)取, 取条件期望 R e x p ( f ) = E x ∑ k = 1 K [ L ( c k , f ( X ) ) ] P ( c k ∣ X ) R_{exp}(f)=E_x \sum\limits^K_{k=1}[L(c_k, f(X))]P(c_k|X) Rexp(f)=Exk=1K[L(ck,f(X))]P(ckX)为了使期望风险最小化, 只需对 X = x X=x X=x逐个极小化, 由此得到: f ( x ) = arg ⁡ min ⁡ y ∈ Y ∑ k = 1 K L ( c k , y ) P ( c k ∣ X = x ) f(x)=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits^K_{k=1}L(c_k, y)P(c_k|X=x) f(x)=argyYmink=1KL(ck,y)P(ckX=x)

根据期望封信最小化原则也就得到了后验概率最大化准则.

f ( x ) = arg ⁡ max ⁡ c k P ( c k ∣ X = x ) f(x)=\arg\max\limits_{c_k}P(c_k|X=x) f(x)=argckmaxP(ckX=x)

朴素贝叶斯法的参数估计

极大似然估计

习题

  1. 用极大似然估计法推出朴素贝叶斯法中的概率估计公式
  2. 用贝叶斯法推出朴素贝叶斯法中的概率估计公式

你可能感兴趣的:(学习,概率论,机器学习)