基于贝叶斯定理和特征条件独立假设的分类方法.对于给定的训练数据集, 首先基于特征条件独立假设学习输入/输出的联合分布; 然后基于此模型, 对给定的输入x, 利用贝叶斯定理求出后验概率最大的输出y.
介绍朴素贝叶斯法, 包括朴素贝叶斯的学习和分类, 朴素贝叶斯法的参数估计算法.
输入空间是n维向量的集合, 输出空间为类标记集合 Y = c 1 , c 2 , . . . , c K \mathcal{Y}={c_1, c_2,..., c_K} Y=c1,c2,...,cK, 输入为特征向量, 输出为类标记. X X X是定义在输入空间 X \mathcal{X} X上的随机向量, P ( X , Y ) P(X, Y) P(X,Y)是联合概率分布.
训练数据集由联合概率分布独立同分布产生.朴素贝叶斯法通过训练数据集学习联合概率分布, 也就是学习以西先验概率分布和条件概率分布. 先验概率分布 P ( Y = c k ) P(Y=c_k) P(Y=ck), 条件概率分布 P ( X = x ∣ Y = c k ) P(X=x|Y=c_k) P(X=x∣Y=ck)从而可以学习出联合概率分布 P ( X , Y ) P(X, Y) P(X,Y).条件概率分布有指数级数量的参数, 对其估计不可行.
朴素贝叶斯对条件概率分布作了条件独立性的假设, 这是一个强假设.
朴素贝叶斯法实际上学习到生成数据的机制, 是生成模型.
朴素贝叶斯法将实例分到后验概率最大的类中, 这等价于期望风险最小化. 假设选择0-1损失函数 L ( Y , f ( X ) ) = 1 o r 0 L(Y, f(X))=1 or 0 L(Y,f(X))=1or0期望风险函数为 R e x p ( f ) = E [ L ( Y , f ( X ) ) ] R_{exp}(f)=E[L(Y, f(X))] Rexp(f)=E[L(Y,f(X))], 该期望对联合分布 P ( X , Y ) P(X, Y) P(X,Y)取, 取条件期望 R e x p ( f ) = E x ∑ k = 1 K [ L ( c k , f ( X ) ) ] P ( c k ∣ X ) R_{exp}(f)=E_x \sum\limits^K_{k=1}[L(c_k, f(X))]P(c_k|X) Rexp(f)=Exk=1∑K[L(ck,f(X))]P(ck∣X)为了使期望风险最小化, 只需对 X = x X=x X=x逐个极小化, 由此得到: f ( x ) = arg min y ∈ Y ∑ k = 1 K L ( c k , y ) P ( c k ∣ X = x ) f(x)=\arg\min\limits_{y\in\mathcal{Y}}\sum\limits^K_{k=1}L(c_k, y)P(c_k|X=x) f(x)=argy∈Ymink=1∑KL(ck,y)P(ck∣X=x)
根据期望封信最小化原则也就得到了后验概率最大化准则.
f ( x ) = arg max c k P ( c k ∣ X = x ) f(x)=\arg\max\limits_{c_k}P(c_k|X=x) f(x)=argckmaxP(ck∣X=x)
极大似然估计