第四章 朴素贝叶斯
输入空间 X⊆Rn X ⊆ R n 为 n n 维向量集合,输出空间为类别标记集合 Y={c1,c2,⋯,cK} Y = { c 1 , c 2 , ⋯ , c K }
训练集 T={(x1,y1),(x2,y2),⋯,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) }
算法思想
首先学习先验概率分布:
P(Y=ck),k=1,2,⋯,K P ( Y = c k ) , k = 1 , 2 , ⋯ , K
然后学习条件概率分布:
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck),k=1,2,⋯,K P ( X = x | Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯ , X ( n ) = x ( n ) | Y = c k ) , k = 1 , 2 , ⋯ , K
朴素贝叶斯对该条件概率做了条件独立性假设,正是由于该假设得名
P(X=x|Y=cK)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck)=∏j=1nP(X(j)=x(j)|Y=ck)(1)(2) (1) P ( X = x | Y = c K ) = P ( X ( 1 ) = x ( 1 ) , ⋯ , X ( n ) = x ( n ) | Y = c k ) (2) = ∏ j = 1 n P ( X ( j ) = x ( j ) | Y = c k )
最后计算后验概率:
P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)=P(Y=ck)∏jP(X(j)=x(j)|Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)|Y=ck)k=1,2,⋯,K(3)(4) (3) P ( Y = c k | X = x ) = P ( X = x | Y = c k ) P ( Y = c k ) ∑ k P ( X = x | Y = c k ) P ( Y = c k ) (4) = P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) | Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) | Y = c k ) k = 1 , 2 , ⋯ , K
于是朴素贝叶斯分类器可以表示为:
y=f(x)=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)|Y=ck) y = f ( x ) = a r g max c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) | Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) | Y = c k )
由于对于所有的
ck c k 上面式子的分母相同,因此:
y=argmaxckP(Y=ck)∏jP(X(j)=x(j)|Y=ck) y = a r g max c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) | Y = c k )
后验概率最大化等价于期望风险最小化,因此最后选择概率最大的类别
参数估计
在朴素贝叶斯法中,学习意味着估计 P(Y=ck) P ( Y = c k ) 和 P(X(j)=x(j)|Y=ck) P ( X ( j ) = x ( j ) | Y = c k )
可以采用极大似然估计法去估计相应的概率,先验概率 P(Y=ck) P ( Y = c k ) 的估计为:
P(Y=ck)=∑Ni=1I(yi=ck)Nk=1,2,⋯,K P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N k = 1 , 2 , ⋯ , K
设第
j j 个特征
x(j) x ( j ) 可能 取值的集合为
{aj1,aj2,⋯,ajSj} { a j 1 , a j 2 , ⋯ , a j S j } ,条件概率
P(X(j)=ajl|Y=ck) P ( X ( j ) = a j l | Y = c k ) 的极大似然估计为:
P(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)∑Ni=1I(yi=ck)j=1,2,⋯,n;l=1,2,⋯,Sj;k=1,2,⋯,K(5)(6) (5) P ( X ( j ) = a j l | Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) (6) j = 1 , 2 , ⋯ , n ; l = 1 , 2 , ⋯ , S j ; k = 1 , 2 , ⋯ , K
式中
x(j)i x i ( j ) 是第
i i 个样本的第
j j 个特征值;
ajl a j l 是第
j j 个特征的可能的第
l l 个取值,
I I 为指示函数