最大熵模型(三)

最大熵模型-极大似然估计

最大熵模型(一)讲诉了最大熵原理以及最大熵模型定义,最大熵模型(二)讲诉了最大熵模型的学习及其公式推导,本篇讲诉最大熵模型的极大似然估计。

最大熵模型

Pw(y|x)=1Zwexp(i=1nwifi(x,y))) P w ( y | x ) = 1 Z w e x p ( ∑ i = 1 n w i f i ( x , y ) ) )

其中:
Zw(x)=yexp(i=1nwifi(x,y)) Z w ( x ) = ∑ y e x p ( ∑ i = 1 n w i f i ( x , y ) )

极大似然估计

对于给定数据集 T={(x1,y1),(x2,y2),,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋅ ⋅ ⋅ , ( x N , y N ) } ,其中 x x 的可能取值记为 X={v1,v2,,vm} X = { v 1 , v 2 , ⋅ ⋅ ⋅ , v m } y y 的可能取值记为 Y={γ1,γ2,,γn} Y = { γ 1 , γ 2 , ⋅ ⋅ ⋅ , γ n } 。用 C(X=vi,Y=γj) C ( X = v i , Y = γ j ) 表示样本 (vi,γj) ( v i , γ j ) 在数据集中出现的次数。

采用极大思然估计模型参数,似然函数为:

L(y1,y2,,yN|x1,x2,,xN)=i=1Np(xi|yi)=X,Yp(Y=γj|X=vi)C(X=vi,Y=γj) L ( y 1 , y 2 , ⋅ ⋅ ⋅ , y N | x 1 , x 2 , ⋅ ⋅ ⋅ , x N ) = ∏ i = 1 N p ( x i | y i ) = ∏ X , Y p ( Y = γ j | X = v i ) C ( X = v i , Y = γ j )

两边同时开N次方,得:
L(y1,y2,,yN|x1,x2,,xN)1N=X,Yp(Y=γi|x=vj)C(X=vi,Y=γj)N=X,Yp(Y=γj|X=vi)p˜(X=vi,Y=γj) L ( y 1 , y 2 , ⋅ ⋅ ⋅ , y N | x 1 , x 2 , ⋅ ⋅ ⋅ , x N ) 1 N = ∏ X , Y p ( Y = γ i | x = v j ) C ( X = v i , Y = γ j ) N = ∏ X , Y p ( Y = γ j | X = v i ) p ~ ( X = v i , Y = γ j )

p˜(X=vi,Y=γj) p ~ ( X = v i , Y = γ j ) 表示数据集的经验概率分布。
对数似然为:
Lp˜(Pw)=NlogX,Yp(Y=γj|X=vi)p˜(X=vi,Y=γj)=NX,Yp˜(X=vi,Y=γj)logp(Y=γj|X=vi) L p ~ ( P w ) = N l o g ∏ X , Y p ( Y = γ j | X = v i ) p ~ ( X = v i , Y = γ j ) = N ∑ X , Y p ~ ( X = v i , Y = γ j ) l o g p ( Y = γ j | X = v i )

Lp˜(Pw)X,Yp˜(X=vi,Y=γj)logp(Y=γj|X=vi) L p ~ ( P w ) ∝ ∑ X , Y p ~ ( X = v i , Y = γ j ) l o g p ( Y = γ j | X = v i )

简记为:
Lp˜(Pw)=x,yp˜(x,y)logp(y|x) L p ~ ( P w ) = ∑ x , y p ~ ( x , y ) l o g p ( y | x )

当条件概率是最大熵模型时,有:
Lp˜(Pw)=x,yp˜(x,y)(i=1nwifi(x,y)logZw(x))=x,yp˜(x,y)i=1nwifi(x,y)xp˜(x,y)logZw(x) L p ~ ( P w ) = ∑ x , y p ~ ( x , y ) ( ∑ i = 1 n w i f i ( x , y ) − l o g Z w ( x ) ) = ∑ x , y p ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x p ~ ( x , y ) l o g Z w ( x )

最大熵模型的对偶函数:

L(Pw,w)=H(pw)+i=1nwi(Ep˜(fi)Epw(fi))=x,yp˜(x)pw(y|x)logpw(y|x)+i=1nwi(x,yp˜(x,y)fi(x,y)x,yp˜(x)pw(y|x)fi(x,y))=x,yp˜(x)pw(y|x)(i=1nwifi(x,y)logZw(x))+x,yp˜(x,y)i=1nwifi(x,y)x,yp˜(x)pw(y|x)i=1nwifi(x,y)=x,yp˜(x,y)i=1nwifi(x,y)x,yp˜(x,y)pw(y|x)logZw(x)=x,yp˜(x,y)i=1nwifi(x,y)xp˜(x,y)logZw(x) L ( P w , w ) = − H ( p w ) + ∑ i = 1 n w i ( E p ~ ( f i ) − E p w ( f i ) ) = ∑ x , y p ~ ( x ) p w ( y | x ) l o g p w ( y | x ) + ∑ i = 1 n w i ( ∑ x , y p ~ ( x , y ) f i ( x , y ) − ∑ x , y p ~ ( x ) p w ( y | x ) f i ( x , y ) ) = ∑ x , y p ~ ( x ) p w ( y | x ) ( ∑ i = 1 n w i f i ( x , y ) − l o g Z w ( x ) ) + ∑ x , y p ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y p ~ ( x ) p w ( y | x ) ∑ i = 1 n w i f i ( x , y ) = ∑ x , y p ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y p ~ ( x , y ) p w ( y | x ) l o g Z w ( x ) = ∑ x , y p ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x p ~ ( x , y ) l o g Z w ( x )

因此有:

Lp˜(Pw)=L(Pw,w) L p ~ ( P w ) = L ( P w , w )

即最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计。

参考文献

  1. 李航《统计学习方法》
  2. 陈希孺《概率论与数理统计》

你可能感兴趣的:(机器学习)