I ( p i ) = − l o g ( p i ) I(p_i)=-log(p_i) I(pi)=−log(pi)
H ( X ) = − ∑ i = 1 n p ( x i ) l o g ( p ( x i ) ) = − ∑ x p ( x ) l o g ( p ( x ) ) H(X)=-\sum\limits_{i=1}^np(x_i)log(p(x_i))=-\sum_xp(x)log(p(x)) H(X)=−i=1∑np(xi)log(p(xi))=−x∑p(x)log(p(x))
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum\limits_{x,y}p(x,y)logp(x,y) H(X,Y)=−x,y∑p(x,y)logp(x,y)
H ( Y ∣ X ) = − ∑ x , y p ( x , y ) l o g p ( y ∣ x ) H(Y|X)=-\sum\limits_{x,y}p(x,y)logp(y|x) H(Y∣X)=−x,y∑p(x,y)logp(y∣x)
H ( p , q ) = − ∑ x p ( x ) l o g q ( x ) H(p,q)=-\sum_xp(x)logq(x) H(p,q)=−x∑p(x)logq(x)
D K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D_{KL}(p||q)=H(p,q)-H(p) DKL(p∣∣q)=H(p,q)−H(p)
相对熵=某个策略的交叉熵-信息熵
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
I ( X ; Y ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X;Y)=\sum\limits_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
模型输入
从人工标注的训练数据中抽取的训练样本集 T = { ( x 1 , y 1 ) , ⋯   , ( x n , y n ) } T=\{(x_1,y_1),\cdots,(x_n,y_n)\} T={(x1,y1),⋯,(xn,yn)},其中 ( x i , y i ) (x_i,y_i) (xi,yi)表示语料库中出现 y i y_i yi时其上下文信息为 x i x_i xi
经验分布:
所谓经验概率分布是指通过在训练数据集T上进行统计得到的分布用 p ~ \tilde{p} p~表示
p ~ ( x , y ) = c o u n t ( x , y ) N \tilde{p}(x,y)=\frac{count(x,y)}{N} p~(x,y)=Ncount(x,y),其中 c o u n t ( x , y ) count(x,y) count(x,y)是 ( x , y ) (x,y) (x,y)在语料中出现的次数,N为总词数
数学推导
特征 f f f是指x与y之间存在某种特定关系,用二值函数表示
f i ( x , y ) { 1 , 如 果 x , y 满 足 某 种 条 件 0 , 否 则 f_i{(x,y)}\begin{cases}1 ,如果x,y满足某种条件\\ 0 ,否则\end{cases} fi(x,y){1 ,如果x,y满足某种条件0 ,否则
特征函数关于经验分布 P ~ ( X , Y ) \tilde{P}(X,Y) P~(X,Y)的期望
E p ~ ( f ) = ∑ x , y p ~ ( x , y ) f ( x , y ) E_{\tilde{p}}(f)=\sum_{x,y}\tilde p(x,y)f(x,y) Ep~(f)=∑x,yp~(x,y)f(x,y)
特征函数关于模型 P ( Y ∣ X ) P(Y|X) P(Y∣X)与经验分布 P ~ ( X ) \tilde{P}(X) P~(X)的期望值
E p ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_p(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y) Ep(f)=∑x,yP~(x)P(y∣x)f(x,y)
定义最大熵模型
选择一个最好的分类模型,对于任意给定的输入 x ∈ X x\in X x∈X,可以使概率 p ( y ∣ x ) p(y|x) p(y∣x)输出 y ∈ Y y \in Y y∈Y
假设满足所有约束条件的模型集合为: C = { P ∈ D ∣ E p ( f i ) = E P ~ ( f i ) } C=\{P\in D|E_p(f_i)=E_{\tilde{P}}(f_i)\} C={P∈D∣Ep(fi)=EP~(fi)}
定义在谈条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)上的条件熵为: H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) H(P)=-\sum\limits_{x,y}\tilde{P}(x)P(y|x)logP(y|x) H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
最大熵模型的学习
熵模型的学习等价约束条件
max p ∈ C H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) \max_{p\in C}H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) p∈CmaxH(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)
约束条件为:
E P ( f i ) = E P ~ ( f i ) , i = 1 , 2 , ⋯   , n E_P(f_i)=E_{\tilde{P}}(f_i),i=1,2,\cdots,n EP(fi)=EP~(fi),i=1,2,⋯,n
∑ y P ( y ∣ x ) = 1 \sum_yP(y|x)=1 y∑P(y∣x)=1
引入拉格朗日乘子
L ( P , w ) = − H ( P ) + w 0 [ 1 − ∑ y P ( y ∣ x ) ] + ∑ i = 1 n w i ( E P ~ ( f i ) − E P ( f i ) ) L(P,w)=-H(P)+w_0\big[ 1-\sum_yP(y|x)\big]+\sum_{i=1}^nw_i(E_{\tilde{P}}(f_i)-E_P(f_i)) L(P,w)=−H(P)+w0[1−y∑P(y∣x)]+i=1∑nwi(EP~(fi)−EP(fi))
= ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) + w 0 [ 1 − ∑ y P ( y ∣ x ) ] =\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)+w_0\big[1-\sum_yP(y|x)\big] =x,y∑P~(x)P(y∣x)logP(y∣x)+w0[1−y∑P(y∣x)]
+ ∑ i = 1 n w i [ ∑ x , y P ~ ( x , y ) f i ( x , y ) − ∑ x , y P ~ ( x ) P ( y ∣ x ) f i ( x , y ) ] +\sum_{i=1}^nw_i\big[\sum_{x,y}\tilde{P}(x,y)f_i(x,y) -\sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)\big] +i=1∑nwi[x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)P(y∣x)fi(x,y)]
最优化问题
min p ∈ C max w L ( P , w ) \min_{p \in C}\max_wL(P,w) p∈CminwmaxL(P,w)
对偶问题为
max w min P ∈ C L ( P , w ) \max_w\min_{P\in C}L(P,w) wmaxP∈CminL(P,w)
先求极小值得到
P w ( y ∣ x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}exp\big(\sum_{i=1}^nw_if_i(x,y)\big) Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
Z w ( x ) = ∑ y e x p [ ∑ i = 1 n w i f i ( x , y ) ] Z_w(x)=\sum_yexp\big[\sum_{i=1}^nw_if_i(x,y)\big] Zw(x)=y∑exp[i=1∑nwifi(x,y)]
求极大值
表现为求以下方法的极大值
ψ ( w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) + ∑ x P ~ ( x ) l o g Z w ( x ) \psi(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)+\sum_x\tilde{P}(x)logZ_w(x) ψ(w)=x,y∑P~(x,y)i=1∑nwifi(x,y)+x∑P~(x)logZw(x)
极大化似然估计法求解
待求解的概率模型 P ( Y ∣ X ) 的 似 然 函 数 为 P(Y|X)的似然函数为 P(Y∣X)的似然函数为
L P ~ ( P w ) = l o g ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) l o g P ( y ∣ x ) L_{\tilde{P}}(P_w)=log\prod_{x,y}P(y|x)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y)logP(y|x) LP~(Pw)=logx,y∏P(y∣x)P~(x,y)=x,y∑P~(x,y)logP(y∣x)
将 P w ( y ∣ x ) P_w(y|x) Pw(y∣x)代入可以得到
L P ~ ( P w ) = ∑ x , y l o g P ( y ∣ x ) L_{\tilde{P}}(P_w)=\sum_{x,y}logP(y|x) LP~(Pw)=x,y∑logP(y∣x)
= ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x) =x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)
特征提取问题
最大熵的输出:
P ( y ∣ x , θ ) = e x p ( θ ⋅ f ( x , y ) ∑ y e x p ( θ ⋅ f ( x , y ) P(y|x,\theta)=\frac{exp(\theta\cdot f(x,y)}{\sum_yexp(\theta\cdot f(x,y)} P(y∣x,θ)=∑yexp(θ⋅f(x,y)exp(θ⋅f(x,y)
如果限定y为二元变量,可以把最大熵模型转换为Logistic回归。我们定义特征函数
f ( x , y ) = { g ( x ) y = y 1 0 y = y 0 f(x,y)=\left\{ \begin{array}{rcl} g(x) & & y= y_1 \\ 0 & & y=y_0 \\ \end{array} \right. f(x,y)={g(x)0y=y1y=y0
改进最大熵模型
P ( y 1 ∣ x , θ ) = e x p ( θ ⋅ g ( x ) ) 1 + e x p ( θ ⋅ g ( x ) ) P(y_1|x,\theta)=\frac{exp(\theta \cdot g(x))}{1+exp(\theta \cdot g(x))} P(y1∣x,θ)=1+exp(θ⋅g(x))exp(θ⋅g(x))
同理:
P ( y 0 ∣ x , θ ) = 1 1 + e x p ( θ ⋅ g ( x ) ) P(y_0|x,\theta)=\frac{1}{1+exp(\theta \cdot g(x))} P(y0∣x,θ)=1+exp(θ⋅g(x))1
1.目标: P ( Y ∣ X ) P(Y|X) P(Y∣X)
2.一个特征函数: f ( x ) f(x) f(x)
3.两个期望相同:以 P ^ ( x , y ) \hat P(x,y) P^(x,y)与以 P ^ ( x ) P ( y ∣ x ) \hat P(x)P(y|x) P^(x)P(y∣x)为概率的期望相同
4.一个约束: ∫ y P ( y ∣ x ) = 1 \int _y P(y|x)=1 ∫yP(y∣x)=1
主要用来进行参数的估计
K-means ->高斯混合模型->EM方法
最大似然方式(ML)->下边界(Q函数)->EM算法
可观测变量 Y = { y 1 , y 2 , y 3 , ⋯   , y n } Y=\{y_1,y_2,y_3,\cdots,y_n\} Y={y1,y2,y3,⋯,yn}
不可观测变量 Z = { z 1 , z 2 , z 3 , ⋯   , z n } Z=\{z_1,z_2,z_3,\cdots,z_n\} Z={z1,z2,z3,⋯,zn}
p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , δ k ) p(x)=\sum_{k=1}^K\pi_kN(x|\mu_k,\delta_k) p(x)=k=1∑KπkN(x∣μk,δk)
引入一个新的K维随机变量 z z z。 z k ( 1 ≤ k ≤ K ) z_k(1\leq k \leq K) zk(1≤k≤K)只能取0或1两个值。 z k = 1 z_k=1 zk=1表示第 k k k类被选中的概率,即 p ( z k = 1 ) = π k p(z_k=1)=\pi_k p(zk=1)=πk;如果 z k = 1 z_k=1 zk=1表示第 k k k类没有被选中的概率:
z k ∈ { 0 , 1 } z_k\in\{0,1\} zk∈{0,1}
∑ K z k = 1 \sum_Kz_k=1 K∑zk=1
假设 z k z_k zk之间是独立同分布的,我们可以写出 z z z的联合概率分布形式:
p ( z ) = p ( z 1 ) p ( z 2 ) ⋯ p ( z k ) = ∏ k = 1 K π k z k p(z)=p(z_1)p(z_2)\cdots p(z_k)=\prod_{k=1}^K\pi_k^{z_k} p(z)=p(z1)p(z2)⋯p(zk)=k=1∏Kπkzk
上式中只能有一个 z k z_k zk为1,而其它 z j ( j ≠ k ) z_j(j\neq k) zj(j̸=k)全为0
第 k k k类中的数据服从正态分布,因此有如下形式:
p ( x ∣ z ) = ∏ k = 1 K N ( x ∣ μ k , δ k ) z k p(x|z)=\prod_{k=1}^KN(x|\mu_k,\delta_k)^{z_k} p(x∣z)=k=1∏KN(x∣μk,δk)zk
上面两个式子分别给出了 p ( z ) p(z) p(z)和 p ( x ∣ z ) p(x|z) p(x∣z)的形式,根据条件概率公式,可以求出 p ( x ) p(x) p(x)的形式:
p ( x ) = ∑ z p ( z ) p ( x ∣ z ) = ∑ z ( ∏ k = 1 K π k z k N ( x ∣ μ k , δ k ) ) = ∑ k = 1 K π k N ( x ∣ μ k , δ k ) p(x)=\sum_zp(z)p(x|z)=\sum_z\big( \prod_{k=1}^K\pi_k^{z_k}N(x|\mu_k,\delta_k)\big)=\sum_{k=1}^K\pi_kN(x|\mu_k,\delta_k) p(x)=z∑p(z)p(x∣z)=z∑(k=1∏KπkzkN(x∣μk,δk))=k=1∑KπkN(x∣μk,δk)
求后验概率如下:
γ ( z k ) = p ( z k = 1 ∣ x ) = p ( z k = 1 ) p ( x ∣ z k = 1 ) p ( x ) = π k N ( x ∣ μ k , δ k ) ∑ j = 1 K π j N ( x ∣ μ j , δ j ) \gamma(z_k)=p(z_k=1|x)=\frac{p(z_k=1)p(x|z_k=1)}{p(x)}=\frac{\pi_kN(x|\mu_k,\delta_k)}{\sum_{j=1}^K\pi_jN(x|\mu_j,\delta_j)} γ(zk)=p(zk=1∣x)=p(x)p(zk=1)p(x∣zk=1)=∑j=1KπjN(x∣μj,δj)πkN(x∣μk,δk)
GMM模型的似然函数
∑ i = 1 N l o g { ∑ k − 1 K π k N ( x i ∣ μ k , δ k ) } \sum{i=1}^Nlog\big \{ \sum_k-1^K\pi_kN(x_i|\mu_k,\delta_k) \big \} ∑i=1Nlog{k∑−1KπkN(xi∣μk,δk)}
4、 迭代公式
μ k = 1 N k ∑ i = 1 N γ ( z i k ) x i \mu_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})x_i μk=Nk1i=1∑Nγ(zik)xi
δ k = 1 N k ∑ i = 1 N γ ( z i k ) ( x i − μ k ) ( x i − μ k ) T \delta_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T δk=Nk1i=1∑Nγ(zik)(xi−μk)(xi−μk)T
其中 N k = ∑ i = 1 N γ ( z i k ) N_k=\sum_{i=1}^N\gamma(z_{ik}) Nk=∑i=1Nγ(zik), π k = N k / N \pi_k=N_k/N πk=Nk/N