共同点:
都属于概率模型P(Y|X);
对数线性模型:lnP(Y|X)=wx;在logit里面时关于x的线性函数,在最大熵里是关于x的函数的线性函数。
区别:
(1)逻辑斯蒂回归:判别模型,x为自变量
(2)最大熵模型:生成模型,y和x都有随机性, 除了P(Y|X),样本中的经验分布:
P ‾ ( x ) \overline{P}(x) P(x)
l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x + b ( 1 ) ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b (1) ln1−P(Y=1∣x)P(Y=1∣x)=w⋅x+b(1)
P ( Y = 1 ∣ x ) = e w ⋅ x + b 1 + e w ⋅ x + b ( 2 ) P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}(2) P(Y=1∣x)=1+ew⋅x+bew⋅x+b(2)
注:对于输入x,输出y∈[0,1]的二分类问题,Y取1的概率 P ( Y = 1 ∣ x ) = f ( x ) ∈ [ 0 , 1 ] P(Y=1|x)=f(x)∈[0,1] P(Y=1∣x)=f(x)∈[0,1]
把概率属于[0,1]的模型对应到了属于(-∞,+∞)的线性模型
l o g i t ( f ( x ) ) = l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = l n f ( x ) 1 − f ( x ) = w ⋅ x + b ( 3 ) logit(f(x))=ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=ln\frac{f(x)}{1-f(x)}=w\cdot x+b(3) logit(f(x))=ln1−P(Y=1∣x)P(Y=1∣x)=ln1−f(x)f(x)=w⋅x+b(3)
式中, w ⋅ x w\cdot x w⋅x∈(-∞,+∞)
通过公式(3)得到
f ( x ) = e w ⋅ x + b 1 + e w ⋅ x + b f(x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}} f(x)=1+ew⋅x+bew⋅x+b 即公式(2)
若 w = ( w ( 1 ) , w ( 2 ) , … , w ( n ) , b ) w=(w^{(1)}, w^{(2)},\dots,w^{(n)},b) w=(w(1),w(2),…,w(n),b), x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) , 1 ) x=(x^{(1)}, x^{(2)},\dots,x^{(n)},1) x=(x(1),x(2),…,x(n),1),则
P ( Y = 1 ∣ x ) = e w ⋅ x 1 + e w ⋅ x P(Y=1|x)=\frac{e^{w\cdot x}}{1+e^{w\cdot x}} P(Y=1∣x)=1+ew⋅xew⋅x
P ( Y = 0 ∣ x ) = 1 1 + e w ⋅ x P(Y=0|x)=\frac{1}{1+e^{w\cdot x}} P(Y=0∣x)=1+ew⋅x1
sigmoid激活函数: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+e−x1
sigmoid的梯度消失:
S ′ ( x ) = e − x ( 1 + e − x ) 2 = S ( x ) ( 1 − S ( x ) ) < = 1 4 S^{'}(x)=\frac{e^{-x}}{(1+e^{-x})^2}=S(x)(1-S(x)) <= \frac{1}{4} S′(x)=(1+e−x)2e−x=S(x)(1−S(x))<=41
所以,当网络较深时,反向误差传递时,会越来越小(假设经过n次sigmod那么误差要乘以小于 ( 1 4 ) n (\frac{1}{4})^n (41)n的数,呈指数下降)。即只有在深处的网络层得到训练,而浅层得不到训练。
当使用的激活函数导数大于1时,会出现loss呈指数增加的现象,即会引起梯度爆炸。
一般解决梯度消失问题,可以选择relu激活函数替代sigmoid,因为relu导数为1。
概率模型多用 极 大 似 然 估 计 ‾ \underline{极大似然估计} 极大似然估计:给定参数w,求样本的联合概率密度(似然函数),使其最大,求出w。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
给定样本 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),…,(xN,yN)}, 其中 x i ∈ R n , y i ∈ { 0 , 1 } x_i\in{R^n},y_i\in\{0,1\} xi∈Rn,yi∈{0,1}.
设
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x) P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数(likehood function)为:
P ( y ∣ x ; w ) = ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i P(y|x;w)=\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} P(y∣x;w)=i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x ) − l o g ( 1 + e ( w ⋅ x i ) ) ] L(w)=\sum^N_{i=1}{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_i(w\cdot x)-log(1+e^{(w\cdot x_i)})]} L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅x)−log(1+e(w⋅xi))]
对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值。
假设 w w w的极大似然估计为 w ^ \hat{w} w^,那么学到的逻辑斯蒂回归模型为
P ( Y = 1 ∣ x ) = e w ^ ⋅ x 1 + e w ^ ⋅ x P(Y=1|x)=\frac{e^{\hat{w}\cdot x}}{1+e^{\hat{w}\cdot x}} P(Y=1∣x)=1+ew^⋅xew^⋅x
P ( Y = 0 ∣ x ) = 1 1 + e w ^ ⋅ x P(Y=0|x)=\frac{1}{1+e^{\hat{w}\cdot x}} P(Y=0∣x)=1+ew^⋅x1
记已知的样本集为:
X = x 1 , x 2 , … , x n X={x_1,x_2,\dots,x_n} X=x1,x2,…,xn
似然函数(likehood function):联合概率密度函数 P ( X ∣ θ ) P(X|\theta) P(X∣θ)称为相对于 x 1 , x 2 , … , x n {x_1,x_2,\dots,x_n} x1,x2,…,xn的θ的似然函数。
l ( θ ) = P ( X ∣ θ ) = P ( x 1 , x 2 , … , x n ∣ θ ) = ∏ i = 1 N P ( x i , ∣ θ ) l(\theta)=P(X|\theta)=P(x_1,x_2,\dots,x_n|\theta)=\prod^N_{i=1}P(x_i,|\theta) l(θ)=P(X∣θ)=P(x1,x2,…,xn∣θ)=∏i=1NP(xi,∣θ)
这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数,称 l ( θ ) l(\theta) l(θ)为样本的似然函数。
θ ^ = a r g m a x P ( X ∣ θ ) = a r g m a x P ( x 1 , x 2 , … , x n ∣ θ ) = a r g m a x ∏ i = 1 N P ( x i , ∣ θ ) \hat{\theta}=argmaxP(X|\theta)=argmaxP(x_1,x_2,\dots,x_n|\theta)=argmax\prod^N_{i=1}P(x_i,|\theta) θ^=argmaxP(X∣θ)=argmaxP(x1,x2,…,xn∣θ)=argmax∏i=1NP(xi,∣θ)
l n l ( θ ) lnl(\theta) lnl(θ)是 l ( θ ) l(\theta) l(θ)增函数, l n l ( θ ) lnl(\theta) lnl(θ)和 l ( θ ) l(\theta) l(θ)具有相同的最大值点
θ ^ = a r g m a x l n l ( θ ) = a r g m a x ∑ i = 1 N l n p ( x i ∣ θ ) \hat{\theta}=argmax lnl(\theta) = argmax\sum^N_{i=1}lnp(x_i|\theta) θ^=argmaxlnl(θ)=argmaxi=1∑Nlnp(xi∣θ)
2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
θ = [ θ 1 , θ 2 , … , θ s ] \theta=[\theta_1,\theta_2,\dots,\theta_s] θ=[θ1,θ2,…,θs]
记梯度算子:
▽ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ s ] \bigtriangledown_\theta=[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_s}] ▽θ=[∂θ1∂,∂θ2∂,…,∂θs∂]
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
▽ θ l n l ( θ ) = ∑ i = 1 N ▽ θ l n P ( x i , θ ) = 0 \bigtriangledown_\theta lnl(\theta)=\sum^N_{i=1}\bigtriangledown_\theta lnP(x_i,\theta)=0 ▽θlnl(θ)=i=1∑N▽θlnP(xi,θ)=0
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数;
(3)求导数(偏导);
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
添加链接描述