逻辑斯蒂回归与最大熵模型

概述

共同点:
都属于概率模型P(Y|X);
对数线性模型:lnP(Y|X)=wx;在logit里面时关于x的线性函数,在最大熵里是关于x的函数的线性函数。
区别:
(1)逻辑斯蒂回归:判别模型,x为自变量
(2)最大熵模型:生成模型,y和x都有随机性, 除了P(Y|X),样本中的经验分布:
P ‾ ( x ) \overline{P}(x) P(x)

逻辑斯蒂回归模型

二维逻辑斯蒂回归模型

l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x + b ( 1 ) ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b (1) ln1P(Y=1x)P(Y=1x)=wx+b1

P ( Y = 1 ∣ x ) = e w ⋅ x + b 1 + e w ⋅ x + b ( 2 ) P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}(2) P(Y=1x)=1+ewx+bewx+b2

注:对于输入x,输出y∈[0,1]的二分类问题,Y取1的概率 P ( Y = 1 ∣ x ) = f ( x ) ∈ [ 0 , 1 ] P(Y=1|x)=f(x)∈[0,1] P(Y=1x)=f(x)[0,1]
把概率属于[0,1]的模型对应到了属于(-∞,+∞)的线性模型
l o g i t ( f ( x ) ) = l n P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = l n f ( x ) 1 − f ( x ) = w ⋅ x + b ( 3 ) logit(f(x))=ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=ln\frac{f(x)}{1-f(x)}=w\cdot x+b(3) logit(f(x))=ln1P(Y=1x)P(Y=1x)=ln1f(x)f(x)=wx+b3

式中, w ⋅ x w\cdot x wx∈(-∞,+∞)

通过公式(3)得到
f ( x ) = e w ⋅ x + b 1 + e w ⋅ x + b f(x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}} f(x)=1+ewx+bewx+b 即公式(2)
w = ( w ( 1 ) , w ( 2 ) , … , w ( n ) , b ) w=(w^{(1)}, w^{(2)},\dots,w^{(n)},b) w=(w(1),w(2),,w(n),b), x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) , 1 ) x=(x^{(1)}, x^{(2)},\dots,x^{(n)},1) x=(x(1),x(2),,x(n),1),则
P ( Y = 1 ∣ x ) = e w ⋅ x 1 + e w ⋅ x P(Y=1|x)=\frac{e^{w\cdot x}}{1+e^{w\cdot x}} P(Y=1x)=1+ewxewx

P ( Y = 0 ∣ x ) = 1 1 + e w ⋅ x P(Y=0|x)=\frac{1}{1+e^{w\cdot x}} P(Y=0x)=1+ewx1

sigmoid激活函数: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1
sigmoid的梯度消失:
S ′ ( x ) = e − x ( 1 + e − x ) 2 = S ( x ) ( 1 − S ( x ) ) < = 1 4 S^{'}(x)=\frac{e^{-x}}{(1+e^{-x})^2}=S(x)(1-S(x)) <= \frac{1}{4} S(x)=(1+ex)2ex=S(x)(1S(x))<=41
所以,当网络较深时,反向误差传递时,会越来越小(假设经过n次sigmod那么误差要乘以小于 ( 1 4 ) n (\frac{1}{4})^n (41)n的数,呈指数下降)。即只有在深处的网络层得到训练,而浅层得不到训练。
当使用的激活函数导数大于1时,会出现loss呈指数增加的现象,即会引起梯度爆炸。
一般解决梯度消失问题,可以选择relu激活函数替代sigmoid,因为relu导数为1。

模型参数估计:极大似然函数

概率模型多用 极 大 似 然 估 计 ‾ \underline{极大似然估计} :给定参数w,求样本的联合概率密度(似然函数),使其最大,求出w。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
给定样本 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}, 其中 x i ∈ R n , y i ∈ { 0 , 1 } x_i\in{R^n},y_i\in\{0,1\} xiRn,yi{0,1}.

P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)
似然函数(likehood function)为:
P ( y ∣ x ; w ) = ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i P(y|x;w)=\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} P(yx;w)=i=1N[π(xi)]yi[1π(xi)]1yi

对数似然函数
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x ) − l o g ( 1 + e ( w ⋅ x i ) ) ] L(w)=\sum^N_{i=1}{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_i(w\cdot x)-log(1+e^{(w\cdot x_i)})]} L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(wx)log(1+e(wxi))]

L ( w ) L(w) L(w)求极大值,得到 w w w的估计值。
假设 w w w的极大似然估计为 w ^ \hat{w} w^,那么学到的逻辑斯蒂回归模型为
P ( Y = 1 ∣ x ) = e w ^ ⋅ x 1 + e w ^ ⋅ x P(Y=1|x)=\frac{e^{\hat{w}\cdot x}}{1+e^{\hat{w}\cdot x}} P(Y=1x)=1+ew^xew^x

P ( Y = 0 ∣ x ) = 1 1 + e w ^ ⋅ x P(Y=0|x)=\frac{1}{1+e^{\hat{w}\cdot x}} P(Y=0x)=1+ew^x1


记已知的样本集为:
X = x 1 , x 2 , … , x n X={x_1,x_2,\dots,x_n} X=x1,x2,,xn
似然函数(likehood function):联合概率密度函数 P ( X ∣ θ ) P(X|\theta) P(Xθ)称为相对于 x 1 , x 2 , … , x n {x_1,x_2,\dots,x_n} x1,x2,,xn的θ的似然函数。
l ( θ ) = P ( X ∣ θ ) = P ( x 1 , x 2 , … , x n ∣ θ ) = ∏ i = 1 N P ( x i , ∣ θ ) l(\theta)=P(X|\theta)=P(x_1,x_2,\dots,x_n|\theta)=\prod^N_{i=1}P(x_i,|\theta) l(θ)=P(Xθ)=P(x1,x2,,xnθ)=i=1NP(xi,θ)
这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数,称 l ( θ ) l(\theta) l(θ)为样本的似然函数。
θ ^ = a r g m a x P ( X ∣ θ ) = a r g m a x P ( x 1 , x 2 , … , x n ∣ θ ) = a r g m a x ∏ i = 1 N P ( x i , ∣ θ ) \hat{\theta}=argmaxP(X|\theta)=argmaxP(x_1,x_2,\dots,x_n|\theta)=argmax\prod^N_{i=1}P(x_i,|\theta) θ^=argmaxP(Xθ)=argmaxP(x1,x2,,xnθ)=argmaxi=1NP(xi,θ)
l n l ( θ ) lnl(\theta) lnl(θ) l ( θ ) l(\theta) l(θ)增函数, l n l ( θ ) lnl(\theta) lnl(θ) l ( θ ) l(\theta) l(θ)具有相同的最大值点
θ ^ = a r g m a x l n l ( θ ) = a r g m a x ∑ i = 1 N l n p ( x i ∣ θ ) \hat{\theta}=argmax lnl(\theta) = argmax\sum^N_{i=1}lnp(x_i|\theta) θ^=argmaxlnl(θ)=argmaxi=1Nlnp(xiθ)

  1. 未知参数只有一个(θ为标量)
    在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
    ∂ l ( θ ) ∂ θ = 0 \frac{\partial l(\theta)}{\partial \theta} = 0 θl(θ)=0 或者等价于
    ∂ l n l ( θ ) ∂ θ = 0 \frac{\partial lnl(\theta)}{\partial \theta} = 0 θlnl(θ)=0

2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
θ = [ θ 1 , θ 2 , … , θ s ] \theta=[\theta_1,\theta_2,\dots,\theta_s] θ=[θ1,θ2,,θs]

记梯度算子:
▽ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ s ] \bigtriangledown_\theta=[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_s}] θ=[θ1,θ2,,θs]
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
▽ θ l n l ( θ ) = ∑ i = 1 N ▽ θ l n P ( x i , θ ) = 0 \bigtriangledown_\theta lnl(\theta)=\sum^N_{i=1}\bigtriangledown_\theta lnP(x_i,\theta)=0 θlnl(θ)=i=1NθlnP(xi,θ)=0

方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。


求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数;
(3)求导数(偏导);
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
添加链接描述

你可能感兴趣的:(统计学习)