【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型

简书:https://www.jianshu.com/p/eb9d50312de8

第6章 逻辑斯谛回归与最大熵模型

  1. 逻辑斯谛回归(logistic regression)是经典分类方法。最大熵是概率模型学习的一个准则,推广至分类问题即为最大熵模型(maximum entropy model)。二者都属于对数线性模型
  2. 逻辑斯谛分布(logistic distribution),设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数密度函数 γ>0 γ > 0 为形状参数, μ μ 为位置参数
    F(x)=P(Xx)=11+e(xμ)/γf(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2 F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2
  3. 分布函数属于逻辑斯谛函数,图形为S形曲线(sigmoid curve),以 (μ,12) ( μ , 1 2 ) 中心对称
    【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型_第1张图片

  4. 二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型,由条件概率分布P(Y|X)表示; wx+b w ⋅ x + b 扩充改造后为 wx w ⋅ x

    P(Y=1|x)=exp(wx+b)1+exp(wx+b)P(Y=0|x)=11+exp(wx+b) P ( Y = 1 | x ) = exp ⁡ ( w ⋅ x + b ) 1 + exp ⁡ ( w ⋅ x + b ) P ( Y = 0 | x ) = 1 1 + exp ⁡ ( w ⋅ x + b )

  5. 几率(odds)是指事件发生的概率和不发生的概率的比值: p1p p 1 − p
  6. 对数几率(log odds) logit(p)=logp1p l o g i t ( p ) = log ⁡ p 1 − p
  7. 输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型(式1),模型为(式2)
    logP(Y=1|x)1P(Y=1|x)=wxP(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx) log ⁡ P ( Y = 1 | x ) 1 − P ( Y = 1 | x ) = w ⋅ x P ( Y = 1 | x ) = exp ⁡ ( w ⋅ x ) 1 + exp ⁡ ( w ⋅ x ) P ( Y = 0 | x ) = 1 1 + exp ⁡ ( w ⋅ x )
  8. 学习时,应用极大似然估计法估计模型参数
    P(Y=1|x)=π(x),  P(Y=0|x)=1π(x) P ( Y = 1 | x ) = π ( x ) ,     P ( Y = 0 | x ) = 1 − π ( x )

    似然函数为
    i=1N[π(xi)]yi[1π(xi)]1yi ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i

    对数似然函数为
    L(w)=I=1N[yilogπ(xi)+(1yi)log(1π(xi))]=I=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=I=1N[yi(wxi)log(1+exp(wxi))] L ( w ) = ∑ I = 1 N [ y i log ⁡ π ( x i ) + ( 1 − y i ) log ⁡ ( 1 − π ( x i ) ) ] = ∑ I = 1 N [ y i log ⁡ π ( x i ) 1 − π ( x i ) + log ⁡ ( 1 − π ( x i ) ) ] = ∑ I = 1 N [ y i ( w ⋅ x i ) − log ⁡ ( 1 + exp ⁡ ( w ⋅ x i ) ) ]

    则为对 L(w) L ( w ) 求极大值得到 w w 的估计值 w^ w ^ ,以对数似然函数为目标函数的最优化问题,通常采用梯度下降法拟牛顿法求解
  9. 推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model)用于多类分类,假设类别为{1,2,…,K},则模型为
    P(Y=k|x)=exp(wkx)1+K1k=1exp(wkx)P(Y=K|x)=11+K1k=1exp(wkx) P ( Y = k | x ) = exp ⁡ ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) P ( Y = K | x ) = 1 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x )
  10. 最大熵模型(maximum entropy model)由最大熵原理推导实现
  11. 最大熵原理是概率模型学习的一个准则。认为熵最大的模型是最好的模型。即在满足约束条件下的模型集合中选取熵最大的模型
  12. 当X服从均匀分布时,熵最大
  13. 最大熵模型,假设满足所有约束条件的模型集合为
    C{PP|Ep(fi)=EP~(fi), I=1,2,...,n} C ≡ { P ∈ P | E p ( f i ) = E P ~ ( f i ) ,   I = 1 , 2 , . . . , n }

    定义在条件概率分布P(Y|X)上的条件熵为
    H(P)=x,yP~(x)P(y|x)logP(y|x) H ( P ) = − ∑ x , y P ~ ( x ) P ( y | x ) log ⁡ P ( y | x )

    则条件熵H(P)最大的模型称为最大熵模型,对数为自然对数
  14. 最大熵模型学习,约束最优化问题,求解对偶问题,拉格朗日乘子法。。。(略)
  15. 改进的迭代尺度法(improved iterative scaling,IIS)是一种最大熵模型学习的最优化方法
  16. 拟牛顿法(略)

你可能感兴趣的:(机器学习,读书笔记)