AI(003) - 笔记 - 第二周 - Logistic回归基本原理

笔记:Logistic回归基本原理

app显示公式乱码,请使用浏览器或电脑查看。

  • 笔记:Logistic回归基本原理
    • 1、Bernoulli(亮点分布,0-1分布)
    • 2、Logistic回归模型
    • 3、神经科学中的Logistic回归
    • 4、线性决策函数
    • 5、极大似然估计(损失函数)
    • 6、正则
    • 7、优化方法


1、Bernoulli(亮点分布,0-1分布)

成功变量X取值1,否则取值0。成功概率为 θ θ ,我们称X服从参数为 θ θ 的Bernoulli分布,记作 XBer(θ) X ~ B e r ( θ )

  • 概率函数(pmf)为:

p(x)=θx(1θ)1x={θ,1θ,if x=1if x=0 p ( x ) = θ x ( 1 − θ ) 1 − x = { θ , if  x = 1 1 − θ , if  x = 0

  • 均值: μ=θ μ = θ
  • 方差: σ2=θ×(1θ) σ 2 = θ × ( 1 − θ )

2、Logistic回归模型

Logistic回归模型是一个线性模型

  • 条件概率:

p(y|x)μ(x)=Ber(y|μ(x))=σ(wTx) p ( y | x ) = B e r ( y | μ ( x ) ) μ ( x ) = σ ( w T x )

  • sigmoid函数(S形函数):

σ(a)=11+exp(a)=exp(a)exp(a)+1 σ ( a ) = 1 1 + e x p ( − a ) = e x p ( a ) e x p ( a ) + 1

  • 亦被称为logistic函数或logit函数,将实数a变换到[0, 1]区间

3、神经科学中的Logistic回归

  • 神经元对其输入进行加权和: f(x)=wTx f ( x ) = w T x

  • 在Logistic回归,定义Log Odds Ratio:

LOR(x)=logp(y=1|x,w)p(y=0|x,w)=log[11+exp(wTx)×1+exp(wTx)exp(wTx)]=log[exp(wTx)]=wTx L O R ( x ) = log ⁡ p ( y = 1 | x , w ) p ( y = 0 | x , w ) = log ⁡ [ 1 1 + e x p ( − w T x ) × 1 + e x p ( − w T x ) e x p ( − w T x ) ] = log ⁡ [ e x p ( w T x ) ] = w T x

  • iffLOR(x)=wTx>0 i f f L O R ( x ) = w T x > 0 ,神经元发放脉冲,即

p(y=1|x,w)>p(y=0|x,w) p ( y = 1 | x , w ) > p ( y = 0 | x , w )

4、线性决策函数

在Logistic回归中

LOR(x)LOR(x)LOR(x)=wTx>0,=wTx<0,=wTx=0:y^=1y^=0 L O R ( x ) = w T x > 0 , y ^ = 1 L O R ( x ) = w T x < 0 , y ^ = 0 L O R ( x ) = w T x = 0 : 决策面

因为Logistic回归是一个线性分类器

5、极大似然估计(损失函数)

μi=μ(xi) μ i = μ ( x i ) ,则负 log log 似然为:

J(w)=NLL(w)=Ni=1log[(μi)yi×(1μi)1yi]=Ni=1[yilog(μi)+(1yi)log(1μi)] J ( w ) = N L L ( w ) = − ∑ i = 1 N log ⁡ [ ( μ i ) y i × ( 1 − μ i ) 1 − y i ] = ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ]

极大似然估计 等价于 最小Logistic损失

6、正则

  • 目标函数

    J(w)=i=1N[yilog(μi)+(1yi)log(1μi)] J ( w ) = ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ]

  • L2

    J(w)=i=1N[yilog(μi)+(1yi)log(1μi)]+λ||w||22 J ( w ) = ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ] + λ | | w | | 2 2

  • L1

    J(w)=i=1N[yilog(μi)+(1yi)log(1μi)]+λ|w| J ( w ) = ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ] + λ | w |

7、优化方法

  • 目标函数

    J(w)=i=1N[yilog(μi)+(1yi)log(1μi)] J ( w ) = ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ]

  • 梯度

    g(w)=J(w)w=w[Ni=1[yilog(μi)+(1yi)log(1μi)]]=Ni=1[yi×1μ(xi)+(1yi)×11μ(xi)]wμ(xi)=Ni=1[yi×1μ(xi)+(1yi)×11μ(xi)]μ(xi)(1μ(xi))xi=Ni=1[yi×[1μ(xi)]+(1yi)μ(xi)]xi=Ni=1[yi+μ(xi)]xi=Ni=1[μ(xi)yi]xi g ( w ) = ∂ J ( w ) ∂ w = ∂ ∂ w [ ∑ i = 1 N − [ y i log ⁡ ( μ i ) + ( 1 − y i ) log ⁡ ( 1 − μ i ) ] ] = ∑ i = 1 N [ − y i × 1 μ ( x i ) + ( 1 − y i ) × 1 1 − μ ( x i ) ] ∂ ∂ w μ ( x i ) = ∑ i = 1 N [ − y i × 1 μ ( x i ) + ( 1 − y i ) × 1 1 − μ ( x i ) ] μ ( x i ) ( 1 − μ ( x i ) ) x i = ∑ i = 1 N [ − y i × [ 1 − μ ( x i ) ] + ( 1 − y i ) μ ( x i ) ] x i = ∑ i = 1 N [ − y i + μ ( x i ) ] x i = ∑ i = 1 N [ μ ( x i ) − y i ] x i

  • 二阶Hessian矩阵

    H(w)=w[g(w)T]=Ni=1(wμi)xTi=Ni=1μi(1μi)xixTi=XTdiag(μi(1μi))XT=XTSX H ( w ) = ∂ ∂ w [ g ( w ) T ] = ∑ i = 1 N ( ∂ ∂ w μ i ) x i T = ∑ i = 1 N μ i ( 1 − μ i ) x i x i T = X T d i a g ( μ i ( 1 − μ i ) ) X T = X T S X 正定矩阵,凸优化

  • 牛顿法迭代机制

    wt+1=wyH1(wt)g(wt) w t + 1 = w y − H − 1 ( w t ) g ( w t )

    也称二阶梯度下降法,移动方向为:

    d=(H(wt))1g(wT) d = − ( H ( w t ) ) − 1 g ( w T )

  • 拟牛顿法

    基本思想是:不用二阶偏导数而构造出可以近似Hessian矩阵(或Hessian矩阵的逆矩阵)的正定对称矩阵,进而再逐步优化目标函数。

你可能感兴趣的:(人工智能)