逻辑斯蒂回归之sigmoid函数

一. LR的数学形式

h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+eθTx1

二. LR为什么用sigmoid函数

2.1 广义线性模型(GLM)

GLM是 y y y服从指数族分布的一般分布模型。
首先需要知道,线性回归和逻辑斯蒂回归都是GLM的特殊形式:

  • 在线性回归中假设 y y y服从高斯分布:
    y ∣ x ; θ ∼ N ( μ , σ 2 ) y|x; \theta \sim \N(\mu,\sigma^2) yx;θN(μ,σ2)
  • 在逻辑斯蒂回归中假设 y y y服从伯努利分布:
    y ∣ x ; θ ∼ B e r n o u l l i ( ϕ ) y|x; \theta \sim Bernoulli(\phi) yx;θBernoulli(ϕ)
  • 高斯分布和 B e r n o u l l i Bernoulli Bernoulli分布都属于指数分布族
2.2 指数族分布

在概率统计中,若某概率分布满足下式,我们称之为指数族分布:
p ( y ; η ) = b ( y ) e ( η T T ( y ) − a ( η ) ) p(y;\eta)=b(y)e^{(\eta^TT(y)-a(\eta))} p(y;η)=b(y)e(ηTT(y)a(η))

  • η \eta η为自然参数
  • T ( y ) T(y) T(y)为充分统计量(一般情况下 T ( y ) = y T(y)=y T(y)=y)
  • a ( η ) a(\eta) a(η)是 log partition function , e − a ( η ) e^{-a(\eta)} ea(η)起正规化常量的作用,保证 ∑ p ( y ; η ) = 1 \sum p(y;\eta)=1 p(y;η)=1
  • 也就是所 T , a , b T, a, b T,a,b 确定了一种分布, η \eta η是该分布的参数。
  • 选择合适的 T , a , b T, a, b T,a,b ,可以得到高斯分布和 B e r n o u l l i Bernoulli Bernoulli分布
2.3 Bernoulli分布的指数分布族形式

p ( y ; ϕ ) = ϕ y ( 1 − ϕ ) 1 − y = e x p ( l n ( ϕ y ( 1 − ϕ ) 1 − y ) = e x p ( l n ϕ y ( 1 − ϕ ) y ( 1 − ϕ ) ) = e x p ( ( l n ( ϕ 1 − ϕ ) ) y + l n ( 1 − ϕ ) ) ⟹ η = l n ( ϕ 1 − ϕ ) ⟶ ϕ = 1 1 + e − η T ( y ) = y a ( η ) = − l n ( 1 − ϕ ) = l n ( 1 + e η ) b ( y ) = 1 \begin{aligned} p(y;\phi) & =\phi^{y}(1-\phi)^{1-y} \\ & = exp{(ln(\phi^{y}(1-\phi)^{1-y})} \\ & =exp({ln\frac{\phi^y}{(1-\phi)^y}(1-\phi)}) \\ & =exp((ln(\frac{\phi}{1-\phi}))y+ln(1-\phi)) \end{aligned} \Longrightarrow \begin{aligned} & \eta=ln(\frac{\phi}{1-\phi}) \longrightarrow \phi= \frac{1}{1+e^{-\eta}}\\ & T(y) =y \\ & a(\eta)=-ln(1-\phi)=ln(1+e^\eta)\\ & b(y)=1 \\ \end{aligned} p(y;ϕ)=ϕy(1ϕ)1y=exp(ln(ϕy(1ϕ)1y)=exp(ln(1ϕ)yϕy(1ϕ))=exp((ln(1ϕϕ))y+ln(1ϕ))η=ln(1ϕϕ)ϕ=1+eη1T(y)=ya(η)=ln(1ϕ)=ln(1+eη)b(y)=1

2.4 广义线性模型建模的基本假设

用广义线性模型建模的假设:

  • y y y的条件概率属于指数分布族
    • y ∣ x ; θ ∼ Exponential Family y|x; \theta \sim \text{Exponential Family} yx;θExponential Family
  • 给定 x x x,广义线性模型的目标是求解 T ( y ) ∣ x T(y)|x T(y)x
    • 在大多数情况下, T ( y ) = y T(y)=y T(y)=y,目标转变为求解 y ∣ x y|x yx
    • 即,希望拟合函数 h θ ( x ) = E ( y ∣ x ) h_\theta(x)=E(y|x) hθ(x)=E(yx)
    • 譬如,在逻辑回归中 h θ ( x ) = p ( y = 1 ∣ x , θ ) = 0 ⋅ p ( y = 0 ∣ x , θ ) + 1 ⋅ ( y = 1 ∣ x , θ ) = E [ y ∣ x ; θ ] h_\theta(x)=p(y=1|x,\theta)=0\cdot p(y=0|x,\theta)+1\cdotp(y=1|x,\theta)=E[y|x;\theta] hθ(x)=p(y=1x,θ)=0p(y=0x,θ)+1(y=1x,θ)=E[yx;θ]
  • η \eta η x x x是线性关系:
    • η = θ T x \eta=\theta^Tx η=θTx
2.5 广义线性模型推导出LR

h θ ( x ) = E [ y ∣ x ; θ ] = ϕ = 1 1 + e − η = 1 1 + e − θ T x \begin{aligned} h_\theta(x) &=E[y|x;\theta] \\ & = \phi \\ & = \frac{1}{1+e^{-\eta}} \\ & =\frac{1}{1+e^{-\theta^Tx}} \end{aligned} hθ(x)=E[yx;θ]=ϕ=1+eη1=1+eθTx1

参考资料

广义线性模型(Generalized Linear Model)

你可能感兴趣的:(机器学习)