logistic regression(逻辑斯蒂回归)

  • logistic分布
  • 二项logistic回归模型
  • 模型参数估计
  • 多项logistic回归

一、logistic分布

X X X是连续随机变量, X X X~logistic分布,则有以下分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − x − u r F(x)=P(X\leq x)=\frac{1}{1+e^-\frac{x-u}{r}} F(x)=P(Xx)=1+erxu1
f ( x ) = F ′ ( x ) = e − x − u r r ( 1 + e − x − u r ) 2 f(x)=F^{'}(x)=\frac{e^-\frac{x-u}{r}}{r(1+e^-\frac{x-u}{r})^2} f(x)=F(x)=r(1+erxu)2erxu
其中, u u u是位置参数, r r r是形状参数, r > 0 r>0 r>0.
F ( x ) F(x) F(x)的函数图像是一条S型曲线,以点 ( u , 1 2 ) (u,\frac12) (u,21)中心对称,即有:
F ( − x + u ) − 1 2 = − F ( x + u ) + 1 2 F(-x+u)-\frac12=-F(x+u)+\frac12 F(x+u)21=F(x+u)+21
该函数图像的性质有:
r \quad \quad r r值越小,曲线在对称中心附近增长得越快。

二、二项logistic回归模型

概念:

二项logistic回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = e w x + b 1 + e w x + b P(Y=1\mid x)=\frac{e^{wx+b}}{1+e^{wx+b}} P(Y=1x)=1+ewx+bewx+b
P ( Y = 0 ∣ x ) = 1 1 + e w x + b P(Y=0\mid x)=\frac{1}{1+e^{wx+b}} P(Y=0x)=1+ewx+b1
其中, x ∈ R n x\in R^n xRn是输入, Y ∈ { 0 , 1 } Y\in \lbrace {0,1}\rbrace Y{0,1}是输出, w ∈ R n w\in R^n wRn b ∈ R b\in R bR为参数。把参数向量化,记为 w x \bf{wx} wx。将上式简写为:
P ( Y = 1 ∣ x ) = e w x 1 + e w x P(Y=1\mid x)=\frac{e^{wx}}{1+e^{wx}} P(Y=1x)=1+ewxewx
P ( Y = 0 ∣ x ) = 1 1 + e w x P(Y=0\mid x)=\frac{1}{1+e^{wx}} P(Y=0x)=1+ewx1
其中, w = ( w ( 1 ) , w ( 2 ) , ⋯   , w ( n ) , b ) T w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T w=(w(1),w(2),,w(n),b)T,
x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) , 1 ) T x=(x^{(1)},x^{(2)},\cdots, x^{(n)},1)^T x=(x(1),x(2),,x(n),1)T

特点:

一个事件发生的几率(odds) = 该 事 件 发 生 的 概 率 该 事 件 不 发 生 的 概 率 = p 1 − p =\frac{\text 该事件发生的概率}{\text 该事件不发生的概率}=\frac{p}{1-p} ==1pp

\quad \quad 对数几率/logit函数 = l o g i t ( p ) = l o g p 1 − p =logit(p)=log\frac{p}{1-p} =logit(p)=log1pp

  1. 对数几率 l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w x log\frac{P(Y=1\mid x)}{1-P(Y=1\mid x)}=wx log1P(Y=1x)P(Y=1x)=wx是输入 x x x的线性函数。
  2. 换一种思考的角度:把输入 x x x的线性函数 w x wx wx使用公式 P ( Y = 1 ∣ x ) = e w x 1 + e w x P(Y=1\mid x)=\frac{e^{wx}}{1+e^{wx}} P(Y=1x)=1+ewxewx转换成一个概率, w x → + ∞ wx\to+\infty wx+ P → 1 P\to 1 P1; w x → − ∞ wx\to -\infty wx P → 0 P\to 0 P0。和神经网络中最经典的激活函数 s i g m o i d sigmoid sigmoid函数图像性质相同。

三、模型参数估计

\quad \quad 训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\rbrace T={(x1,y1),(x2,y2),,(xN,yN)},
x i ∈ R n , y i ∈ { 0 , 1 } x_i\in R^n,y_i\in \lbrace0,1\rbrace xiRn,yi{0,1}.使用极大似然法来估计模型参数 w w w,从而得到logistic回归模型。
\quad \quad P ( Y = 1 ∣ x ) = π ( x ) P(Y=1\mid x)=\pi(x) P(Y=1x)=π(x), P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=0\mid x)=1-\pi(x) P(Y=0x)=1π(x).
似然函数 = ∏ i = 1 N ( π ( x i ) ) y i ( 1 − π ( x i ) ) 1 − y i =\prod_{i=1}^N{{(\pi(x_i)})^{y_i}(1-\pi (x_i))^{1-y_i}} =i=1N(π(xi))yi(1π(xi))1yi.
对数似然函数记为 L ( w ) L(w) L(w).
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w x i ) − l o g ( 1 + e w x i ) ] \begin{aligned} L(w)&=\sum_{i=1}^N{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]}\\ & =\sum_{i=1}^N{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]}\\ & =\sum_{i=1}^N{[y_i(wx_i)-log(1+e^{wx_i})]} \end{aligned} L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+ewxi)]
\quad \quad L ( w ) L(w) L(w)求极大,得到 w w w的估计值。
问题转化为: L ( w ) L(w) L(w)的最优化问题,使用梯度下降法或拟牛顿法求解。
\quad \quad w w w的极大似然估计为 w ^ \hat w w^,则logistic回归模型为:
P ( Y = 1 ∣ x ) = e w ^ x 1 + e w ^ x P(Y=1\mid x)=\frac{e^{\hat wx}}{1+e^{\hat wx}} P(Y=1x)=1+ew^xew^x
P ( Y = 0 ∣ x ) = 1 1 + e w ^ x P(Y=0\mid x)=\frac{1}{1+e^{\hat wx}} P(Y=0x)=1+ew^x1

四、多项logistic回归

Y ∈ { 1 , 2 , ⋯   , k } Y\in \lbrace 1,2,\cdots, k\rbrace Y{1,2,,k}。则多项logistic回归模型可以表示为:
P ( Y = k ∣ x ) = e e k x 1 + ∑ k = 1 K − 1 e w k x , k = 1 , 2 , ⋯   , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e w k x \begin{aligned} &P(Y=k\mid x)=\frac{e^{e_kx}}{1+\sum_{k=1}^{K-1}{e^{w_kx}}},k=1,2,\cdots, K-1\\ &P(Y=K\mid x)=\frac{1}{1+\sum_{k=1}^{K-1}{e^{w_kx}}} \end{aligned} P(Y=kx)=1+k=1K1ewkxeekx,k=1,2,,K1P(Y=Kx)=1+k=1K1ewkx1
其中, x ∈ R n + 1 , w k ∈ R n + 1 x\in R^{n+1},w_k\in R^{n+1} xRn+1,wkRn+1

你可能感兴趣的:(神经网络)