X X X是连续随机变量, X X X~logistic分布,则有以下分布函数和密度函数:
F ( x ) = P ( X ≤ x ) = 1 1 + e − x − u r F(x)=P(X\leq x)=\frac{1}{1+e^-\frac{x-u}{r}} F(x)=P(X≤x)=1+e−rx−u1
f ( x ) = F ′ ( x ) = e − x − u r r ( 1 + e − x − u r ) 2 f(x)=F^{'}(x)=\frac{e^-\frac{x-u}{r}}{r(1+e^-\frac{x-u}{r})^2} f(x)=F′(x)=r(1+e−rx−u)2e−rx−u
其中, u u u是位置参数, r r r是形状参数, r > 0 r>0 r>0.
F ( x ) F(x) F(x)的函数图像是一条S型曲线,以点 ( u , 1 2 ) (u,\frac12) (u,21)中心对称,即有:
F ( − x + u ) − 1 2 = − F ( x + u ) + 1 2 F(-x+u)-\frac12=-F(x+u)+\frac12 F(−x+u)−21=−F(x+u)+21
该函数图像的性质有:
r \quad \quad r r值越小,曲线在对称中心附近增长得越快。
二项logistic回归模型是如下的条件概率分布:
P ( Y = 1 ∣ x ) = e w x + b 1 + e w x + b P(Y=1\mid x)=\frac{e^{wx+b}}{1+e^{wx+b}} P(Y=1∣x)=1+ewx+bewx+b
P ( Y = 0 ∣ x ) = 1 1 + e w x + b P(Y=0\mid x)=\frac{1}{1+e^{wx+b}} P(Y=0∣x)=1+ewx+b1
其中, x ∈ R n x\in R^n x∈Rn是输入, Y ∈ { 0 , 1 } Y\in \lbrace {0,1}\rbrace Y∈{0,1}是输出, w ∈ R n w\in R^n w∈Rn, b ∈ R b\in R b∈R为参数。把参数向量化,记为 w x \bf{wx} wx。将上式简写为:
P ( Y = 1 ∣ x ) = e w x 1 + e w x P(Y=1\mid x)=\frac{e^{wx}}{1+e^{wx}} P(Y=1∣x)=1+ewxewx
P ( Y = 0 ∣ x ) = 1 1 + e w x P(Y=0\mid x)=\frac{1}{1+e^{wx}} P(Y=0∣x)=1+ewx1
其中, w = ( w ( 1 ) , w ( 2 ) , ⋯ , w ( n ) , b ) T w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T w=(w(1),w(2),⋯,w(n),b)T,
x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) , 1 ) T x=(x^{(1)},x^{(2)},\cdots, x^{(n)},1)^T x=(x(1),x(2),⋯,x(n),1)T
一个事件发生的几率(odds) = 该 事 件 发 生 的 概 率 该 事 件 不 发 生 的 概 率 = p 1 − p =\frac{\text 该事件发生的概率}{\text 该事件不发生的概率}=\frac{p}{1-p} =该事件不发生的概率该事件发生的概率=1−pp
\quad \quad 对数几率/logit函数 = l o g i t ( p ) = l o g p 1 − p =logit(p)=log\frac{p}{1-p} =logit(p)=log1−pp
\quad \quad 训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\rbrace T={(x1,y1),(x2,y2),⋯,(xN,yN)},
x i ∈ R n , y i ∈ { 0 , 1 } x_i\in R^n,y_i\in \lbrace0,1\rbrace xi∈Rn,yi∈{0,1}.使用极大似然法来估计模型参数 w w w,从而得到logistic回归模型。
\quad \quad 设 P ( Y = 1 ∣ x ) = π ( x ) P(Y=1\mid x)=\pi(x) P(Y=1∣x)=π(x), P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=0\mid x)=1-\pi(x) P(Y=0∣x)=1−π(x).
似然函数 = ∏ i = 1 N ( π ( x i ) ) y i ( 1 − π ( x i ) ) 1 − y i =\prod_{i=1}^N{{(\pi(x_i)})^{y_i}(1-\pi (x_i))^{1-y_i}} =∏i=1N(π(xi))yi(1−π(xi))1−yi.
对数似然函数记为 L ( w ) L(w) L(w).
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w x i ) − l o g ( 1 + e w x i ) ] \begin{aligned} L(w)&=\sum_{i=1}^N{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]}\\ & =\sum_{i=1}^N{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]}\\ & =\sum_{i=1}^N{[y_i(wx_i)-log(1+e^{wx_i})]} \end{aligned} L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(wxi)−log(1+ewxi)]
\quad \quad 对 L ( w ) L(w) L(w)求极大,得到 w w w的估计值。
问题转化为: L ( w ) L(w) L(w)的最优化问题,使用梯度下降法或拟牛顿法求解。
\quad \quad 设 w w w的极大似然估计为 w ^ \hat w w^,则logistic回归模型为:
P ( Y = 1 ∣ x ) = e w ^ x 1 + e w ^ x P(Y=1\mid x)=\frac{e^{\hat wx}}{1+e^{\hat wx}} P(Y=1∣x)=1+ew^xew^x
P ( Y = 0 ∣ x ) = 1 1 + e w ^ x P(Y=0\mid x)=\frac{1}{1+e^{\hat wx}} P(Y=0∣x)=1+ew^x1
设 Y ∈ { 1 , 2 , ⋯ , k } Y\in \lbrace 1,2,\cdots, k\rbrace Y∈{1,2,⋯,k}。则多项logistic回归模型可以表示为:
P ( Y = k ∣ x ) = e e k x 1 + ∑ k = 1 K − 1 e w k x , k = 1 , 2 , ⋯ , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e w k x \begin{aligned} &P(Y=k\mid x)=\frac{e^{e_kx}}{1+\sum_{k=1}^{K-1}{e^{w_kx}}},k=1,2,\cdots, K-1\\ &P(Y=K\mid x)=\frac{1}{1+\sum_{k=1}^{K-1}{e^{w_kx}}} \end{aligned} P(Y=k∣x)=1+∑k=1K−1ewkxeekx,k=1,2,⋯,K−1P(Y=K∣x)=1+∑k=1K−1ewkx1
其中, x ∈ R n + 1 , w k ∈ R n + 1 x\in R^{n+1},w_k\in R^{n+1} x∈Rn+1,wk∈Rn+1