逻辑回归模型的两种定义与参数估计思路

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,属于判别模型。

#1. 逻辑斯谛回归模型定义

在 Andrew NG 的 Machine Learning 课程和李航的统计学习方法中,都有对逻辑斯谛回归模型的介绍,然而二者却对模型有着不同的定义。

##1.1 决策函数
Andrew NG 课程中,对二项逻辑回归模型的决策函数如下:

h θ ( x ) = g ( θ T x ) h_\theta(x)=g(\theta^Tx) hθ(x)=g(θTx)

g ( z ) g(z) g(z) 为Sigmoid函数:
y = g ( z ) = 1 1 + e − z y=g(z)= \frac {1}{1+e^{-z}} y=g(z)=1+ez1.
其中 θ \theta θ 为参数. 当 z ≥ 0 z \geq 0 z0 时, 0.5 ≤ y < 1 0.5 \leq y < 1 0.5y<1; 当 z < 0 z< 0 z<0 时, 0 < y < 0.5 0 < y < 0.5 0<y<0.5.

h θ ( x ) h_\theta(x) hθ(x) 的取值代表 y = 1 y=1 y=1 的可能性的大小,若 h h h 大于0.5,那么就取1,如果小于0.5就取0.

##1.2 条件概率分布
统计学习方法中,二项逻辑回归模型是如下函数定义的条件概率分布:

KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(Y=1|x)=&\fra…

这里, x ∈ R n x\in \mathbb{R}^n xRn 是输入, Y ∈ { 0 , 1 } Y\in \{0,1\} Y{0,1} 是输出, w ∈ R n w\in \mathbb{R}^n wRn 是参数, 称为权值向量, b b b 称为偏置, w ⋅ x w\cdot x wx w w w x x x 的内积. 比较两个条件概率值的大小,将实例 x x x 分到概率值较大的那一类.

#2. 模型参数估计

由于定义的模型存在差异,因此二者的参数估计的思路也不同。

##2.1 误差之和极小化
Andrew NG 课程中对误差之和的计算方法如下:

J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) ) C o s t ( h θ ( x ) , y ) = { − l o g ( h θ ( x ) ) i f y = 1 − l o g ( 1 − h θ ( x ) ) i f y = 0 \begin{aligned} &J(\theta)=\frac{1}{m} \sum\limits_{i=1}^m Cost(h_\theta(x^{(i)}),y^{(i)}) \\ &Cost(h_\theta(x),y)= \begin{cases} -log(h_\theta(x)) \quad if\quad y=1 \\ -log(1-h_\theta(x)) \quad if\quad y=0 \end{cases} \end{aligned} J(θ)=m1i=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)={log(hθ(x))ify=1log(1hθ(x))ify=0

Cost函数通过极大似然估计得来,之所以不用原来线性回归的误差公式,是因为Sigmoid函数的存在会使J函数最终的结果不是凸函数,存在多个极值点。

Cost函数的图像如下:

Cost函数可统一成以下形式:
C o s t ( h θ ( x ) , y ) = − y l o g ( h θ ( x ) ) − ( 1 − y ) l o g ( 1 − h θ ( x ) ) Cost(h_\theta(x),y)=-y log(h_\theta(x)) - (1-y)log(1-h_\theta(x)) Cost(hθ(x),y)=ylog(hθ(x))(1y)log(1hθ(x))

最终的误差函数如下:

J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) ) = − 1 m [ ∑ i = 1 m y ( i ) l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] \begin{aligned} J(\theta)&=\frac{1}{m}\sum\limits_{i=1}^m Cost(h_\theta(x^{(i)}),y^{(i)}) \\ &=-\frac{1}{m}[\sum\limits_{i=1}^m y^{(i)}log(h_\theta(x^{(i)})) +(1-y^{(i)})log(1-h_\theta(x^{(i)}))] \end{aligned} J(θ)=m1i=1mCost(hθ(x(i)),y(i))=m1[i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

求解误差函数的极小值,即可得到 θ \theta θ 的估计值.

##2.2 似然函数极大化
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi (x), P(Y=0|x)=1-\pi (x) P(Y=1x)=π(x),P(Y=0x)=1π(x) ,似然函数为:

∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^{N}\big[\pi(x_i)\big]^{y_i}\big[1-\pi(x_i)\big]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi

对数似然函数为:

KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ L(w) = &\sum_{…

L ( w ) L(w) L(w) 求极大值,即可得到 w w w 的估计值。

##2.3 两种思路的分析比较
根据以上分析可见,虽然 Andrew NG 和 李航 分别定义了不同形式的逻辑斯谛回归模型,并且采用了不同的思路进行进行参数估计,但是最终二者的目标函数却完全等价。导致这个结果的根本原因在于二者都采用了极大似然估计法来进行参数估计,都是经验风险最小化原则在统计学习的应用。

#3. 目标函数极值求解方法

常用梯度下降法或拟牛顿法来估计数值解。
下面以求极大似然函数极大值为例来说明算法步骤。

对数似然函数为:

L ( w ) = ∑ i = 1 N [ y i ( w ⋅ x ) − ln ⁡ ( 1 + e x p ( w ⋅ x ) ) ] L(w) = \sum_{i=1}^{N}\big[ y_i(w\cdot x)- \ln (1+exp(w\cdot x)) \big] L(w)=i=1N[yi(wx)ln(1+exp(wx))]
其梯度为:

KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \frac{\partial…

值得一提的是,这里得出的梯度和线性回归中的梯度完全相同!

算法如下:

KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ &repeat \{ \…

你可能感兴趣的:(逻辑回归模型的两种定义与参数估计思路)