我只是一名搬运工,以下内容来自:刘建平Pinard:https://www.cnblogs.com/pinard/p/6029432.html
逻辑回归是一个分类算法,它可以处理二元分类以及多元分类。在分类问题中,要预测的变量y是离散的值。
分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;判断一个肿瘤是恶性的还是良性的 ⋯ \cdots ⋯
虽然它名字里面有“回归”两个字,却不是一个回归算法。那为什么有“回归”这个误导性的词呢?个人认为,虽然逻辑回归是分类模型,但是它的原理里面却残留着回归模型的影子,本文对逻辑回归原理做一个总结。
我们知道,线性回归的模型是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数θ,满足Y=Xθ。此时我们的Y是连续的,所以是回归模型。如果我们想要Y是离散的话,怎么办呢?一个可以想到的办法是,我们对于这个Y再做一次函数转换,变为 g ( Y ) g(Y) g(Y)。如果我们令g(Y)的值在某个实数区间的时候是类别A,在另一个实数区间的时候是类别B,以此类推,就得到了一个分类模型。如果结果的类别只有两种,那么就是一个二元分类模型了。逻辑回归的出发点就是从这来的。下面我们开始引入二元逻辑回归。
上一节我们提到对线性回归的结果做一个在函数g上的转换,可以变化为逻辑回归。这个函数g在逻辑回归中我们一般取为sigmoid函数,形式如下:
g ( z ) = 1 1 + e − z g(z) = \frac{1}{1+e^{-z}} g(z)=1+e−z1
它有一个非常好的性质,即当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0,这非常适合于我们的分类概率模型。另外,它还有一个很好的导数性质:
g ′ ( z ) = g ( z ) ( 1 − g ( z ) ) g′(z)=g(z)(1−g(z)) g′(z)=g(z)(1−g(z))
这个通过函数对g(z)求导很容易得到,后面我们会用到这个式子。
如果我们令g(z)中的z为:z=xθ,这样就得到了二元逻辑回归模型的一般形式:
g θ ( x ) = 1 1 + e − x θ g_\theta(x) = \frac{1}{1+e^{-x\theta}} gθ(x)=1+e−xθ1
其中x为样本输入,hθ(x)为模型输出,可以理解为某一分类的概率大小。而θ为分类模型的要求出的模型参数。
对于模型输出hθ(x),我们让它和我们的二元样本输出y(假设为0和1)有这样的对应关系,如果hθ(x)>0.5 ,即xθ>0, 则y为1。如果hθ(x)<0.5,即xθ<0, 则y为0。y=0.5是临界情况,此时xθ=0, 从逻辑回归模型本身无法确定分类。
hθ(x)的值越小,而分类为0的的概率越高,反之,值越大的话分类为1的的概率越高。如果靠近临界点,则分类准确率会下降。
此处我们也可以将模型写成矩阵模式:
g θ ( X ) = 1 1 + e − X θ g_\theta(X) = \frac{1}{1+e^{-X\theta}} gθ(X)=1+e−Xθ1
其中hθ(X)为模型输出,为 m x 1的维度。X为样本特征矩阵,为m x n的维度。θ为分类的模型系数,为n x 1的向量。
理解了二元分类回归的模型,接着我们就要看模型的损失函数了,我们的目标是极小化损失函数来得到对应的模型系数θ。
回顾下线性回归的损失函数,由于线性回归是连续的,所以可以使用模型误差的的平方和来定义损失函数。但是逻辑回归不是连续的,自然线性回归损失函数定义的经验就用不上了。不过我们可以用最大似然法来推导出我们的损失函数。
我们知道,按照上面二元逻辑回归的定义,假设我们的样本输出是0或者1两类。那么我们有:
P ( y = 1 ∣ x , θ ) = h θ ( x ) P ( y = 0 ∣ x , θ ) = 1 − h θ ( x ) \begin{aligned} & P(y=1|x,θ)=h_θ(x) \\ & P(y=0|x,θ)=1−h_θ(x) \\ \end{aligned} P(y=1∣x,θ)=hθ(x)P(y=0∣x,θ)=1−hθ(x)
把这两个式子写成一个式子,就是:
P ( y ∣ x , θ ) = h θ ( x ) y ( 1 − h θ ( x ) ) 1 − y P(y|x,θ)=h_θ(x)^y(1−h_θ(x))^{1−y} P(y∣x,θ)=hθ(x)y(1−hθ(x))1−y
其中y的取值只能是0或者1。
得到了y的概率分布函数表达式,我们就可以用似然函数最大化来求解我们需要的模型系数θ。
为了方便求解,这里我们用对数似然函数最大化,对数似然函数取反即为我们的损失函数J(θ)。其中:
似然函数的代数表达式为:
L ( θ ) = ∏ i = 1 m ( h θ ( x ( i ) ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) L(θ)=∏_{i=1}^m(h_θ(x^{(i)}))y^{(i)}(1−h_θ(x^{(i)}))^{1−y(i)} L(θ)=i=1∏m(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)
其中m为样本的个数。
对似然函数对数化取反的表达式,即损失函数表达式为:
J ( θ ) = − l n L ( θ ) = − ∑ i = 1 m ( y ( i ) l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ) J(θ)=−lnL(θ)=−∑_{i=1}^m(y^{(i)}log(h_θ(x^{(i)}))+(1−y^{(i)})log(1−h_θ(x^{(i)}))) J(θ)=−lnL(θ)=−i=1∑m(y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))))
损失函数用矩阵法表达更加简洁:
J ( θ ) = − Y T ∙ l o g h θ ( X ) − ( E − Y ) T ∙ l o g ( E − h θ ( X ) ) J(θ)=−Y^T∙logh_θ(X)−(E−Y)^T∙log(E−h_θ(X)) J(θ)=−YT∙loghθ(X)−(E−Y)T∙log(E−hθ(X))
其中E为全1向量,∙为内积。
对于二元逻辑回归的损失函数极小化,有比较多的方法,最常见的有梯度下降法,坐标轴下降法,等牛顿法等。这里推导出梯度下降法中θ每次迭代的公式。由于代数法推导比较的繁琐,我习惯于用矩阵法来做损失函数的优化过程,这里给出矩阵法推导二元逻辑回归梯度的过程。
对于 J ( θ ) = − Y T ∙ l o g h θ ( X ) − ( E − Y ) T ∙ l o g ( E − h θ ( X ) ) J(θ)=−Y^T∙logh_θ(X)−(E−Y)^T∙log(E−h_θ(X)) J(θ)=−YT∙loghθ(X)−(E−Y)T∙log(E−hθ(X)),我们用J(θ)对θ向量求导可得:
∂ ∂ θ J ( θ ) = X T [ 1 h θ ( X ) ⊙ h θ ( X ) ⊙ ( E − h θ ( X ) ) ⊙ ( − Y ) ] + X T [ 1 E − h θ ( X ) ⊙ h θ ( X ) ⊙ ( E − h θ ( X ) ) ⊙ ( E − Y ) ] \begin{aligned} \frac{∂}{∂θ}J(θ)=X^T\bigg[ & \frac{1}{h_θ(X)}⊙h_θ(X)⊙(E−h_θ(X))⊙(−Y)\bigg] \\ & +X^T\bigg[\frac{1}{E−h_θ(X)}⊙h_θ(X)⊙(E−h_θ(X))⊙(E−Y)\bigg] \end{aligned} ∂θ∂J(θ)=XT[hθ(X)1⊙hθ(X)⊙(E−hθ(X))⊙(−Y)]+XT[E−hθ(X)1⊙hθ(X)⊙(E−hθ(X))⊙(E−Y)]
这一步我们用到了向量求导的链式法则,和下面三个基础求导公式的矩阵形式:
∂ ∂ x l o g x = 1 x ∂ ∂ z g ( z ) = g ( z ) ( 1 − g ( z ) ) ( g ( z ) 为 s i g m o i d 函 数 ) ∂ x θ ∂ θ = x \begin{aligned} &\frac{∂}{∂x}logx=\frac1x \\ &\frac{∂}{∂z}g(z)=g(z)(1−g(z))(g(z)为sigmoid函数) \\ &\frac{∂xθ}{∂θ}=x \end{aligned} ∂x∂logx=x1∂z∂g(z)=g(z)(1−g(z))(g(z)为sigmoid函数)∂θ∂xθ=x
对于刚才的求导公式我们进行化简可得:
∂ ∂ θ J ( θ ) = X T ( h θ ( X ) − Y ) \frac∂{∂θ}J(θ)=X^T(h_θ(X)−Y) ∂θ∂J(θ)=XT(hθ(X)−Y)
从而在梯度下降法中每一步向量θ的迭代公式如下:
θ = θ − α X T ( h θ ( X ) − Y ) θ=θ−αX^T(h_θ(X)−Y) θ=θ−αXT(hθ(X)−Y)
其中,α为梯度下降法的步长。
实践中,我们一般不用操心优化方法,大部分机器学习库都内置了各种逻辑回归的优化方法,不过了解至少一种优化方法还是有必要的。
逻辑回归也会面临过拟合问题,所以我们也要考虑正则化。常见的有L1正则化和L2正则化。
逻辑回归的L1正则化的损失函数表达式如下,相比普通的逻辑回归损失函数,增加了L1的范数做作为惩罚,超参数α作为惩罚系数,调节惩罚项的大小。
二元逻辑回归的L1正则化损失函数表达式如下:
J ( θ ) = − Y T ∙ l o g h θ ( X ) − ( E − Y ) T ∙ l o g ( E − h θ ( X ) ) + α ∣ ∣ θ ∣ ∣ 1 J(θ)=−Y^T∙logh_θ(X)−(E−Y)^T∙log(E−h_θ(X))+\alpha||\theta||_1 J(θ)=−YT∙loghθ(X)−(E−Y)T∙log(E−hθ(X))+α∣∣θ∣∣1
其中||θ||1为θ的L1范数。
逻辑回归的L1正则化损失函数的优化方法常用的有坐标轴下降法和最小角回归法。
二元逻辑回归的L2正则化损失函数表达式如下:
J ( θ ) = − Y T ∙ l o g h θ ( X ) − ( E − Y ) T ∙ l o g ( E − h θ ( X ) ) + 1 2 α ∣ ∣ θ ∣ ∣ 2 J(θ)=−Y^T∙logh_θ(X)−(E−Y)^T∙log(E−h_θ(X))+\frac12\alpha||\theta||_2 J(θ)=−YT∙loghθ(X)−(E−Y)T∙log(E−hθ(X))+21α∣∣θ∣∣2
其中||θ||2为θ的L2范数。
逻辑回归的L2正则化损失函数的优化方法和普通的逻辑回归类似。
前面几节我们的逻辑回归的模型和损失函数都局限于二元逻辑回归,实际上二元逻辑回归的模型和损失函数很容易推广到多元逻辑回归。比如总是认为某种类型为正值,其余为0值,这种方法为最常用的one-vs-rest,简称OvR.
另一种多元逻辑回归的方法是Many-vs-Many(MvM),它会选择一部分类别的样本和另一部分类别的样本来做逻辑回归二分类。最常用的是One-Vs-One(OvO)。OvO是MvM的特例。每次我们选择两类样本来做二元逻辑回归。
这里只介绍多元逻辑回归的softmax回归的一种特例推导:
首先回顾下二元逻辑回归。
P ( y = 1 ∣ x , θ ) = h θ ( x ) = 1 1 + e − x θ = e x θ 1 + e x θ P ( y = 0 ∣ x , θ ) = 1 − h θ ( x ) = 1 1 + e x θ \begin{aligned} & P(y=1|x,θ)=h_θ(x)=\frac1{1+e^{-x\theta}}=\frac{e^{x\theta}}{1+e^{x\theta}} \\ & P(y=0|x,θ)=1−h_θ(x)=\frac1{1+e^{x\theta}} \\ \end{aligned} P(y=1∣x,θ)=hθ(x)=1+e−xθ1=1+exθexθP(y=0∣x,θ)=1−hθ(x)=1+exθ1
其中y只能取到0和1。则有:
l n P ( y = 1 ∣ x , θ ) P ( y = 0 ∣ x , θ ) = x θ ln\frac{P(y=1|x,θ)}{P(y=0|x,θ)}=xθ lnP(y=0∣x,θ)P(y=1∣x,θ)=xθ
如果我们要推广到多元逻辑回归,则模型要稍微做下扩展。
我们假设是K元分类模型,即样本输出y的取值为1,2, ⋯ \cdots ⋯,K。
根据二元逻辑回归的经验,我们有:
l n P ( y = 1 ∣ x , θ ) P ( y = K ∣ x , θ ) = x θ 1 l n P ( y = 2 ∣ x , θ ) P ( y = K ∣ x , θ ) = x θ 2 ⋯ l n P ( y = K − 1 ∣ x , θ ) P ( y = K ∣ x , θ ) = x θ K − 1 \begin{aligned} &ln\frac{P(y=1|x,θ)}{P(y=K|x,θ)}=xθ_1 \\ &ln\frac{P(y=2|x,θ)}{P(y=K|x,θ)}=xθ_2 \\ &\cdots \\ &ln\frac{P(y=K-1|x,θ)}{P(y=K|x,θ)}=xθ_{K-1} \\ \end{aligned} lnP(y=K∣x,θ)P(y=1∣x,θ)=xθ1lnP(y=K∣x,θ)P(y=2∣x,θ)=xθ2⋯lnP(y=K∣x,θ)P(y=K−1∣x,θ)=xθK−1
上面有K-1个方程。
加上概率之和为1的方程如下:
∑ i = 1 K P ( y = i ∣ x , θ ) = 1 ∑_{i=1}^KP(y=i|x,θ)=1 i=1∑KP(y=i∣x,θ)=1
从而得到K个方程,里面有K个逻辑回归的概率分布。
解出这个K元一次方程组,得到K元逻辑回归的概率分布如下:
P ( y = k ∣ x , θ ) = e x θ k / 1 + ∑ t = 1 K − 1 e x θ t k = 1 , 2 , . . . K − 1 P ( y = K ∣ x , θ ) = 1 / 1 + ∑ t = 1 K − 1 e x θ t \begin{aligned} &P(y=k|x,θ)=e^{xθ_k}\bigg/1+∑_{t=1}^{K−1}e^{xθ_t} k = 1,2,...K-1 \\ &P(y=K|x,θ)=1\bigg/1+∑_{t=1}^{K−1}e^{xθ_t} \\ \end{aligned} P(y=k∣x,θ)=exθk/1+t=1∑K−1exθt k=1,2,...K−1P(y=K∣x,θ)=1/1+t=1∑K−1exθt
多元逻辑回归的损失函数推导以及优化方法和二元逻辑回归类似,这里就不累述。
逻辑回归尤其是二元逻辑回归是非常常见的模型,训练速度很快,虽然使用起来没有支持向量机(SVM)那么占主流,但是解决普通的分类问题是足够了,训练速度也比起SVM要快不少。如果你要理解机器学习分类算法,那么第一个应该学习的分类算法个人觉得应该是逻辑回归。理解了逻辑回归,其他的分类算法再学习起来应该没有那么难了。
(欢迎转载,转载请注明出处 刘建平Pinard:https://www.cnblogs.com/pinard/p/6029432.html)