机器学习笔记---从极大似然估计的角度看待Logistic回归

前言

看完极大似然估计后,想起Logistic回归中的参数估计就是使用这个方法,因此详细的记录整个推导的过程。【公式可以移动,若不能,可以切换横屏】
本文约1.4k字,预计阅读10分钟

Logistic 回归

建模

考虑一个二分类任务,输出标签为 。但是线性回归模型产生的预测值是一个实数:

因此需要将 转化为0/1的值。最简单的就是一个单位阶跃函数:

但由于单位阶跃函数不连续,故无法作为一个预测值到0/1的联系函数【不可微,无法使用常见的优化算法进行优化】。我们需要的是一个可以代替的单调可微的函数,因此就有了机器学习中经常提到的对数几率函数(Sigmoid 函数,函数形似S):

它将预测值 转化为一个接近0或1的值,将其带入线性回归模型中:

我们对其进行变化:

表示预测样本 为正例的可能性, 为负例的可能性,因此两者的比值表示了一种几率,即 为正例的相对可能性,取对数表示了一个“对数几率”。上述式子就是用线性回归的预测结果取逼近真实标记的对数几率。因此「Logistic Regression」应该准确被译为「对数几率回归」,但因为Logistic刚好又是逻辑的意思,故大部分教材称为「逻辑回归」。

参数估计

如何确定参数 ,首先将 视为类后验概率估计

,结合上式推导,故有:

简单起见,我们令:

对上述两式进行合并:

可以认为,样本值 满足了上述一个分布,因此我们可以选择采用「极大似然估计」来估计 ,令 为特征数, 为样本数,似然函数为:

似然函数求解最大值时,一般转化为对数似然函数的最大值:

参数估计:

再将其改为最小化负的对对数似然函数:

如此,就得到了Logistic回归的损失函数,即机器学习中的「二元交叉熵」(Binary crossentropy):

其中, 。将上式进行简单的转化:

我们采用梯度下降法进行优化,首先我们对 求偏导(我们默认log为自然对数ln),

故参数更新为:

其中 为学习率。

加入正则化

当然,在损失函数中,我们也可以加入正则化来抑制过拟合:

其中, 为正则化参数,正则化项。

参考文献

[1] 机器学习.周志华

往期精彩回顾

机器学习笔记---正则化为什么可以抑制过拟合?

机器学习笔记---给“过拟合”下一个准确且规范的定义

机器学习笔记---你真的懂决策树么?

机器学习笔记---信息熵

你可能感兴趣的:(机器学习笔记---从极大似然估计的角度看待Logistic回归)