机器学习算法原理系列篇10: 逻辑回归算法的推导

更多专业的人工智能相关文章,微信搜索  : robot-learner , 或扫码

 

 

逻辑回归(logistic regression)算法是一种广义的线性回归模型。 与线性回归不同的是,逻辑回归返回概率,通常用于分类模型。逻辑回归的目标变量可以是多分类,但二分类最为常用。

 

在逻辑回归中,我们观察的历史数据点可以用下面的矩阵形式表示:

 

  机器学习算法原理系列篇10: 逻辑回归算法的推导_第1张图片

 

上式中,X矩阵有n行,代表了了n个历史数据点。每一行有k个列,表示每一噶数据点有k个维度。 Y为每个数据点的标签,取值为-1或者+1, 分别代表了两个不同的类别。比如金融风险预测中,-1可以用来代表某个客户历史曾经出现过逾期现象,而+1表示某个客户历史上一直信用良好。逻辑回归不会直接预测某个数据的标签是-1还是+1, 而是预测预测数据为某个标签的概率。

 

我们假设y=1的概率为p,即:

 

 

其中β为逻辑回归算法中待优化的参数。有了Y=1的概率假设,我们可以得到Y=1概率和Y=-1概率的倍数,或者叫做发生比(odds):

  

 

把上面的odds函数取对数以后,可以看出,odd函数的对数范围是取值从负的无穷大到正的无穷大。为了用参数化的方式来描述一个发散的取值范围,我们可以用一个线性函数来描述odds的模型函数:

l 

 

从上式即可进一步推导出p的最终带有参数的函数表达形式如下:

 

      

上面的式子就是大家非常熟悉的sigmoid函数形式。从而我们分别得到的函数形式:

 

 

其中 即为sigmoid函数。 Sigmoid函数具有一个特性,它把z取值从负无穷大到正无穷大映射到-1到+1之间,其变化形式如下图:

 

机器学习算法原理系列篇10: 逻辑回归算法的推导_第2张图片

 

 

有了每个数据点为一类标签的概率表达形式,自然的,为了优化相关参数,我们可以采用最大似然拟合的优化方法。逻辑回归的假设中,事件成功概率为pY=1x,失败概率为1-p,因此,一个事件为+1或者-1的概率,可以统一的表达为概率函数:

 

 

 

因此所有数据点集合的最大似然公式表达如下:

 

把上面的式子取对数,经过几步简单的数学推导后,我们可以得到下面的非常有意义的形式:

 

 

这就是所有数据点的最大似然函数形式的对数。我们知道,似然函数的最大值对应了参数的最优化解。 进一步观察,对上式最大化取得最佳参数,等同于对下式的最下化:

 

 

上式即为著名的logistic 损失函数。 我们可以这样感性的理解这个损失函数对于数据优化的意义。 当预测结果与实际目标变量一致时候,对应损失函数项接近0,而当结果不一致时候,对应损失函数值会变得相对很大。通过这一特性,logistic损失函数的最小化优化过程自然能够找到最佳的参数值。

你可能感兴趣的:(机器学习算法和原理,人工智能,机器学习算法,逻辑回归)