机器学习之logistic回归

一、logistic 回归的定义

虽然被称为回归,但实际上是分类模型。它是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某篮球运动员本次出手投进球的可能性,或者是某用户点击淘宝购物的可能性,logistic回归的结果并非数学定义上的”概率”,因为该结果往往要和其它特征值进行加权求和。Logistic回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数估计。

Logistic回归和线性回归最大的区别在于,Y的数据类型。线性回归分析的因变量Y属于定量数据,而Logistic回归分析的因变量Y属于分类数据。

二、logistic回归分类

Logistic回归在进一步细分,又可分为二元Logit(Logistic)回归、多分类Logit(Logistic)回归,有序Logit(Logistic)回归。

机器学习之logistic回归_第1张图片

 

  • 如果Y值仅两个选项,分别是有和无之类的分类数据,选择二元Logistic回归分析。
  • Y值的选项有多个,并且选项之间没有大小对比关系,则可以使用多元Logistic回归分析。
  • Y值的选项有多个,并且选项之间可以对比大小关系,选项具有对比意义,应该使用多元有序Logistic回归分析。

三、 logistic分布

Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为:

机器学习之logistic回归_第2张图片

分布图形如下图所示,分布函数F(x)以点(u,0.5)为中心对称:

满足F(-x+μ)-0.5,=-F(x - μ)+0.5,且参数γ的值越小,曲线在中心附件增长得越快。

 机器学习之logistic回归_第3张图片

 四、假设函数

首先我们看一下sigmoid函数:

机器学习之logistic回归_第4张图片

 

从上图可以看到sigmoid函数是一个s形的曲线,它的取值在[0, 1]之间,在远离0的地方函数的值会很快接近0或者1,它的这个特性对于解决二分类问题十分重要。我们假设分类的阈值是0.5,当超过0.5的时候归为1类,低于0.5的时候归为0类,阈值是自己可以设定的。

特别的是,当逻辑回归模型的μ=0,γ=1时就变成了sigmoid函数。

五、总结

Logistic 回归是一种被人们广泛使用的算法,因为它非常高效,不需要太大的计算量,又通俗易懂,不需要缩放输入特征,不需要任何调整,且很容易调整,并且输出校准好的预测概率。

与线性回归一样,当你去掉与输出变量无关的属性以及相似度高的属性时,logistic 回归效果确实会更好。因此特征处理在 Logistic 和线性回归的性能方面起着重要的作用。

Logistic 回归的另一个优点是它非常容易实现,且训练起来很高效。在研究中,我通常以 Logistic 回归模型作为基准,再尝试使用更复杂的算法。

由于其简单且可快速实现的原因,Logistic 回归也是一个很好的基准,你可以用它来衡量其他更复杂的算法的性能。

它的一个缺点就是我们不能用 logistic 回归来解决非线性问题,因为它的决策边界是线性的。

你可能感兴趣的:(回归,逻辑回归)