应用广泛的二分类算法——逻辑回归

逻辑回归

数学思想:

对问题划分层次,并利用非线性变换和线性模型的组合,将未知的复杂问题分解为已知的简单问题

逻辑回归介绍:

​ 其原理是将样本的特征样本发生的概率联系起来,即,预测的是样本发生的概率是多少。由于概率是一个数,因此被叫做“逻辑回归”。

在回归问题上再多做一步,就可以作为分类算法来使用了。逻辑回归只能解决二分类问题,如果是多分类问题,LR本身是不支持的。

总结:

​ 逻辑回归是解决分类问题的,本质是求概率再分类。在分类结果的背后是隐藏变量的博弈,我们认为隐藏变量与特征是线性相关的,因此就可以对隐藏变量之差求概率(得到随机变量的累积分布函数),得到probit回归模型。

​ 根据建模过程,我们已经得到了逻辑回归模型,下一步就是找到损失函数,去尽可能地拟合数据。

​ 那么对于给定的样本数据集X,y,我们如何找到一组参数,使得用这样的方式,可以最大程度获得样本数据集X对应的分类输出y?

逻辑回归本质及其损失函数的推导、求解:

​ 逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。

找到广义线性模型中的联系函数如果选择单位阶跃函数的话,它是不连续的不可微。而如果选择sigmoid函数,它是连续的,而且能够将z转化为一个接近0或1的值。

逻辑回归的决策边界及多项式

​ 决策边界是分类中非常重要的一个概念。线性决策边界就是一条直线,而在真实数据,很少是一根直线就能分类的,通常都要加上多项式项,也就是非线性的决策边界。这样才能解决更复杂的问题。

​ 但是多项式项的阶数越大,越容易过拟合。那么就要进行模型的正则化。下一章就在逻辑回归中使用正则化,且看看sklearn中是如何使用逻辑回归的。

你可能感兴趣的:(算法,机器学习)