(李航统计学习方法)逻辑回归

逻辑回归是参数模型,其本质是假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度上升/下降法来求解参数,从而实现数据的二分类。
逻辑回归模型在面试的过程中,最常问到的就是公式的推导过程。所以,手撕公式,很重要。

首先介绍的是逻辑斯蒂分布:

X是连续随机变量,X服从逻辑斯蒂分布。逻辑斯蒂分布的分布函数与密度函数如下:

(李航统计学习方法)逻辑回归_第1张图片
**

二项逻辑斯蒂回归模型

**
它是一种分类模型,由条件概率P(Y|X)表示,形式为参数化的 逻辑斯蒂分布。
(李航统计学习方法)逻辑回归_第2张图片
其中,exp为以e为底的指数函数,x∈Rn是输入,y∈{0,1}输出,w,b是模型参数——w是权值向量,b称作偏置,w·x是向量内积。
有了后验概率,逻辑斯蒂回归模型选择二分类中较大的那一个完成分类。
另外,逻辑斯特回归模型还有一个方便的形式,如果将权值向量w和输入向量x拓充为w=(w(1),w(2),…w(n),b)T,x=(x(1),…x(n),1)T,此时逻辑斯谛模型可以表示为:

(李航统计学习方法)逻辑回归_第3张图片
一个事件发生的几率是指该事件发生的概率与该事件不发生的概率的比值。
在这里插入图片描述
对上式进行一个对数变换后,发现:
在这里插入图片描述
这也就是说,在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯蒂回归模型。那接下来,就是求解w的过程。
使用极大似然估计。
假设:
在这里插入图片描述
上式可以合并为:
在这里插入图片描述
对其写出极大似然估计函数:
在这里插入图片描述
对其取对数:
在这里插入图片描述
对n+1个w进行求偏导,会得到n+1个等式

(李航统计学习方法)逻辑回归_第4张图片
得到结果:
在这里插入图片描述
这里共有n+1个上面的等式。

也可以使用矩阵形式的损失函数求解:
详情:https://www.cnblogs.com/pinard/p/6029432.html

逻辑回归与线性回归的关系:
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。
2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系
4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系
转自:https://blog.csdn.net/gcs1024/article/details/77478404
逻辑回归关于自变量的要求:
logistic 回归对自变量类型一般不做规定,但它要求自变量与logit p之间应符合线性关系。当自变量为分类变量时,可不必考虑线性关系,但当自变量为连续型变量时,则需要检验二者之间的线性关系是否成立。如果不成立,应进行相应的变量变换,如对数变换、指数变换、多项式变换等,使其以恰当的形式进入方程。
严格说来,应用logistic 回归之前必须先检验自变量与logit p之间是否具有线性关系,因为如果二者之间的关系是非线性的,参数估计将发生偏差,从而导致结果的不准确以及结论的不可靠。
逻辑回归为什么满足二项分布:
LR模型是这样工作的:对待分类样本的特征向量x,把x带入判定函数,算得概率。若概率大于预设门限(一般是0.5),则判定待分类样本属于类别1,否则属于类别0。
简单来说,逻辑回归模型希望找到一个合适的θ,使得h函数在预测集上能有足够好的表现。在此,我们假设预测集和训练集满足相同的概率分布。
那么,预测集和训练集应该满足怎样的概率分布呢?先贤们已经得出结论,二项分布。
请回想二项分布的性质:
1)重复进行n次随机试验,n次试验相互独立,且事件发生与否的概率在每一次独立试验中都保持不变。
2)每次试验仅有两个可能结果,且两种结果互斥。
逻辑回归的h函数正是基于 “样本分类标签满足二项分布”的假设而推导出来的。

逻辑回归的优缺点
优点:1)适合需要得到一个分类概率的场景。2)计算代价不高,容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。3)LR对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)

缺点:1)容易欠拟合,分类精度不高。2)数据特征有缺失或者特征空间很大时表现效果并不好。

与其他算法比较

与SVM比较

线性回归做分类因为考虑了所有样本点到分类决策面的距离,所以在两类数据分布不均匀的时候将导致误差非常大;LR和SVM克服了这个缺点,其中LR将所有数据采用sigmod函数进行了非线性映射,使得远离分类决策面的数据作用减弱;SVM直接去掉了远离分类决策面的数据,只考虑支持向量的影响。

但是对于这两种算法来说,在线性分类情况下,如果异常点较多无法剔除的话,LR中每个样本都是有贡献的,最大似然后会自动压制异常的贡献;SVM+软间隔对异常比较敏感,因为其训练只需要支持向量,有效样本本来就不高,一旦被干扰,预测结果难以预料。

你可能感兴趣的:(机器学习基础)