逻辑回归-QA

Q1:逻辑回归的本质?

角度一:将事件发生的几率的对数作为因变量,和众多自变量间做线性回归。或者说将对样本x进行分类的线性函数的值转换到0-1上的概率值。
角度二:从贝叶斯学派角度看,认为参数为随机变量,带有特定的先验分布(这里的先验分布便是二项分布),通过极大似然估计便可得到参数的估计值。

Q2:逻辑回归参数估计方法?

通过极大似然估计最有参数(因变量服从伯努利分布),通常似然函数难以直接求导得出最优值,所以采用梯度下降法或者拟牛顿法学习参数。相比LR,因变量服从正态分布,所以化简后的似然函数的目标部分为平方误差和,同最小二乘的损失函数一致。

Q3:逻辑回归只能用于二分类吗?

也可以用于多分类,这时候会选择将某一类当成A类,其他的类都归为B类进行多轮组合学习,最后选择概率最大的那一类???

Q4:逻辑回归的优缺点。

优点:1)较分一般的分类器而言,逻辑回归会给出具体的类概率值。
2)实现简单,广泛应用于工业界。
3)LR对数据中的小噪音的鲁棒性很好,并且轻微的多重共线性不会对其结果产生特别的影响。严重的多重共线性可以使用LR+l2正则来解决。
缺点:1)当样本量很大时,LR的性能并不是很好。
2)不能很好的处理大量的多类特征和变量。
3)容易欠拟合
4)传统的LR只能处理二分类,在此基础上衍生的Softmax才能处理多分类。
5)对于非线性特征,需要进行转换

Q5:共线性对回归的影响?

共线性,指多元回归模型中,各自变量之中至少有两个完全或高度相关。

一方面,自变量之间的强相关,虽不会影响对应回归系数的大小,但会扩大其回归系数的方差。由于回归系数比上标准差,即检验该回归系数是否显著的 t 值。由于 t 值的降低,导致回归系数不显著,将无法拒绝一个错误的零假设。

另一方面,自变量之间的强相关,可能导致回归系数的正负方向与真实的相反,影响特征的可解释性。

可以认为 LR 来源于多元回归,将元与特征,自变量与特征,回归系数与权重一一对应就可以啦。
原文:https://blog.csdn.net/lipengcn/article/details/82467082

解决方法
1、增加样本容量:多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。
2、如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数β进行检验;对因变量y值的推断限定在自变量样本值的范围内。
3、删除一个或几个共线变量:实际操作中常用逐步法作为自变量筛选方法。
4、岭回归法;岭回归法是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法。
5、主成分分析法。
原文:https://blog.csdn.net/weixin_41725746/article/details/80545118

Q6:逻辑回归更深的坑?

https://blog.csdn.net/u010867294/article/details/79138603

你可能感兴趣的:(逻辑回归-QA)