算法概述-02


1.逻辑回归和线性回归的联系和区别:

逻辑回归和线性回归的都是广义的线性回归。

线性回归是根据最小二乘法来建模,逻辑回归是根据最大似然来建模。

线性回归是在整个实数范围内进行预测,敏感度一样,

而逻辑回归是类似一种归一化,把预测值限定到【0,1】间的回归模型。

相同点就是:都用梯度下降来进行最优参数求解,得到模型。


2.逻辑回归的原理:

一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。


逻辑回归是一个基于条件概率的判别模型。

线性回归的结果通过一个函数sigmoid的映射得到逻辑回归。


sigmoid函数

3.逻辑回归的损失函数的推导以及优化

我们通过最大似然函数推到目标函数:

假设样本输出概率:


合并上述两个式子:


我们已知样本的条件概率,对于m个样本,求极大似然估计:


取对数,好处是把乘法变成加法:


取负数,把最大值转换为求最小值:


常见的优化方法有:梯度下降法,坐标轴下降法,等牛顿法

介绍梯度下降法:

求函数的梯度,并初始化参数值和步长。通过不断迭代参数,得到极小值。


4.正则化:

逻辑回归也会有过拟合问题,常见的正则化为L1,L2正则。



5.逻辑回归的优缺点:广泛而精巧

优点:

1.模型简单

2.训练速度快

3.资源占用小。

4.方便输出结果调整,因为输出的是概率值,我们可以通过设定阈值来进行正负样本分类。

逻辑回归广泛用于广告预测,垃圾分类,信用评估等。

缺点:

1.对比起SVM,Ada分类的准确度没有他们高。

2.对于正负样本不均衡,很难取处理。

3.在不引用其他方法的前提下,没法处理非线性数据和多分类。

4.逻辑回归没法筛选重要特征。



6.样本不均衡处理方法:

可以从数据集角度处理:

1.oversampling过采样:从少数类的样本中随机采样来添加新的样本。

缺点是过拟合。

解决方法:Easysemble

:通过集成学习的方法,多次随机有放回的过采样样本集和少类样本集组成多个不同训练集,训练多个模型,通过最终结果的组合得到最终结果。

2.undersampling欠采样:从多数类样本中随机选择少量样本相同的size和少量样本组成样本集。缺电:欠拟合。

解决方法:SMOTE算法

:对少数样本进行分析并人工合成新的样本添加进去,而不是下像之前的直接重复采样。

算法步骤:

7.sklearn参数


你可能感兴趣的:(算法概述-02)