经典算法：逻辑回归（Logistic Regression）

一、模型介绍

Logistic Regression（逻辑回归）是机器学习中一个非常非常常见的模型，是一种用于解决二分类（0 or 1）问题的机器学习方法。Logistic Regressio 与 Linear Regression 都是一种广义线性模型。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。因此与线性回归有很多相同之处，去除 Sigmoid 映射函数的话，逻辑回归算法就是一个线性回归。

逻辑回归是以线性回归为理论支持的，但是逻辑回归通过 Sigmoid 函数引入了非线性因素，因此可以轻松处理 0/1 分类问题。本文主要介绍了 Logistic Regression（逻辑回归）模型的原理以及实践使用。

二、模型原理

1. 目标函数

线性回归公式：

对于 Logistic Regression 来说，其思想也是基于线性回归（Logistic Regression 属于广义线性回归模型），公式如下：

其中称作 sigmoid 函数，从上式中可以看到 Logistic Regression 算法式将线性函数的结果映射到了 sigmoid 函数中。
sigmoid 函数图形如下：

image.png

可以看到，sigmoid 的函数输出是介于 (0,1) 之间的。所以上式中的的输出是数据属于某一类的概率。我们可以将 sigmoid 函数看成样本数据的概率密度函数。
我们接下来需要做的就是怎么样去估计参数？表示的是结果取1的概率，因此有：

根据上式，我们可以使用概率论中极大似然估计的方法求解：

因为样本数据每个独立，所以它们的联合分布可以表示为各边际分布的乘积。
取似然函数为 ：
取对数似然函数为：

至此，我们的目标函数已经确定为，最大似然估计就是要求使取最大值时的。

2. 损失函数（代价函数）

令：这里的就是我们的损失函数。其实可以发现，在 Logistic Regression 中我们最大化似然函数和最小化损失函数实际上是等价的。关于 Logistic Regression 的损失函数求解，接下来介绍梯度下降和牛顿法两种方法。
优化的主要目标是找到一个方向，参数朝这个方向移动之后使得损失函数的值能够减小，这个方向往往由一阶偏导或者二阶偏导各种组合求得。

随机梯度下降
梯度下降是通过对的一阶导数来找下降方向，并且以迭代的方式来更新参数，更新方式：
其中 k 为迭代次数。每次更新参数后，通过比较小于阈值或者到达最大迭代次数来停止迭代。
牛顿法
牛顿法的基本思路是，在现有极小点估计值的附近对做二阶展开，进而找到极小点的下一个估计值。假设为当前的极小值估值，则有：
令, 得到。因此有迭代更新式：
注意，牛顿法是需要目标函数是二阶连续可微的。

三、模型细节

1. 为什么适合离散特征？

我们在使用 Logistic Regression 的时候很少会把数据直接丢给 LR 进行训练，我们一般都会对特征进行离散化处理，这种做的好处是：

离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展。
离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为 100 的也不会对模型造成很大的干扰。
LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合。

总结，特征离散化以后起到了加快计算，简化模型和增加泛化能力的作用。

2. 为什么不用平方误差？

假设目标函数是 MSE，即：

根据的初始化，导数值可能很小而导致收敛变慢，而训练过程中也可能因为该值过小而导致提前终止训练。
反过来看交叉熵的梯度：
当模型输出概率偏离于真实概率时，梯度较大，会加快训练速度，当模型输出概率接近于真实概率时，梯度较小，训练速度会变慢，不会出现 MSE 的问题。

3. 为什么使用 sigmoid 激活函数？

假设预测值 y 服从伯努利分布。
利用广义线性模型的假设, 符合逻辑回归模型。

详情可参考：https://blog.csdn.net/u011467621/article/details/48197943

四、模型优缺点

1. 适用场景

用于分类：适合做很多分类算法的基础组件。
用于预测：预测事件发生的概率（输出）。
用于分析：单一因素对某一个事件发生的影响因素分析（特征参数值）。
基本假设：输出类别服从伯努利二项分布。
样本线性可分。
不必在意特征间相关性的情景。

2. 优点

实现简单，广泛的应用于工业问题上。
分类时计算量非常小，速度很快，存储资源低。
便利的观测样本概率分数。

3. 缺点

当特征空间很大时，逻辑回归的性能不是很好。
容易欠拟合，一般准确度不太高。
依赖所有数据，很难处理数据不平衡问题；
处理非线性数据较麻烦。在不引入其他方法的情况下，只能处理线性可分的数据。

五、模型使用

sklearn 中的 Logistic Regression:

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(max_iter=1000)

LR 在 sklearn 中的使用比较简单，参数较少，这里不再赘述。