【机器学习】分类:逻辑回归 Logistic Regression

  逻辑回归(Logistic Regression,LR)虽然是回归,但实际上是分类模型,基本的LR算法是一个二分类的线性分类算法;其本质是假设数据服从这个分布,然后使用极大似然估计做参数的估计

线性可分与线性不可分:是否可以使用线性判别函数正确分类,是则线性可分,否则线性不可分


图示

1.基本LR模型

1.1 Logistic分布:假设数据服从这个分布

  Logistic分布是一种连续型的概率分布,其分布函数和密度函数分别如下(u表示位置参数,r表示形状参数):

分布函数

密度函数

分布函数和密度函数的推演辅助


推演辅助

Logistic分布函数在 u = 0 r = 1的时候就是sigmoid函数

sigmoid函数分布

1.2 基本Logistic回归:二分类

  假设性前提:对于所给数据集,假设存在一条直线可以将数据完成线性可分。如下图“感知机图解”:给定数据集,该数据集可以根据决策边界进行划分。

感知机图解

决策边界

判断逻辑,大于0则为1

  Logistic 回归再此基础上增加一层,它是要计算分类概率 P(Y=1) 与输入向量 x 的直接关系,然后通过比较概率值来判断类别
  给定数据集(二分类:离散)
数据集

  用下图“拟合函数:取值是连续的,不能拟合离散变量”中的函数(参考感知机决策边界)来拟合用它来拟合条件概率P(Y=1|x) (条件概率是连续的,所有可以使用该拟合函数,此处就是在感知机之上增加了一层条件概率计算)
拟合函数:取值是连续的,不能拟合离散变量

通过划定一个阈值,然后比较样本与阈值的大小来分类


阶跃函数

  根据概率分布应在0和1之间的要求,w不可为o(若等于零向量则没有什么求解的价值,为0则拟合函数的取值为R,与概率分布要求不符)。具体推演过程参考下图“推演”:

推演辅助

  将 y 视为 x 为正例的概率,则 1-y 为 x 为其反例的概率。两者的比值称为几率(odds),指该事件发生与不发生的概率比值,若事件发生的概率为 p。则对数几率:
对数几率

  逻辑回归的思路:先拟合决策边界(不局限于是否线性),再建立这个边界与分类的概率联系,从而得到而分类情况下的概率。使用线性回归模型的预测值逼近分类任务真实标记的对数几率。逻辑回归是在线性回归的基础上加了一个sigmoid函数映射。逻辑回归解决的是分类问题,输出的是离散值,线性回归解决的是回归问题,输出的是连续值。线性回归是在实数范围内进行预测,而分类是在[0,1],逻辑回归相对于线性回归减少了预测范围。
逻辑回归的数学模型

1.3 损失函数

  逻辑回归的数学模型确定后,则对于逻辑回归算法而言,需要求解的分隔超平面中的参数即为权重w和偏置向量b
  把单个样本看作一件事,那么这件事发生的概率为:

事件发生概率,p即上文提及的P(y=1|x)

  等价于事件i(即针对样本(xi, yi))发生的概率(其标签是yi的概率)为:
事件发生概率,当y=1,结果是p;当y=0,结果是1-p

  综合,对于数据集{(x1, y1), (x2, y2), (x3, y3), ... , (xn, yn)},所有事件一起发生的总概率为每一个样本发生的概率相乘:
合事件发生概率

  对这个合事件发生的概率的最大情况求解可以理解为使用极大似然估计做参数的估计(找到一组参数,使得在这组阐述下,数据的概率--似然度 最大)。对于似然函数的极大值求解,通常使用Log似然函数(将连乘简化为连加)。
对数,p即上文提及的P(y=1|x)

  上图中的函数F(w)是事件发生的总概率,其值越大越好。将F(w)取负数又可以看作逻辑回归模型的损失函数,损失函数来衡量模型预测错误的程度,损失函数最小则预测成功率越高。即在逻辑回归模型中,最大化似然函数和最小化损失函数实际上是等价的。

损失函数可以加上正则化项,以防止过拟合。

1.4 求解

  求解LR的方法很多,常用的是梯度下降,本文就不多赘述了。

2.LR推广形式

  • Softmax Regression:多分类问题
  • Factorization Machine:非线性问题

3.比较

3.1 逻辑回归与SVM

共同:

  • 都是分类算法,本质上都是在找最佳分类超平面;
  • 都是监督学习算法;
  • 都是判别式模型;

判别式模型不关心数据是怎么生成的,只关心数据之间的差别,用差别对数据分类

  • 都可以增加不同的正则项。
    区别:
  • LR是统计方法,SVM是几何方法;——LR不依赖样本之间的距离,SVM是基于距离的
  • SVM只考和分类最相关的少数点去学习分类器,而LR通过非线性映射减少离分类平面较远点的权重;
  • 损失函数不同,LR是交叉熵,SVM是hingeLoss;
  • LR是参数模型,SVM是非参数模型;——(LR受数据分布影响,尤其样本不均衡时影响很大,需要先做平衡,而SVM不直接依赖于分布)

参数模型:假设数据服从某一分布,该分布由一些参数确定

  • LR可以产生概率,SVM不能。

3.2 逻辑回归与朴素贝叶斯

  LR是判别式模型(估计条件概率分布),朴素贝叶斯是生成式,模型(联合概率分布)。朴素贝叶斯的前提条件是条件独立,即每个特征权重独立,如果数据不符合这个情况,则朴素贝叶斯的分类表现就没有LR好了

4.逻辑回归应用

  • 用于分类:广告点击率、垃圾邮件判定、患病、金融诈骗
  • 用于预测事件发生的概率
  • 用于分析:单一因素对某一事件发生的影响因素分析

你可能感兴趣的:(【机器学习】分类:逻辑回归 Logistic Regression)