逻辑回归、LR算法、LR优缺点、LR推导、LR损失函数

逻辑回归

    • LR–逻辑回归
        • LR作用?
        • 回归和分类的区别?
        • 逻辑回归函数?
        • 逻辑回归损失函数?
        • LR的推导?
        • LR和线性回归的区别
        • 逻辑回归怎么实现多分类?
          • One-Vs-All
          • One-Vs-One
          • Softmax
        • 优缺点

LR–逻辑回归

LR, Logistic Regression,逻辑回归
之前笔记:逻辑回归
推荐视频链接:
逻辑回归
逻辑回归

LR作用?

  • 常用的处理二分类问题的线性模型

二分类:分类目标只有两种

判断是猪吗-----是、不是

回归和分类的区别?

  • 回归模型的输出是连续的
  • 分类模型的输出是离散的
    逻辑回归、LR算法、LR优缺点、LR推导、LR损失函数_第1张图片

逻辑回归函数?

逻辑回归=线性回归+sigmoid函数

  • 线性回归就是用一条直线来拟合自变量和因变量之间的关系

把回归变成分类?

  • sigmoid函数
    参考:sigmoid
    将y压缩为0-1,y小于0–变成[0,0.5],y大于0–变成[0.5,1]
    逻辑回归、LR算法、LR优缺点、LR推导、LR损失函数_第2张图片
  • 逻辑回归:把线性函数的输出z,当做sigmoid函数的输入,最后得到y。当 y ∈ [ 0 , 0.5 ] y\in[0,0.5] y[0,0.5],当 y ∈ [ 0 , 1 ] y\in[0,1] y[0,1]
  • 逻辑回归函数:

    如何去求解出好的参数?
  • 利用到好的损失函数

逻辑回归损失函数?

在这里插入图片描述

  • 损失函数是体现“预测值”与“实际值”相似程度的函数
  • 损失函数越小,模型越好

解读损失函数

  • 其中y表示样本的真实标签,(0或1)
  • a表示预测的结果是0或者1的概率,a的取值范围为[0,1]
  • 对于上述损失函数,分开讨论两种预测结果—(正|反)
  • 正:y=1,loss=-yIna,当a越接近1时,yIna越大,loss越小
  • 负同理

LR的推导?

我们采用 ∈ {0, 1} 以符合Logistic 回归的描述习惯.

为了解决连续的线性函数不适合进行分类的问题,我们引入非线性函数 ∶ R → ( 0 , 1 ) ∶ℝ^ → (0, 1) gRD(0,1)来预测类别标签的后验概率( = 1|).
( = 1 ∣ ) = ( ( ; ) ) ( = 1|) = ((; )) p(y=1x)=g(f(x;w))
其中(⋅) 通常称为激活函数(Activation Function),其作用是把线性函数的值域从实数区间“挤压”到了(0, 1) 之间,可以用来表示概率.

Logistic 回归中,我们使用Logistic 函数来作为激活函数.标签 = 1 的后验概率为
( = 1|)=(T) ≜ 1 1 + e x p ( − T ) \frac{1}{1 + exp(−^T)} 1+exp(wTx)1
为简单起见,这里 = [ 1 , ⋯ , , 1 ] T = [_1, ⋯ , _, 1]^T x=[x1,,xD,1]T = [ 1 , ⋯ , , ] T = [_1, ⋯ , _, ]^T w=[w1,,wD,b]T分别为 + 1 维的增广特征向量和增广权重向量.

逻辑回归、LR算法、LR优缺点、LR推导、LR损失函数_第3张图片
在这里插入图片描述

LR和线性回归的区别

  • 逻辑回归=线性回归+sigmoid函数
  • 线性回归是用一条直线来拟合自变量和因变量之间的关系(做预测)
  • 逻辑回归是来解决二分类问题的(做分类)

逻辑回归怎么实现多分类?

One-Vs-All
  • 思想:把一个多分类问题变成多个二分类问题
  • 思路:选择其中一个类别为正类(Positive),使其他所有类别为负类(Negative)。然后一个接一个
  • 缺点:训练集样本数量不平衡
One-Vs-One
  • 思想:One-Vs-One 是一种相对稳健的扩展方法。对于同样的三分类问题,我们像举行车轮作战一样让不同类别的数据两两组合训练分类器,可以得到 3 个二元分类器。
  • 缺点:训练出更多的 Classifier,会影响预测时间。
Softmax
  • 逻辑回归使用sigmoid激活函数,映射到【0,1】之间的数值上
  • 使用Softmax让一个样本映射到多个【0,1】之间的数值上
  • Softmax使得所有概率之和为1,对概率分布归一化

优缺点

优点:

对数据中小噪声的鲁棒性好;
LR 算法已被广泛应用于工业问题中;
多重共线性并不是问题,它可结合正则化来解决。

LR算法的缺点:

对于非线性特征,需要转换
当特征空间很大时,LR的性能并不是太好

你可能感兴趣的:(机器学习,机器学习,神经网络,算法,概率论)