线性回归算法解析

线性回归算法解析

  • 概念
  • 模型函数
  • 损失函数
  • 求取损失函数最小化的算法
  • 线性回归的推广:多项式回归
  • 线性回归的推广:广义线性回归
  • 线性回归的正则化
  • Sklearn中工具包使用场景

概念

线性回归算法解析_第1张图片

模型函数

线性回归算法解析_第2张图片

损失函数

线性回归算法解析_第3张图片
线性回归算法解析_第4张图片

求取损失函数最小化的算法

线性回归算法解析_第5张图片

线性回归的推广:多项式回归

线性回归算法解析_第6张图片

线性回归的推广:广义线性回归

线性回归算法解析_第7张图片

线性回归的正则化

线性回归算法解析_第8张图片

Sklearn中工具包使用场景

  1. LinearRegression
    一般来说,只要我们觉得数据有线性关系,LinearRegression类是我们的首先。如果发现拟合或者预测的不好,再考虑用其他的线性回归库。如果是学习线性回归,推荐先从这个类开始第一步的研究。

  2. Ridge
    一般来说,只要我们觉得数据有线性关系,用LinearRegression类拟合的不是特别好,需要正则化,可以考虑用Ridge类。但是这个类最大的缺点是每次我们要自己指定一个超参数α,然后自己评估α的好坏,比较麻烦,一般我都用下一节讲到的RidgeCV类来跑Ridge回归,不推荐直接用这个Ridge类,除非你只是为了学习Ridge回归。

  3. RidgeCV
    一般来说,只要我们觉得数据有线性关系,用LinearRegression类拟合的不是特别好,需要正则化,可以考虑用RidgeCV类。不是为了学习的话就不用Ridge类。为什么这里只是考虑用RidgeCV类呢?因为线性回归正则化有很多的变种,Ridge只是其中的一种。所以可能需要比选。如果输入特征的维度很高,而且是稀疏线性关系的话,RidgeCV类就不合适了。这时应该主要考虑下面几节要讲到的Lasso回归类家族。

  4. Lasso
    一般来说,对于高维的特征数据,尤其线性关系是稀疏的,我们会采用Lasso回归。或者是要在一堆特征里面找出主要的特征,那么Lasso回归更是首选了。但是Lasso类需要自己对α调优,所以不是Lasso回归的首选,一般用到的是下一节要讲的LassoCV类。

  5. LassoCV
    LassoCV类是进行Lasso回归的首选。当我们面临在一堆高位特征中找出主要特征时,LassoCV类更是必选。当面对稀疏线性关系时,LassoCV也很好用。

  6. LassoLars
    LassoLars类需要自己对α调优,所以不是Lasso回归的首选,一般用到的是下一节要讲的LassoLarsCV类。

你可能感兴趣的:(机器学习算法攻克)