《机器学习实战中文版》 预测数值型数据:回归

预测数值型数据:回归

1. 概述

  • 线性回归对连续型数据进行预测
    优点:结果易于理解,计算上不复杂。
    缺点:对非线性的数据拟合不好。
    适用数据类型:数值型和标称型数据。

2. 实现

  • 用线性回归找到最佳拟合直线
    通过找平方误差的最小值可以得到回归系数的解,平方误差可写做: ∑ i = 1 m ( y i − x i T w ) 2 \sum_{i=1}^{m}\left(y_{i}-x_{i}^{\mathrm{T}} w\right)^{2} i=1m(yixiTw)2用矩阵可以把平方误差写成: ( y − x w ) τ ( y − x w ) \left(y-\mathbf{x} w)^{\tau}(y-\mathbf{x} w)\right. (yxw)τ(yxw) w w w求导得到: x T ( Y − x w ) \mathbf{x}^{T}\left(\mathrm{Y}-\mathbf{x} w\right) xT(Yxw) w w w等于零得到解: w ^ = ( X T X ) − 1 X T y \hat{w}=\left(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\mathrm{T}} y w^=(XTX)1XTy(需要注意的是上述公式中需要矩阵存在逆矩阵)
  • 局部加权线性回归
    为了避免欠拟合的一种方法,其实就是用“核”来选择特征数据的权重,最常用的就是高斯核
  • 缩减系数来“ 理解”数据
    为了避免在数据的特征比样本点还多时造成的矩阵不满秩,采用的一种缩减方法
    • 岭回归
      加入一个 λ \lambda λ I I I使矩阵非奇异
      (需要选择合适的 λ \lambda λ
    • 前向逐步回归
      根据最小误差,迭代计算出特征权重作为 λ \lambda λ
  • 预测乐高玩具套装的价格
    书本上是从Google Shopping的API中收集的数据,但是现在API貌似已经关闭了,好在书本提供的本地的HTML文件,这里是需要修改的地方
    • 爬取数据集
    • 交叉验证法得到多组回归系数
    • 选择最优系数

3. 总结

回归与分类的不同在于,前者预测连续型变量,后者预测离散型变量

你可能感兴趣的:(啃书笔记(机器学习实战中文版),机器学习)