《机器学习实战》和Udacity的ML学习笔记之线性回归

《机器学习实战》和 UdacityML学习笔记


1.回归模型的选择

在线性回归中,可以通过改变特征的数量测试模型的拟合程度。
《机器学习实战》和Udacity的ML学习笔记之线性回归_第1张图片

各种特征数量的模型拟合情况

如图所示,当特征值k等于3的时候,相对更好地拟合了原数据,但又不糊像当K=8时那样夸张。(过度拟合)。其实在绘制误差和特征数量图的时候也可以发现,特征数量从3到8,误差机会没变,就时说引入的额外的特征根本没又起作用。所以可以得出结论,在训练过程中特征数量为3的情况为最优。
最后通过交叉验证误差对比图,发现误差特征数量图的结论也适用到实际测试当中。即特征数量为3的时候,模型的拟合情况最好,无论是在训练集还时在测试集当中。
《机器学习实战》和Udacity的ML学习笔记之线性回归_第2张图片
误差特征数量图

《机器学习实战》和Udacity的ML学习笔记之线性回归_第3张图片
交叉验证误差对比图

2. 回归中的交叉验证

交叉验证:主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。一句话概括就是,从样本中取小一部分做测试集。

常见的交叉验证方法:

  • Hold-Out:即一分为二,一半测试,一半训练
  • K-fold (记为K-CV):即分成k份,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集。
  • Leave-One-Out:即每个样本单独作为验证集,其余的N-1个样本作为训练集

更多详细参考:交叉验证(CrossValidation)方法思想简介

3.线性回归中的输入

除了连续型的标量以外,向量也可以作为回归模型的输入,这是向量的方向会又某种意义。例如颜色的RGB值,某些值越大,某种程度就会加深,如灰度值之类的。

4.线性回归相关资料

1.Uacity英文资料Linear Regression

5.此处未涉及的问题(建模、应用等)

1.线性回归及梯度下降
2.Stanford机器学习笔记-1.线性回归

3.有监督学习之–回归(其它类型的回归)

4.[ML]机器学习(machine learning)的入门之旅 – 从kaggle谈到线性回归(解题应用)

5.线性回归(Linear regression)及其相关问题(有具体模型建立)

你可能感兴趣的:(机器学习)