机器学习——误差

E r r o r Error Error (误差)的主要有两个来源,分别是 b i a s bias bias (偏差)和 v a r i a n c e variance variance (方差)

机器学习——误差_第1张图片

三者之间的联系

  • 机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? - 修宇亮的回答 - 知乎 https://www.zhihu.com/question/27068705/answer/137487142

  • 机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? - 马同学的回答 - 知乎 https://www.zhihu.com/question/27068705/answer/1689740820

  • 机器学习——误差_第2张图片

  • 机器学习——误差_第3张图片

计算

  • 机器学习——误差_第4张图片

为什么同一个靶心,靶上有很多点

  • 用同一个model,在不同的训练集中找到的 f ∗ f^∗ f 就是不一样的
  • 比如都是一次模型,但给的数据集不同,训练出来的函数就不同,预测值就不同

考虑不同模型的方差和偏差

  • 一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。
  • 一次模型的偏差比较大,而复杂的5次模型,偏差就比较小。

欠拟合、过拟合

  • 偏差比较大造成的误差,这种情况叫做欠拟合

  • 方差过大造成的误差,这种情况叫做过拟合

  • 欠拟合:此时应该重新设计模型。比如加参数、考虑更高次幂更复杂模型。此时如果加数据训练,意义不大

  • 过拟合:简单粗暴的方法:更多的数据

模型选择

  • 分析错误原因,主要是要帮助我们进行更好的模型选择
  • 在偏差和方差之间就需要一个权衡
    想选择的模型,可以平衡偏差和方差产生的错误,使得总错误最小

让训练的模型更好的方法

  • 交叉验证
    • 交叉验证 就是将训练集再分为两部分,一部分作为训练集,一部分作为验证集。用训练集训练模型,然后再验证集上比较,确实出最好的模型之后(比如模型3),再用全部的训练集训练模型3,然后再用public的测试集进行测试,此时一般得到的错误都是大一些的。
    • 机器学习——误差_第5张图片
  • N-折交叉验证
    • 将训练集分成N份,比如分成3份。比如在三份中训练结果Average错误是模型1最好,再用全部训练集训练模型1。
    • 机器学习——误差_第6张图片

你可能感兴趣的:(机器学习)