偏差、方差、欠拟合、过拟合、学习曲线

文章目录

    • 欠拟合 under fitting
    • 过拟合 over fitting
    • 偏差与方差
    • 偏差 - 方差窘境 bias-variance dilemma
    • 学习曲线 learning curve

欠拟合 under fitting

偏差、方差、欠拟合、过拟合、学习曲线_第1张图片

欠拟合(under fitting),这个问题的另一个术语叫做 高偏差(High bias)。这两种说法大致相似,意思是它没有很好地拟合训练数据。

过拟合 over fitting

偏差、方差、欠拟合、过拟合、学习曲线_第2张图片
  • 过度拟合(over fitting),另一个描述该问题的术语是 高方差(High variance)

  • 过拟合的问题经常会在模型过度复杂或训练数据较少时发生,导致模型无法泛化到新的数据样本中。

  • 泛化 (generalize) 指的是一个假设模型能够应用到新样本的能力。

  • 正则化技术是保证算法泛化能力的有效工具,参见: 正则化方法:数据增强、regularization、dropout

偏差与方差

学习算法的预测误差,或者说泛化误差 (generalization error) 可以分解为三个部分: 偏差(bias)、方差(variance) 和噪声(noise)。在估计学习算法性能的过程中, 我们主要关注偏差与方差。因为噪声属于不可约减的误差 (irreducible error)。

偏差、方差、欠拟合、过拟合、学习曲线_第3张图片
  • 偏差(bias):这里的偏指的是偏离,描述的是预测值与标准值之间的差距。偏差越大,越偏离真实数据。 “标准” 也就是真实情况 (ground truth),在分类任务中, 这个 “标准” 就是真实标签 (label).

  • 方差(variance):描述的是预测值的变化范围,离散程度,也就是预测值在标准值附近的波动程度。方差越大,数据的分布越分散。

  • 假设红色的靶心区域是学习算法的正确预测值,蓝色点为训练过程中模型对样本的预测值,蓝色点距离靶心越远,预测效果越差。

  • 蓝色点比较集中时,方差比较小,比较分散时,方差比较大。

  • 蓝色点比较靠近红色靶心时,偏差较小;远离靶心时,偏差较大。

偏差 - 方差窘境 bias-variance dilemma

偏差、方差、欠拟合、过拟合、学习曲线_第4张图片
  • 给定一个学习任务,在训练初期由于训练不足,学习器的拟合能力不够强,偏差比较大,也是由于拟合能力不强,数据集的扰动也无法使学习器产生显著变化,也就是欠拟合的情况。

  • 随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据的扰动也能够渐渐被学习器学到。

  • 充分训练后,学习器的拟合能力已非常强,训练数据的轻微扰动都会导致学习器发生显著变化,当训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合。

学习曲线 learning curve

通过绘制学习曲线(learning curve),可以容易看出模型是否存在高偏差或高方差,以及判断否能够通过增加样本数目解决这些问题。

偏差、方差、欠拟合、过拟合、学习曲线_第5张图片

高偏差的情况:

高偏差、欠拟合:训练集和交叉验证集的预测结果将会非常接近,但准确率都很低。对于高偏差的情况,即使增加更多的训练样本,模型的准确率也无法得到改善,可以选择的方法是:

  • 选用更多的样本特征

  • 增加模型复杂度,增加网络层数

  • 减小正则化系数 λ λ λ

高方差的情况:

高方差、过拟合:训练集误差和交叉验证集误差之间以一段很大的差距。对于高方差的情况,可以选择的方法是:

  • 使用更多的训练样本

  • 尝试选用更少的样本特征

  • 增大正则化系数 λ λ λ

  • 更多的正则化方法: 正则化方法:数据增强、regularization、dropout

你可能感兴趣的:(机器学习,-,深度学习)