机器学习基础--训练误差与泛化误差;泛化

训练误差与泛化误差

  1)机器学习模型在训练数据集上表现出的误差叫做训练误差;
  2)在任意一个测试数据样本上表现出的误差的期望值叫做泛化误差。

  统计学习理论的一个假设是:训练数据集和测试数据集里的每一个数据样本都是从同一个概率分布中相互独立地生成出的(独立同分布假设)。
  基于以上独立同分布假设,给定任意一个机器学习模型及其参数,它的训练误差的期望值和泛化误差都是一样的。然而从之前的章节中我们了解到,在机器学习的过程中,模型的参数并不是事先给定的,而是通过训练数据学习得出的:模型的参数在训练中使训练误差不断降低。
  所以,如果模型参数是通过训练数据学习得出的,那么训练误差的期望值无法高于泛化误差。换句话说,通常情况下,由训练数据学到的模型参数会使模型在训练数据上的表现不差于在测试数据上的表现。

  结论:训练误差的降低不一定意味着泛化误差的降低。机器学习既需要降低训练误差,又需要降低泛化误差。


泛化

  泛化是机器学习本身的核心。简单说,泛化就是在训练数据集上训练好的模型,在测试数据集上表现如何。
  正则化是我们用来防止过拟合的技术。由于我们没有任何关于测试扰动的先验信息,所以通常我们所能做的最好的事情就是尝试训练训练分布的随机扰动,希望这些扰动覆盖测试分布。随机梯度下降,dropout,权重噪音,激活噪音,数据增强,这些都是深度学习中常用的正则化算子。在强化学习中,随机化模拟参数使得训练更加健壮。张驰原在他ICLR 2017演讲中指出,正规化是“任何使训练变得更加困难的事情”(相对于“限制模型容量”的传统观点)。
  基本上,让事情更难优化,就能提高泛化性能。

你可能感兴趣的:(机器学习基础)