深度神经网络—正则化(三)

深度学习可能存在过拟合问题——高方差,有两个解决办法,一是正则化,另一个是准备更多的数据,但由于无法时时刻刻准备足够多的训练数据或者获取数据的成本高,所以通常使用正则化的方法来避免过拟合。

正则化的主要方法有:

  1. L2正则化
  2. dropout
  3. 数据增广
  4. early stopping
  5. Bagging
  6. 在样本中增加噪声

前面已经介绍了L2正则化,dropout,本篇就其他方法中的early stopping进行介绍。

Early stopping

  在训练过程中,通常希望训练误差,代价函数J都在下降,如下图中training error or J 曲线,另外,还可以绘制验证机误差,它可以使验证机上的分类误差,或验证集上的代价函数,逻辑损失或对数损失等,在验证集上的误差通常会先呈下降趋势,然后再某个节点出开始上升,如图中dev set error 曲线。
深度神经网络—正则化(三)_第1张图片
  当还未在神经网络运行太多迭代过程的时候,w参数接近于0,因为随机初始化w值的时候,它的值是较小的随机值。当你开始迭代过程,w的值会变得越来越大。到后面时,w的值已经变得十分大了。所以early stopping要做的就是在中间点停止迭代过程。我们将会得到一个大小中等的w参数,会得到与L2正则化相似的结果,选择了w参数较小的神经网络。
Early stopping的缺点:
  在机器学习过程中包括几个步骤,其中有两步为:
    选择一个算法来优化代价函数J
    防止发生过拟合;
深度神经网络—正则化(三)_第2张图片
  Early stopping的主要缺点就是不能独立的处理这两个问题。因为提早停止梯度下降,也就是提着了优化代价函数J ,因为现在不再尝试降低代价函数J ,所以代价函数J 的值可能不够小,同时又不希望出现过拟合,但是没有采取不同的方法来解决这两个问题,而是用一种方法同时解决两个问题,这样做的结果是使要考虑的问题变得更加复杂。

你可能感兴趣的:(深度神经网络—正则化(三))