深度学习中的正则化方法及总结

深度学习中的正则化方法及总结

机器学习的一个核心问题是设计不仅在训练数据上表现好,而且能在新输入上的泛化能力好的算法。在机器学习中,许多策略被显式的设计来减少测试误差。这些策略统称为正则化。
在深度学习场景中我们几乎总是发现最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型。下面来介绍几种策略,以创建这些正则化的大型深度模型。

1.参数范数惩罚

需要说明的是:在神经网络中,我们通常只对权重做惩罚而不对偏置做惩罚。因为每个权重会指定两个变量如何作用,而偏置只会控制一个单变量,因而我们不对偏置进行正则化方差也不会特别大,此外对正则化偏置可能会导致明显的欠拟合。

  • L^2权重衰减是权重衰减最常见的形式,我们还可以使用L ^1 正则化
  • 与L2正则化相比,L1正则化会产生更稀疏解。此处的稀疏性指的是最优值中的一些参数为0。由L1正则化导出的稀疏性质已经被用于特征选择机制,L1惩罚可以使得部分子集的权重为0,从而表明相应的特征可以被安全的忽略掉。
  • 许多正则化策略可以被解释为MAP贝叶斯推断,特别是L2正则化相当于权重是高斯先验的MAP贝叶斯推断。

2.为约束的范数惩罚

  • 有时候我们希望显式的限制,而不是惩罚。另一个使用显式约束和重投影而不是使用惩罚强加约束的原因是:惩罚可能会导致目标函数非凸,而使得算法陷入局部极小。最后,因为重投影的显式约束还对优化过程增加了一定的稳定性。
  • HInton 尤其推荐这样的策略:约束神经网络层的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius范数。分别限制每一列的范数可以防止某一个隐藏单元由非常大的权重。

3.正则化和欠约束问题

  • 在某些情况下,为了正确定义机器学习问题,正则化是必要的,机器学习中很多线性模型包括线性回归和PCA,都依赖于矩阵X^T X 的逆,只要它是奇异的,这些方法就会失效。正则化矩阵可以保证是可逆的。
  • 大多数正则化能够保证应用于欠定问题的迭代方法收敛。

4.数据集增强

  • 数据集增强对于一个具体的分类问题来说是特别有效的方法:对象识别。
  • 改善神经网络健壮性的方法之一是简单的将随机噪声添加到数输入在进行训练。最近表明噪声的幅度被细心调整后该方法是非常高效的。
  • 向输入注入噪声是机器学习算法是执行数据集增强的一种形式。通常普适操作(向输入添加高斯噪声)被认为是机器学习算法的一部分。

5.提前终止

  • 提前终止可能是深度学习中最常用的正则化形式。
  • 提前终止是一种正则化策略。提前终止可以将优化过程的参数空间限制在初始参数值sita0的小邻域内。

6.参数绑定和参数共享

  • 参数范数惩罚是正则化参数使其彼此接近的一种方式,而更流行的方法是使用约束:强迫某些参数相等。
  • 由于我们将各种模型或模型组件解释为共享唯一的参数,这种正则化方法通常被称为参数共享。目前最流行和方法使用的参数共享出现在应用于计算机视觉的卷积神经网络。
  • 权重衰减直接惩罚模型参数,另一种策略是惩罚神经网络中的激活单元,稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。

7.其他部分

  • Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型。然后让所有的模型表决测试样例的输出。这是机器学习常规策略一个例子。被称为模型平均,采用这种策略的输出技术被称为集成方法。
  • Bagging是一种允许重复多次使用同一种模型,训练算法和目标函数的方法。
  • 不是所有的构建集成的技术都是为了让集成模型比单个模型更加正则化。
  • 通过向集成逐步添加神经网络,Boosting已经应用于构建神经网络的集成;通过逐渐增加神经网络的隐藏单元,Boosting也可以将单个神经网络解释为一个集成。
  • Dropout提供了正则化一大类模型的方法,计算方便但功能强大。它的另一个显著优点是:不怎么限制适用的模型和训练过程。几乎在所有的分布式表示且可以使用随机梯度下降法的模型中都表现的很好。目前为止,Dropout仍然是最为广泛使用的隐式集成方法。

Bagging和Dropout的区别:在Bagging的情况下,每一个模型在其相应的训练集上都训练到收敛;在Dropout的情况下,通常大部分模型都没有显式地被训练,因为父神经网络会很大,取而代之的是,在单个步骤中训练一小部分的网络,由于参数共享所以会使得剩余的子网络也能有很好的参数设定。

  • 涉及到Dropout的一个重要观点是我们可以通过评估模型中p(y|x)来近似p_ensemple;该模型具有所有单元,但我们将单元i的输出的权重乘以单元i的被包含的概率。这个修改的动机是得到该单元输出的正确期望值。我们把这种方法称为权重比例推断规则 。对于不含有非线性隐藏单元的模型族而言,权重比例推断规则是精确的,对于具有非线性的深度模型仅仅是一个近似,虽然尚未有理论分析,但是却在实践中很好。

如果大家觉得有用,希望大家能点个赞支持一下!!!有兴趣的话可以关注我的博客,我会持续更新有关机器学习,深度学习,人工智能和算法相关内容的博客!!!

你可能感兴趣的:(深度学习)