2020-2-12 深度学习笔记7 - 深度学习中的正则化2(欠约束,数据集增强,噪声鲁棒性,输出目标注入噪声)

第七章 深度学习中的正则化

官网链接
2020-2-9 深度学习笔记7 - 深度学习中的正则化1(参数范数惩罚和范数惩罚约束)

3-正则化和欠约束问题

机器学习中许多线性模型,包括线性回归和PCA,都依赖于对矩阵 X T X X^TX XTX求逆。只要 X T X X^TX XTX是奇异的,这些方法就会失效。当数据生成分布在一些方向上确实没有差异时,或因为例子较少(即相对输入特征的维数来说)而在一些方向上没有观察到方差时,这个矩阵就是奇异的。在这种情况下,正则化的许多形式对应求逆 X T X + α I X^TX + \alpha I XTX+αI。这个正则化矩阵可以保证是可逆的。

4-数据集增强

让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练,因此需要在有限的数据中创建假数据并添加到训练集中。数据集增强在对象识别领域,语音识别领域是特别有效的方法。

  • 数据集的各种变换,如对图像的平移、旋转和缩放。
  • 在输入层注入噪声,也可以看作数据集增强的一种方法(如去噪自编码器)。通过将随机噪声添加到输入再进行训练能够大大改善神经网络的健壮性。

5-噪声鲁棒性(robustness:健壮性|抗变换性)

  • 将噪声加入到输入

上一节提出将噪声作用于输入,作为数据集增强策略。
在一般情况下,注入噪声远比简单地收缩参数强大,特别是噪声被添加到隐藏单元时会更加强大(如Dropout)。对于某些模型而言,向输入添加方差极小的噪声等价于对权重施加范数惩罚。

  • 将噪声加入到权重

这项技术主要用于循环神经网络。这可以被解释为关于权重的贝叶斯推断的随机实现。贝叶斯学习过程将权重视为不确定的,并且可以通过概率分布表示这种不确定性,向权重添加噪声是反映这种不确定性的一种实用的随机方法。

例如
对回归问题,假设对每个输入,网络权重添加随机扰动,将扰动后的模型记为 ϵ w ∼ N ( ϵ ; 0 , η I   ) \epsilon_{w} \sim N(\epsilon;0, \eta I \, ) ϵwN(ϵ;0,ηI)。目标函数为: J ~ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 y y ^ ϵ W ( x ) + y 2 ] \tilde J_W=E_{p(x,y,ϵW)}[(\hat y_{ϵW}(x)−y)^2]=E_{p(x,y,ϵW)}[\hat y^2_{ϵW}(x)−2y\hat y_{ϵW}(x)+y^2] J~W=Ep(x,y,ϵW)[(y^ϵW(x)y)2]=Ep(x,y,ϵW)[y^ϵW2(x)2yy^ϵW(x)+y2]

对于小的 η \eta η,最小化带权重噪声(方差为 η I \eta I ηI,)的 J J J等同于最小化附加正则化项:
η E p ( x , y ) [ ∣ ∣ ∇ W   y ^ ( x ) ∣ ∣ 2 ] \eta E_{p(x,y)}[||\nabla_{W}~\hat y(x)||^2] ηEp(x,y)[W y^(x)2] J J J

这种正则化鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。换句话说,它推动模型进入对权重小的变化相对不敏感的区域,找到的点不只是极小点,而且是由平坦区域所包围的极小点。

6-向输出目标注入噪声

大多数数据集的 y y y标签都有一定错误。错误的 y y y不利于最大化 log ⁡ p ( y ∣ x ) \log p(y \mid x) logp(yx)
避免这种情况的一种方法是显式地对标签上的噪声进行建模

将噪声加入到输出。即显式地对标签上的噪声进行建模,假设训练集上的标记 y y y正确的概率是 1 − ϵ 1-\epsilon 1ϵ,其他标签是正确的可能性是 ϵ \epsilon ϵ

例如,标签平滑(label smoothing)通过把确切分类目标从0和1替换成 ϵ k − 1 \frac{\epsilon}{k-1} k1ϵ 1 − ϵ 1-\epsilon 1ϵ,正则化具有 k k k个输出的softmax函数的模型。softmax函数值永远在区间(0,1)内而达不到0或1,标签平滑的优势是能够防止模型追求确切概率而不影响模型学习正确分类。

你可能感兴趣的:(深度学习,IT)