《深度学习》正则化(二)

《深度学习》正则化(一)
本文将继续介绍正则化方法

六、参数绑定和参数共享

这种正则化方法强迫某些参数相等。它的显著优点是只有参数的子集需要被存储在内存中。对于特定模型,如卷积神经网络,这可能可以显著减少模型所占用的内存。
最流行和广泛使用的参数共享出现在应用于计算机视觉的卷进神经网络(CNN)中。参数共享显著降低了CNN模型的参数数量。

七、稀疏表示

前文所述的权重衰减直接惩罚模型参数。另一种策略是惩罚神经网络中的激活单元,稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。

八、Bagging

Bagging(bootstrap aggregating)是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均。采用这种策略的技术被称为集成方法。
模型平均是一个减少泛化误差的非常强大可靠的方法。在作为科学论文算法的基准时,它通常是不鼓励使用的。
机器学习比赛中的取胜算法通常是使用超过几十种模型平均的方法。

九、Dropout

Dropout提供了正则化一大类模型的方法,计算方便但功能强大。
具体而言,Dropout训练的集成包括所有从基础网络除去非输出单元后形成的子网络。如下图所示:
《深度学习》正则化(二)_第1张图片
一个输入单元被包括的概率为0.8,一个隐藏单元被包括的概率为0.5,网络中每个单元乘以相应的掩码然后,我们运行和之前一样的前向传播、反向传播以及学习更新。

1、Dropout与Bagging训练不太一样。在Bagging的情况下,所有模型都是独立的。在Dropout的情况下,所有模型共享参数。除了这些,Dropout和Bagging算法一样。
在Dropout情况下,通常大部分模型都没有显式地被训练,因为通常父神经网络会很大,取而代之的是在单个步骤中我们训练一小部分的子网络,参数共享会使得剩余的 子网络也能有好的参数设定。
2、(Hinton)涉及Dropout的一个重要观点是我们可以通过评估模型中在这里插入图片描述
即该模型具有所有单元,但我们将单元i的输出的权重乘以单元i的被包含概率。这个修改的动机是得到从该单元输出的正确期望值。我们把这种方法称为权重比例推断规则。目前还没有在深度非线性网络上对这种近似推断规则的准确性作任何理论分析,但经验上表现得很好。
3、一个关于Dropout的重要见解是,通过随机行为训练网络并平均多个随机决定进行预测,实现了一种参数共享的Bagging形式。
4、(Hinton)进一步的Dropout观点是Dropout不仅仅是训练一个Bagging的集成模型,并且是共享隐藏单元的集成模型。这意味着无论其他隐藏单元是否在模型中,每个隐藏单元必须能够表现良好。
5、Dropout强大的大部分原因来自施加到隐藏单元的掩码噪声。Dropout的另一个重要方面是噪声是乘性的,而不是加性噪声。

十、对抗训练

对抗样本在正则化背景下很有意思:通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。
对抗训练通过鼓励网络在训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为。

十一、正切传播和流行正切分类器

正切传播算法和流形正切分类器主要思想的示意图如下所示:
《深度学习》正则化(二)_第2张图片
它们都正则化分类器的输出函数f(x)。每条曲线表示不同类别的流形,这里表示嵌入二维空间中的一维流形。在一条曲线上,我们选择单个点并绘制一个与类别流形(平行并接触流形)相切的向量以及与类别流形(与流形正交)垂直的向量。我们希望分类函数在垂直于流形方向上快速改变,并且在类别流形的方向上保持不变。正切传播和流形正切分类器都会正则化f(x),使其不随x沿流形的移动而剧烈变化。正切传播需要用户手动指定正切方向的计算函数,而流形正切分类器通过训练自编码器拟合训练数据来估计流形的正切方向。

你可能感兴趣的:(深度学习)