正则化

正则化通常情况下是为了防止NN过拟合的惩罚项。

L1和L2正则项

完整的损失函数应该包括正则项,其公式描述如下:

L=1NiLi+λR(W) L = 1 N ∑ i L i + λ R ( W )

对于正则项的选择,一般有L1和L2两种,
1)L2一般广泛应用于图像处理领域,因为它让权重分布更加分散,从而一定程度上增强泛化性能。
2)L1会令权重变稀疏,因此在文本处理时,词组作为特征输入过大,稀疏性就变得尤为重要。
至于L1会令W变稀疏的推导过程,简言之,若w为0时,loss最小,则只需要令w大于0时L1单调递增,w小于0时单调递减即可。因此,对L1求导可得,只需令 λ λ 大于L0在0点的导数的绝对值即可

另外 λ λ 在机器学习以及深度学习领域都是一个令人头痛的超参

最大范式约束(Max norm constraints)

最大范式约束指的是给每个神经元的权重向量的量级设置上限,用公式来表示为:
||w||2<c | | w → | | 2 < c
一般c值为3或者4,该算法有个优点,无论学习率多高,都不会出现爆炸现象,因为权重w始终小于c

随机失活(Dropout)

随机失活指的是在神经网络训练时,神经元在经过激活函数之后,有p的概率失活,或者原本失活的神经元有p的概率被激活。
首先,在测试时,是没有随机失活的,就可以认为是对很多个小模型的model ensemble,相关实验说明模型集成可以提高2%的准确率。
应该注意的是,由于在测试时,没有随机失活,因此预测的数值一定会大于训练时理想的数值,这时需要在测试时将数值乘以概率p或者在训练时将数值除以p
值得一提的是,还可以用DropConnect的方法,随机抽取多个子网络,然后取平均,这样可以在某种程度上抵消噪声的影响。

偏置正则化和每层正则化

偏置一般不进行正则化,因为它不会随着NN的训练而互动的调整,也就是求梯度的时候不会进行梯度更新。并且偏置b相对于w数量很少。
每层进行不同强度的正则化也很少见

总而言之,正常情况下L2正则比较常见,并且在L2基础上再加随机失活也很常见,通常情况下,p一般取0.5

你可能感兴趣的:(深度学习相关(cs231n))