目录
使用正则化提高神经网络的泛化能力方法:
早停法
暂退法
权重衰减
L1和L2正则化
数据增强
正则化不单指某一个方法,而是所有损害网络优化的方法都是正则化。
损害网络优化是为了防止过拟合。
干扰优化过程:
增加约束:
我们使用一个验证集( Validation Dataset)来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止迭代。
当神经元足够多时容易产生协同效应,即有些神经元具有相似的行为,为解决这一问题,可以引入一个掩码函数mask,随机丢弃部分神经元,掩码函数对x进行随机掩码,对x的每一维随机乘以0或1,0和1是通过一个概率为p的伯努利分布随机生成的。
对于一个神经层 = (+)y = f(Wx+b),引入一个丢弃函数(·)使得 = (()+)。
其中 ∈ {0,1} 是丢弃掩码(dropout mask),通过以概率为p的贝努力分布随机生成。
Dropout的意义:
每做一次丢弃,相当于从原始的网络中采样得到一个子网络。如果一个神经网络有n个神经元,那么总共可以采样出2n个子网络。
通过限制权重的取值范围来干扰优化过程,降低模型能力。
在每次参数更新的是时候,引入一个衰减系数。
在标准的随机梯度下降中,权重衰减正则化和l2正则化的效果相同。
在较为复杂的优化方法(比如Adam)中,权重衰减和L2正则化并不等价。
优化问题可以写为
上式中,Lp为范数函数,p的取值通常为{1,2}代表L1和L2范数,λ为正则化系数。
图像数据的增强主要是通过算法对图像进行转变,引入噪声等方法来增加数据的多样性。
图像数据的增强方法: