深度学习-梯度裁剪

缓解梯度爆炸的另一个技术是在反向传播期间裁剪梯度,使他们永远不会超过某个阈值,这种技术常用于循环神经网络。比如设置裁剪范围为[-1,1],则梯度值都会被限制在[-1,1]之间,如果计算了一个梯度值为[0.5,10],裁剪之后,梯度就会变成[0.5, 1],这会改变梯度下降的方向,由于第二个轴的方向被改变,因此下降方便是对角线方向。

需要注意的是,如果L2的范数大于你所设置的裁剪值,则会被整个裁剪掉。

你可能感兴趣的:(深度学习,人工智能)