跟李沐学AI-动手学深度学习-权重衰退+Dropout

目录

权重衰退

使用均方范数作为硬性限制

使用均方范数作为柔性限制

 总结

 Dropout(丢弃法)

动机

无偏差的加入噪音

 使用丢弃法

 推理中的丢弃法

总结


权重衰退

是最广泛使用的正则化的技术之一。

使用均方范数作为硬性限制

通过限制参数值的选择范围来控制模型容量。

 通常不限制偏移b(因为限制与不限制的差别不大)。

小的θ意味着更强的正则项。

使用均方范数作为柔性限制

对于每个θ,都可以找到λ使得之前的目标函数等价于下面

可以通过拉格朗日乘子来证明。

超参数λ控制了正则项的重要程度。

λ=0:无作用。

λ->是⚮,w*->0。

参数更新法则

  • 计算梯度

  • 时间t更新参数

通常在下ηλ <1,在深度学习中通常叫做权重衰退。

 总结

  • 权重衰退通过L2正则项使得模型参数不会过大,从而控制模型复杂度。
  • 正则项权重是控制模型复杂度的超参数。

 Dropout(丢弃法)

会比上述的权重衰退效果更好一些。

动机

一个好的模型需要对输入数据的扰动鲁棒。

使用有噪音的数据等价于Tikhonov正则。

丢弃法:在层之间加入噪音。(随机噪音)

无偏差的加入噪音

对x加入噪音得到x',我们希望

丢弃法对每个元素进行如下扰动

跟李沐学AI-动手学深度学习-权重衰退+Dropout_第1张图片

 使用丢弃法

通常将丢弃法作用在隐藏全连接层的输出上。

跟李沐学AI-动手学深度学习-权重衰退+Dropout_第2张图片

 跟李沐学AI-动手学深度学习-权重衰退+Dropout_第3张图片

 推理中的丢弃法

正则项只在训练中使用:他们影响模型参数的更新。

在推理过程中,丢弃法直接返回输入。

这样也 保证确定性的输出。

总结

  •  丢弃法将一些输出项随机置0来控制模型复杂度。
  • 常作用在多层感知机的隐藏层输出上。
  • 丢弃概率是控制模型复杂度的超参数。

你可能感兴趣的:(跟李沐学AI-动手学深度学习,深度学习,算法)