NNDL 作业12:第七章课后题

目录

习题7-1 在小批量梯度下降中,试分析为什么学习率要和批量大小成正比

习题7-2 在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28).

习题7-9 证明在标准的随机梯度下降中,权重衰减正则化和正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立 

第七章总结


习题7-1 在小批量梯度下降中,试分析为什么学习率要和批量大小成正比

小批量梯度:

g_{t}(\theta )=\frac{1}{K}\sum_{(x,y)\in S_{t}}^{}\frac{\partial L(y,f(x;\theta ))}{\partial \theta }

 \theta _{t}=\theta _{t-1}-\alpha gt

g_{t}=\frac{1}{K}\delta  ;     所以\theta _{t}=\theta _{t-1}-\frac{\alpha }{K}\delta

要使参数最优,\frac{\alpha }{K}作为常数项,所以在小批量梯度下降中,学习率和批量大小成正比

习题7-2 在Adam算法中,说明指数加权平均的偏差修正的合理性(即公式(7.27)和公式(7.28).

在Adam算法中:

M_{t}=\beta _{1}M_{t-1}+(1-\beta _{1})g_{t}        G_{t}=\beta _{2}G_{t-1}+(1-\beta _{2})\odot g_{t}

所以\beta _{1}\rightarrow 1,\beta _{2}\rightarrow 1时:

\lim_{\beta _{1\rightarrow 1}}M_{t}=M_{t-1}       \lim_{\beta _{2\rightarrow 1}}G_{t}=G_{t-1}

此时梯度消失,指数加权平均需要进行误差修正

习题7-9 证明在标准的随机梯度下降中,权重衰减正则化和L_{2}正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立 

 正则化可以定义为我们为了减少泛化误差而不是减少训练误差而对训练算法所做的任何改变。有许多正规化策略。有的对模型添加额外的约束,如对参数值添加约束,有的对目标函数添加额外的项,可以认为是对参数值添加间接或软约束。如果我们仔细使用这些技术,这可以改善测试集的性能。在深度学习的环境中,大多数正则化技术都基于正则化估计器。当正则化一个估计量时,有一个折衷,我们必须选择一个增加偏差和减少方差的模型。一个有效的正规化是使一个有利可图的交易,显著减少方差,而不过度增加偏差。

L2正则化属于正则化技术的一类,称为参数范数惩罚。之所以提到这类技术,是因为在这类技术中,特定参数的范数(主要是权重)被添加到被优化的目标函数中。在L2范数中,在网络的损失函数中加入一个额外的项,通常称为正则化项。其实L2正则化和权值衰减并不是一回事,但是可以根据学习率对权值衰减因子进行重新参数化,从而使SGD等价

以λ为衰减因子,给出了权值衰减方程。

w=(1-\lambda )w-\alpha \bigtriangleup C_{0}

在以下证明中可以证明L2正则化等价于SGD情况下的权值衰减:

L2正则化方程:C=C_{0}+\frac{\lambda }{2}\left \| w \right \|_{2}^{2}

求导:

\frac{\partial C_{0}}{\partial w}=\frac{\partial C_{0}}{\partial w}+2\frac{\lambda w}{2}     

\bigtriangleup C==\frac{\partial C}{\partial w}

在得到损失函数的偏导数结果后,将结果代入梯度下降学习规则中

w=w-\alpha \bigtriangleup C

w=w-\alpha (\bigtriangleup C_{0}+\lambda w)

w=w-\alpha \bigtriangleup C_{0}-\alpha \lambda w

w=(1-\alpha \lambda )w-\alpha \bigtriangleup C_{0}

最终重新排列的L2正则化方程和权值衰减方程之间的唯一区别是α(学习率)乘以λ(正则化项)。为了得到两个方程,我们用λ来重新参数化L2正则化方程。

\lambda =\frac{\acute{\lambda }}{\alpha }

将λ'替换为λ,对L2正则化方程进行重新参数化,将其等价于权值衰减方程,如下式所示

w=(1-\acute{\lambda })w-\alpha \bigtriangleup C_{0}

所以L2正则化在SGD情况下被认为等同于权值衰减,但对于其他基于自适应梯度的优化算法,如Adam, AdaGrad等,却不是这样。特别是,当与自适应梯度相结合时,L2正则化导致具有较大历史参数和/或梯度振幅的权值比使用权值衰减时正则化得更少。这导致与SGD相比,当使用L2正则化时adam表现不佳。另一方面,权值衰减在SGD和Adam身上表现得一样好。
 

第七章总结

NNDL 作业12:第七章课后题_第1张图片

 ref:

 正则化提高神经网络的泛化能力_白羊by的博客-CSDN博客_正则化对神经网络训练的影响

权值衰减和L2正则化是一回事吗?_skyfengye的博客-CSDN博客

你可能感兴趣的:(人工智能)