DL Homework 3

DL Homework 3_第1张图片

给定训练集D=\left \{ x^{(n)},y^{(n)} \right \}^{N}_{n=1},将每个样本x^{(n)}输入给前馈神经网络,得到网络输出为\hat{y}^{(n)},其在数据集D上的结构化风险为

\Re(W,b)=\frac{1}{N}\sum_{n=1}^{N}\iota (y^{(n)},\hat{y}^{(n)})+\frac{1}{2}\lambda \left \| W \right \|_F^2

        首先简单解释一下这堆话,结构化风险=经验风险+正则化项,经验风险为\frac{1}{N}\sum_{n=1}^{N}\iota (y^{(n)},\hat{y}^{(n)}),对于\iota (\cdot )函数我们大多数采取的为交叉熵函数,\iota (y,\hat{y})=-y^Tlog(\hat{y}),正则化项为\frac{1}{2}\lambda \left \| W \right \|_F^2,首先神经网络的学习目的是减小损失函数的值,并且防止训练集的过拟合,这时,例如为损失函数加上L2范数,也就是我们所说的正则化项。这样一来,就可以抑制权重变大。 用符号表示的话,如果将权重记为WL2范数的权值衰减就是\frac{1}{2}\lambda W^2 ,然 后将这个\frac{1}{2}\lambda W^2加到损失函数上。这里,\lambda是控制正则化强度的超参数。\lambda 设置得越大,对大的权重施加的惩罚就越重。此外,\frac{1}{2}\lambda W^2开头的 \frac{1}{2}是用于将\frac{1}{2}\lambda W^2的求导结果变成\lambda W的调整用常量。

        对于所有权重,权值衰减方法都会为损失函数加上\frac{1}{2}\lambda W^2。因此,在求权重梯度的计算中,要为之前的误差反向传播法的结果加上正则化项的导数\lambda W,这样就可以用来防止过拟合.

你可能感兴趣的:(人工智能,算法)