训练误差:模型在训练数据集上表现出的误差,
泛化误差:指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。
与两者相关的因素: 模型复杂度 & 训练数据集大小
一般来说,训练集样本数过少,特别是比模型参数数量少时,容易过拟合。
给定训练集:
模型复杂度对欠拟合和过拟合的影响
正则化通过为模型损失函数添加惩罚项使训练学习的模型参数值较小。
L 2 L_2 L2范数正则化是在模型原损失函数基础上添加 L 2 L_2 L2范数惩罚项,从而得到训练所需要最小化的函数。
L 2 L_2 L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积,权重越大,惩罚越大。
例:线性回归损失函数:
l ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n 1 2 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2 l(w_1,w_2,b) = \frac{1}{n}\sum^{n}_{i=1}\frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2 l(w1,w2,b)=n1i=1∑n21(x1(i)w1+x2(i)w2+b−y(i))2
正则化后,损失函数为:
l ( w 1 , w 2 , b ) + λ 2 ∣ ∣ w ∣ ∣ 2 l(w_1,w_2,b)+\frac{\lambda}{2}||w||^2 l(w1,w2,b)+2λ∣∣w∣∣2
其中,超参数 λ > 0 \lambda>0 λ>0。 加了惩罚项后,权重的迭代方式更改为:
w 1 ← ( 1 − η λ ) w 1 − η ∣ B ∣ ∑ i ∈ B x 1 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) w_1 \leftarrow (1-\eta\lambda)w_1-\frac{\eta}{|B|}\sum_{i\in{B}}x_1^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}) w1←(1−ηλ)w1−∣B∣ηi∈B∑x1(i)(x1(i)w1+x2(i)w2+b−y(i)),
w 2 ← ( 1 − η λ ) w 2 − η ∣ B ∣ ∑ i ∈ B x 2 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) w_2 \leftarrow (1-\eta\lambda)w_2-\frac{\eta}{|B|}\sum_{i\in{B}}x_2^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}) w2←(1−ηλ)w2−∣B∣ηi∈B∑x2(i)(x1(i)w1+x2(i)w2+b−y(i))
L 2 L_2 L2范数正则化令权重 w 1 w_1 w1和 w 2 w_2 w2先自乘小于1的数,再减去不含惩罚项的梯度。因此, L 2 L_2 L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效。
从贝叶斯角度考虑,正则项等价于引入参数的模型先验概率,可以简单理解为对最大似然估计引入先验概率,从而转化为最大后验估计,其中的先验概率即对于正则项
循环神经网络不是刚性地记忆所有固定长度的序列(对比n元语法),而是通过隐藏状态来储存之前时间步的信息。