fitting:拟合,就是说这个曲线能不能很好的描述这个样本,有比较好的泛化能力
过拟合(OverFititing):太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平。
权重衰减等价于 2L2 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。
L2 范数正则化(regularization)
2L2范数正则化在模型原损失函数基础上添加2L2范数惩罚项,从而得到训练所需要最小化的函数。2L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例
ℓ(1,2,)=1∑=112(()11+()22+−())2ℓ(w1,w2,b)=1n∑i=1n12(x1(i)w1+x2(i)w2+b−y(i))2
其中1,2w1,w2是权重参数,b是偏差参数,样本i的输入为()1,()2x1(i),x2(i),标签为()y(i),样本数为n。将权重参数用向量=[1,2]w=[w1,w2]表示,带有2L2范数惩罚项的新损失函数为
ℓ(1,2,)+2||2,ℓ(w1,w2,b)+λ2n|w|2,
其中超参数>0λ>0。当权重参数均为0时,惩罚项最小。当λ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当λ设为0时,惩罚项完全不起作用。上式中2L2范数平方||2|w|2展开后得到21+22w12+w22。 有了2L2范数惩罚项后,在小批量随机梯度下降中,我们将线性回归一节中权重1w1和2w2的迭代方式更改为
12←(1−||)1−||∑∈()1(()11+()22+−()),←(1−||)2−||∑∈()2(()11+()22+−()).w1←(1−ηλ|B|)w1−η|B|∑i∈Bx1(i)(x1(i)w1+x2(i)w2+b−y(i)),w2←(1−ηλ|B|)w2−η|B|∑i∈Bx2(i)(x1(i)w1+x2(i)w2+b−y(i)).
可见,2L2范数正则化令权重1w1和2w2先自乘小于1的数,再减去不含惩罚项的梯度。因此,2L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效。