模型选择、欠拟合和过拟合学习笔记

训练误差&泛化误差
  • 训练误差:模型在训练数据集上表现出的误差,

  • 泛化误差:指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。

过拟合&欠拟合
  • 过拟合 : 训练误差远小于其在测试数据集上的误差
  • 欠拟合: 模型无法得到较低的训练误差

与两者相关的因素: 模型复杂度 & 训练数据集大小

  • 一般来说,训练集样本数过少,特别是比模型参数数量少时,容易过拟合。

  • 给定训练集:

    1. 如果模型的复杂度过低,很容易出现欠拟合;
    2. 如果模型复杂度过高,很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

模型复杂度对欠拟合和过拟合的影响

应对过拟合的常用方法: 权重衰减 <=> L 2 L_2 L2范数正则化(regularization)

正则化通过为模型损失函数添加惩罚项使训练学习的模型参数值较小。

L 2 L_2 L2范数正则化是在模型原损失函数基础上添加 L 2 L_2 L2范数惩罚项,从而得到训练所需要最小化的函数。

L 2 L_2 L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积,权重越大,惩罚越大。

例:线性回归损失函数:

l ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n 1 2 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2 l(w_1,w_2,b) = \frac{1}{n}\sum^{n}_{i=1}\frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2 l(w1,w2,b)=n1i=1n21(x1(i)w1+x2(i)w2+by(i))2

正则化后,损失函数为:

l ( w 1 , w 2 , b ) + λ 2 ∣ ∣ w ∣ ∣ 2 l(w_1,w_2,b)+\frac{\lambda}{2}||w||^2 l(w1,w2,b)+2λw2

其中,超参数 λ > 0 \lambda>0 λ>0。 加了惩罚项后,权重的迭代方式更改为:

w 1 ← ( 1 − η λ ) w 1 − η ∣ B ∣ ∑ i ∈ B x 1 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) w_1 \leftarrow (1-\eta\lambda)w_1-\frac{\eta}{|B|}\sum_{i\in{B}}x_1^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}) w1(1ηλ)w1BηiBx1(i)(x1(i)w1+x2(i)w2+by(i)),

w 2 ← ( 1 − η λ ) w 2 − η ∣ B ∣ ∑ i ∈ B x 2 ( i ) ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) w_2 \leftarrow (1-\eta\lambda)w_2-\frac{\eta}{|B|}\sum_{i\in{B}}x_2^{(i)}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)}) w2(1ηλ)w2BηiBx2(i)(x1(i)w1+x2(i)w2+by(i))

L 2 L_2 L2范数正则化令权重 w 1 w_1 w1 w 2 w_2 w2先自乘小于1的数,再减去不含惩罚项的梯度。因此, L 2 L_2 L2范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制,这可能对过拟合有效。

从贝叶斯角度考虑,正则项等价于引入参数的模型先验概率,可以简单理解为对最大似然估计引入先验概率,从而转化为最大后验估计,其中的先验概率即对于正则项

循环神经网络

循环神经网络不是刚性地记忆所有固定长度的序列(对比n元语法),而是通过隐藏状态来储存之前时间步的信息。

你可能感兴趣的:(算法学习,学习笔记,机器学习,深度学习,神经网络)