2.过拟合和正则化(Overfitting & Regularization)

1. 过拟合

2.过拟合和正则化(Overfitting & Regularization)_第1张图片
通过训练集traing data确定了模型y = b + w·x,算出在traing data中的平均错误值average error为31.9
2.过拟合和正则化(Overfitting & Regularization)_第2张图片
用确定的模型y = b + w·x来预测测试集testing data,要评估模型的好坏,还要继续算出该模型在testing data中的平均错误值average error:35
为了减少预测误差,要继续改进模型:
2.过拟合和正则化(Overfitting & Regularization)_第3张图片
重新设计一个model,该模型在traing data和testing data上的误差小一些,效果较上一个模型好一些
2.过拟合和正则化(Overfitting & Regularization)_第4张图片
继续改进模型,使模型复杂一些,该模型在traing data和testing data上的误差又小了一些,效果较上一个模型又好一些
2.过拟合和正则化(Overfitting & Regularization)_第5张图片
继续改进模型,当模型更复杂的时候,traing data上的误差又小了一些,但是testing data上的误差反而增大了许多,这个模型的预测结果不仅没变好,反而变得更糟了。
继续更换复杂的模型:
2.过拟合和正则化(Overfitting & Regularization)_第6张图片
此时模型的预测结果变得非常差,产生了严重的过拟合(overfitting)
2.过拟合和正则化(Overfitting & Regularization)_第7张图片

模型越复杂的时候,在训练集上的效果会越好,误差越小,但是在测试集上则不一定。
如上图,随着模型不断变得更复杂,测试集上的误差逐渐减小;而训练集上的误差先逐渐减小,后突然增大。在第三个模型后产生了overfitting 过拟合的现象。
所以,一个更复杂的模型往往不能在测试集上展现出更好的效果

由于考虑到结果可能还受其余因素的影响(比如这里举例受物种影响),每类input的权重和偏置值可能并不是一样的,所以继续改进上述的模型
2.过拟合和正则化(Overfitting & Regularization)_第8张图片
2.过拟合和正则化(Overfitting & Regularization)_第9张图片
如:当input为Pidgey的时候,此时模型的权重为w1,偏置值为b1;当input为weddle时,模型的权重为w2,偏置值为b2…不同种类的input的参数是不同的
2.过拟合和正则化(Overfitting & Regularization)_第10张图片
此时,新改进后的模型在训练集和测试集上的错误率又降低了,模型效果变好了许多
此外,由于误差还是存在,图像上方的一些数据拟合程度还是没有很完美,可以想到,除了举例的物种因素,可能还存在其他的一些因素会影响这些数值,可能还与高度xh、生命值xhp等有关系
那么继续改进模型,将所有可能想到的影响因素加入到模型中:
2.过拟合和正则化(Overfitting & Regularization)_第11张图片
但是此时虽然该模型在训练集上的表现很好,但是由于存在我们不确定的干扰项,使得其在测试集上表现的很差,产生了过拟合 overitting的现象

2. 正则化

2.过拟合和正则化(Overfitting & Regularization)_第12张图片
由于上述干扰项的影响,如上图loss function 在原来的基础上又增加了一项λ∑(wi)²,由于wi非常小,所以当增加一项输入项xi时,wi*xi很小,即该项几乎没有对结果造成影响。当wi很小时,该fuction为一个比较平滑的function,当有一些干扰项input时,可以减小对模型的影响
λ值越大,那么新增的项λ∑(wi)²对loss function的影响越大,loss function越平滑。

2.过拟合和正则化(Overfitting & Regularization)_第13张图片
λ值越大-->loss function 越平滑-->训练集上的错误率越高我的理解:λ越大,λ∑(wi)项对loss的影响越大,前面那一项降低loss的影响越小,所以最后还是趋向于λ∑(wi)对loss的影响,也就是逐渐增大)
λ值越大-->loss function 越平滑-->测试集上的错误率降低后增高(我的理解:一开始,λ越大,λ∑(wi)项对loss的影响越大,干扰项对loss的影响越小;后来λ继续增大,干扰项的影响几乎很小时,loss的趋势趋近于λ∑(wi)项的趋势)
为了找到最好的模型,需要不断调整λ值
在此引用一句学长帮我解答的原话:
λ∑(wi)项,这玩意儿就相当于一个惩罚,减少个别值的影响,防止过拟合。这项越大那么拟合的时候惩罚也大 ,意思就是, 这个太大就导致你最后的拟合曲线会偏离原曲线;这个太小,起不到防止过拟合的作用。所以,要适中。

你可能感兴趣的:(深度学习)