机器学习正则化:为什么减小参数大小能防止过拟合

这篇帖子写一些关于为什么参数变小能简化模型而防止过拟合的思考

首先贴一张吴恩达老师机器学习课程里的图:

机器学习正则化:为什么减小参数大小能防止过拟合_第1张图片

 这张图里,可以看出 第三张图千方百计去拟合已有数据,但这会在遇到新数据时导致泛化能力很差。而拟合曲线的复杂在于引入了高次项,相比于图二,也就是θ3和θ4。

因此,解决过拟合问题的两种思路就是

(1)直接减少特征量(如使用PCA降维),在这里也就是直接把θ3和θ4去掉,变回二次曲线。

(2)(正则化)保持特征量不变,减小特征权重,也就是参数的大小

关于(2)为什么减小参数,能简化模型的思考:

正则化的做法是在原来代价函数的基础上,给参数增加惩罚

机器学习正则化:为什么减小参数大小能防止过拟合_第2张图片

在这里给θ3和θ4添加惩罚项,1000是随便写的一个比较大数字,这样做的意义在于:我们对代价函数优化时,要让代价函数最小化,因为1000这个数字的存在,就必须让θ3和θ4这两个参数尽可能小 ,接近可以忽略,这样就又近似的变回了二次函数。

也就是说,减小参数大小近似于直接去掉某些特征的方法,他虽然没有去掉,但是让他们的权重非常非常小,接近于忽略。

在这个例子中,我们只是惩罚了θ3和θ4,而这样的思想推广到其他参数,也是一样的效果,就是参数越小,越近似于低次的函数,函数曲线越光滑。

这是理解参数变小能简化模型从而防止过拟合的一个思考。

你可能感兴趣的:(机器学习,神经网络)