图解机器学习笔记(四)

接下来,我会讲一下,如何防止过拟合。所谓的过拟合即是由于设计的模型过于复杂,如下图:
图解机器学习笔记(四)_第1张图片
最终我们的目的是做一个带约束的最小二乘法,如下图:

图解机器学习笔记(四)_第2张图片
为此,我们有如下约束和方法:

图解机器学习笔记(四)_第3张图片
求出如下:

图解机器学习笔记(四)_第4张图片

另外我们有带 约束的最小二乘法方法,满足如下约束。
图解机器学习笔记(四)_第5张图片
即有如下表达式。
图解机器学习笔记(四)_第6张图片
lambda大于0,可以自己设定。要得到这个表达式,必须用拉格朗日对偶问题解出来。或者我们用另一个表达形式写出来解法:

图解机器学习笔记(四)_第7张图片
最后,还可以用奇异值分解的方法来表达这个theta 的解法,不再赘述。


模型的选择

对于需要手动确定参数的模型,(例如:高斯核模型里面的标准差,e2约束里面的lambda)我们可以根据平均泛化误差最小的模型作为最优模型,steps如下:
图解机器学习笔记(四)_第8张图片
比较不同模型,得到不同的平均泛化误差。
上面的方法叫做交叉验证。

总结:
这里我们补充了以前的最小二乘法的不足,例如我们为了防止过拟合,使用了带e2约束的方法。针对多个模型的评价标准,我们使用的是交叉验证。

你可能感兴趣的:(Book,note)