Machine Learning课程笔记3:归一化

1、过拟合问题

还是以预测房价作为例子:

Machine Learning课程笔记3:归一化_第1张图片

第一个模型是一个线性模型,不能很好的适应训练集,称之为低度拟合(underfit),第三个图用了四次方模型,虽然能很好的适应训练集但是在对新输入变量进行预测时可能会效果不好,称之为过拟合(overfit),所以相对而言第二个模型更合适。

分类问题中也存在这样的问题:

Machine Learning课程笔记3:归一化_第2张图片

如何处理过拟合问题?

1、减少特征量个数

可以手工选择保留哪些特征量

或者使用一些模型选择算法

2、归一化

保留所有特征但是减少参数的大小(在特征量较多,且每个特征量对输出值的影响很小的情况下,归一化效果较好)

2、归一化代价函数

Machine Learning课程笔记3:归一化_第3张图片

:根据惯例我们不对theta0进行惩罚。

如果选择的归一化参数过大,会把所有的参数都最小化了,导致模型近似于h= theta0,造成低度拟合问题。

3、归一化线性回归

算法:

Machine Learning课程笔记3:归一化_第4张图片

我们也可以用正规方程来求解归一化线性回归模型:

Machine Learning课程笔记3:归一化_第5张图片

括号内矩阵尺寸为n+1 * n+1。 上式的括号内整体是可逆的,所以归一化还可以很好的照顾到矩阵的可逆问题,方便使用pinv等函数。

4、归一化逻辑回归

对于逻辑回归,我们将代价函数增加一个归一化表达式后得到:

Machine Learning课程笔记3:归一化_第6张图片

要最小化该函数,梯度下降算法:

形式与现行回归一样,只是h(x) 的值不同。


你可能感兴趣的:(Machine Learning课程笔记3:归一化)