吴恩达机器学习笔记(3)

多变量线性回归:

问题:根据多个属性,如房子面积,房子楼层,房子年龄等估计房子的价格

多变量线性回归中的变量
多变量线性回归的假设
此时有多个特征 ,i对应不同的特征值,如房子面积,楼层,年龄等,参数 为一个n+1维向量
多变量线性回归中的梯度下降,对每一个参数求偏导数从而得到不同参数的梯度

参数特征缩放——加速梯度下降过程收敛到最优值

多变量梯度下降时,参数的取值要尽量小

在多多变量梯度下降中,要让不同参数的取值范围尽量相似且范围要小,如果取值范围差别很大,如左上图,那么等值线会变得细长,会使得梯度下降来回震荡,达到最优解所需的步骤更多,时间变长。为了解决这种问题,可以将参数进行调整,如右上图,参数全部特征缩放为(0,1)范围内的值,得到较为均匀等值线,这样在梯度下降的过程中所需的步骤和时间都会比较少。                                                                                                                                                    通常特征缩放将参数范围转化为大约在(-1,1)附近。有时也会进行均值归一化,即减去样本均值后在除以样本个数。或进行样本标准化,即每个样本减去均值后在除以标准差。

学习率——调试Debugging 和 学习率的选择

调试:确保你梯度正常工作,若梯度下降正常工作,每一步迭代后的代价函数值是下降的。跌通常损失函数值不在下降或下降的不太明显的时候就实现了收敛,通常可以通过收敛测试自动判断是否收敛,当下降的大小小于某一个阈值时,则认为其实现了收敛。

损失函数随迭代次数变化图
要选择合适的学习率

如果选择的学习率较大,则会产生如上左图,上升的损失函数值或震荡的损失函数线,但是若学习率较小,则会使达到收敛所需的步数增多。数学家们已经证明,只要有足够小的学习率,损失函数是会下降的。在进行梯度下降时,可以尝试不同的学习率(十倍间隔/三倍间隔),画出不同学习率下的损失函数线,然后选择合适的学习率。

你可能感兴趣的:(吴恩达机器学习笔记(3))