机器学习(3)多元梯度下降法

多元梯度下降法

1.定义与公式

当特征量不只一个时,例如下图的案例:
机器学习(3)多元梯度下降法_第1张图片
预测房屋价格时,需要考虑多种因素,我们建立如下的线性回归模型:
在这里插入图片描述
此时要把θ和x都看成时两个向量。
机器学习(3)多元梯度下降法_第2张图片
为了寻找数据的最佳函数匹配,求对应的损失函数的最小值:
在这里插入图片描述
为了方便计算右边最好除以2m,而不是2。

由上一节的单变量线性回归的梯度下降算法容易推导出多元的情况:
在这里插入图片描述
其实无论单变量还是多元公式都是一样的,只是θ0 中的x0为1,计算过程:
机器学习(3)多元梯度下降法_第3张图片
每次下降迭代都要计算全部的θ值后再带入回归模型hθ(x)。

2.特征缩放

以两个特征量的情况为例,当两个特征量的取值范围差距过大会出现下面的情况:
在这里插入图片描述
它们的参数θ和损失函数J(θ)的等高图会呈现下面情况:
机器学习(3)多元梯度下降法_第4张图片
变得又瘦又长,此时我们需要进行特征缩放:

方法一

每个特征量除以它的范围后,此时的等高图会变得易于处理。
机器学习(3)多元梯度下降法_第5张图片
只要放缩到(-1到1)差不多的范围就行,但特征量在(-2到5)这样的范围也可以,无需放缩。但(-188到200)这样的就需要放缩。

方法二

均值归一化,放缩到(-0.5 0.5)。
机器学习(3)多元梯度下降法_第6张图片

3.学习率α的选择

当我们不断迭代使局部minJ(θ)不断变小时,随着迭代次数增加,当minJ(θ) 减少少于(10^-3)时,minJ(θ) 可视为已经收敛,找到最佳函数匹配。
机器学习(3)多元梯度下降法_第7张图片
α过大,可能导致J(θ)有可能不会收敛。出现下面情况可视为α过大,需要减小α的选值。
机器学习(3)多元梯度下降法_第8张图片
α过小,使每次迭代变化很小,导致迭代次数过慢,可能长时间都不会收敛。
α的选择:通过交叉验证进行选择。可以尝试1,0.1,0.01,0.001,0.0001等取值,画出J(θ)与迭代次数的曲线,找到合适的α。也可以两个α之间再取个值,比如0.1和0.01之间取一个0.0.3等方法。

你可能感兴趣的:(吴恩达机器学习笔记,机器学习,sklearn,算法)