多元梯度下降法(2)--学习率α machine learning

学习率

  • 1.怎么确保梯度下降算法在正确的工作??
    • 1.1画出J-n曲线
    • 1.2自动收敛测试
  • 2.选择合适的学习率
    • 2.1学习率太大会出现的情况
    • 2.2如何选择合适的α

1.怎么确保梯度下降算法在正确的工作??

1.1画出J-n曲线

在使用梯度下降算法时,我们会画出 J ( θ ) − n J(\theta)-n J(θ)n曲线,其中, J ( θ ) J(\theta) J(θ)是代价函数, n n n是迭代次数。当 J ( θ ) J(\theta) J(θ)随着迭代次数的增大而减小的话,我们认为该算法工作正常,反之,则工作不正常。
多元梯度下降法(2)--学习率α machine learning_第1张图片

1.2自动收敛测试

写一个测试函数,假设代价函数 J ( θ ) J(\theta) J(θ)小于某个值时,我们认为工作正常。

  • Example:
    Declare convergence if J ( θ ) J(\theta) J(θ) decreases by less than 1 0 − 3 10^{-3} 103 in one iteration

2.选择合适的学习率

2.1学习率太大会出现的情况

在这里插入图片描述
多元梯度下降法(2)--学习率α machine learning_第2张图片
多元梯度下降法(2)--学习率α machine learning_第3张图片
出现上面四种情况,在代码没有错误的情况下,我们认为是 α \alpha α选的太大了!
因此,我们有:

  • For sufficiently small α \alpha α, J ( θ ) J(\theta) J(θ) should decrease on every iteration.but if α \alpha α is too small ,gradient descent can be slow to converge.(我们应该选择比较小的 α \alpha α,但是如果太小,收敛的会很慢)
  • if α \alpha α is too big,it may work incorrently.

2.2如何选择合适的α

可以从小往大试,吴恩达教授建议以三倍的速率增加
多元梯度下降法(2)--学习率α machine learning_第4张图片
欢迎一起交流!!
多元梯度下降法(2)--学习率α machine learning_第5张图片

你可能感兴趣的:(机器学习)