机器学习笔记_李宏毅_P5-P7_Gradient Descent

李宏毅老师的机器学习笔记

  • Gradient Descent
  • Gradient Descent的三个tips
      • 方法一:Tuning your learning rates
      • 方法二:Stochastic Gradient Descent
      • 方法二:Feature Scaling
  • 源代码

课程视频

Gradient Descent

最小化损失函数时采用的Gradient Descent方法

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第1张图片

Gradient Descent方法计算过程

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第2张图片

Gradient Descent的三个tips

方法一:Tuning your learning rates

每隔几个epoch就降低一些learning rate
一开始,我们离目标很远,所以我们使用了较大的learning rate
经过几个epochs,我们接近了目标,所以我们降低了learning rate
在这里插入图片描述
给不同的参数设置不同的learning rate

Adagrad

为不同参数划分不同的learning rate

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第3张图片

计算过程

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第4张图片

化简结果

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第5张图片

是否觉得矛盾?

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第6张图片

在只有一个参数时,微分值可以代表距离最低点的距离

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第7张图片

在多个参数时,微分值不可以代表距离最低点的距离

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第8张图片

the best step is

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第9张图片

方法二:Stochastic Gradient Descent

Stochastic Gradient Descent

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第10张图片

在Gradient Descent 中,我们计算所有examples后再更新参数

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第11张图片

在Stochastic Gradient Descent 中,每计算一个example则更新一次参数

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第12张图片

方法二:Feature Scaling

让不同的特征具有相同的缩放程度

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第13张图片

特征值 x 1 x_1 x1 x 2 x_2 x2差别很大,如果采用相同的 w 1 w_1 w1 w 2 w_2 w2,要走很多步才能到达最低点

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第14张图片

将特征值缩放后,则无论从哪里开始,都能比较快的走到最低点

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第15张图片

举个例子:此时不同的特征值就缩放成‘同等程度’

机器学习笔记_李宏毅_P5-P7_Gradient Descent_第16张图片

源代码

你可能感兴趣的:(李宏毅-深度学习-笔记,机器学习,深度学习)