梯度下降(Gradient Descent)

梯度下降(Gradient Descent)


1 Gradient Descent

  • θ=argminθL(θ)
  • θi=θi1ηL(θi1)

2 Tips

  • Learning Rate 学习率 η :过大时飞出去了…过小时学习速度慢效率低
  • Adaptive Learning Rate:开始时大,慢慢变小。E.g. ηt=η/t+1
  • gt=C(θt)w
  • Adagrad: wt+1=wtηtσtgt ,其中 σt 是过去所有的 wt 的均方和的平方根
  • 上两条结合: wt+1=wtηti=0(gi)2gt
  • 上述式子表明: gt 越大,步长越大,但在分母中, gt 越大,步长越小。直观的解释:造成反差=。

3 Stochastic Gradient Descent

  • 随机梯度下降:随机选取 xn ,计算 Ln=(y^n(b+wixni))2,θi=θi1ηLn(θi1) ,只考虑在 xn 那一点的Gradient
  • 优点:迭代效率更高,下降更快。

4 Feature Scaling

  • 特征缩放:用来标准化数据特征的范围。不同的特征数值范围不同,例如 x1 变化范围在0~1,而 x2 范围在100~10000,两者的变化对结果的影响很不同。
  • 特征缩放使得机器学习算法效率更高,加快收敛速度。
  • 最常用的几种方法:
    • Rescaling: x=xmin(x)max(x)min(x)
    • Standardization: x=xx¯σ

5 Taylor Series

  • h(x)=h(x0)+h(x0)(xx0)+h′′(x0)2!(xx0)2+
  • h(x)h(x0)+h(x0)(xx0)
  • h(x,y)=h(x0,y0)+h(x0,y0)x(xx0)+h(x0,y0)y(yy0)+
  • Newton’s Method:考虑二次微分,多了很多运算,尤其是现在在Deep Learning时通常用Gradient Descent

6 Gradient Descent的限制

  • 容易陷入局部最优local minima以及saddle point(鞍点)
  • 在plateau(平稳处)下降非常慢

你可能感兴趣的:(李宏毅机器学习笔记)