主要内容:提供不同算法的原理以及效果直观展示,并希望读者能够在实际问题中更合理的选用梯度下降类算法。
目录:
1.简介梯度下降法
2.随机梯度下降
3.随机梯度下降的问题与挑战
4.随机梯度下降的优化算法(主要内容)
梯度下降算法的困难之处:
1.梯度的计算
在机器学习和统计参数估计问题中目标函数经常是求和函数的形式
J x ( θ ) = ∑ i J x i ( θ ) J_x (\theta)= \sum_{i} J_{x_i}(\theta) Jx(θ)=i∑Jxi(θ)
其中每一个函数都对应一个样本
当样本极大时,梯度的计算就变得非常耗时耗力。
2.学习率的选择
学习率选择过小会导致算法收敛太慢,学习率选择过大容易导致算法不收敛
如何选择学习率需要具体问题具体分析:
为什么不用牛顿法?
牛顿法要求计算目标函数的二阶导数,在高维特征情形下这个矩阵非常巨大,计算和存储都成问题
在使用小批量情形下,牛顿法对于二阶导数的估计噪声太大
在目标函数非凸时,牛顿法更容易受到鞍点甚至最大值点的吸引
随机梯度下降法主要为了解决第一问题:梯度计算
由于随机梯度下降的引入,我们通常将梯度下降法分为三种类型:
1.批量梯度下降法(GD)
原始的梯度下降法
2.随机梯度下降法(SGD)
每次梯度计算只使用一个样本
3.小批量随机梯度下降法(Mini Batch SGD)
每次梯度计算使用一个小批量样本
动量法(Momentum)(适用于隧道型曲面)
动量法每次更新都吸收一部分上次更新的余势:
V t = γ V t − 1 + δ ∇ θ J ( θ ) V_t=\gamma V_{t-1} +\delta\nabla \theta J(\theta) Vt=γVt−1+δ∇θJ(θ) θ t = θ t − 1 − V t \theta_t= \theta_{t-1} -V_{t} θt=θt−1−Vt
这样主体方向的更新就得到了更大的保留,从而效果被不断放大。
物理上这就像是推一个很重的铁球下山,因为铁球保持了下山主体方向的动量,所以在隧道伤沿两侧震荡侧次数就会越来越少。
Nesterov(动量法的改进算法)
动量法的一个问题在于:从山顶退下的铁球会越滚越快,以至于到了山底停不下来。我们希望算法更加聪明一些,可以在到达底部之前就自己刹车。
利用主题下降方向提供的先见之明,预判自己下一步的位置,并到预判位置计算梯度。
v t = γ v t − 1 + δ ∇ θ J ( θ − v t − 1 ) v_t=\gamma v_{t-1}+\delta {\nabla \theta} J(\theta - v_{t-1}) vt=γvt−1+δ∇θJ(θ−vt−1) θ = θ − v t \theta= \theta -v_{t} θ=θ−vt
Adagrad(自动调整学习率,适用于稀疏数据)
梯度下降法在每一步对每一个参数使用同样的学习率,这种一刀切的做法不能有效地利用每一个数据及自身的特点。
Adagrad是一种自动调整学习率的方法
梯度: g t , i = ∇ θ J ( θ i ) g_{t,i}=\nabla \theta J(\theta_i) gt,i=∇θJ(θi)
梯度历史矩阵: G t G_t Gt对角矩阵,其中 G t , i i = ∑ k g k , i 2 G_{t,ii}=\sum_{k} g_{k,i}^2 Gt,ii=∑kgk,i2
参数更新: θ t + 1 , i = θ t , i − δ G t , i i + ε g t , i \theta_{t+1,i} =\theta_{t,i} - \dfrac{\delta}{ \sqrt{G_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,i−Gt,ii+εδgt,i
Adadelta(Adagrad的改进算法)
Adagrad的一个问题在于随着训练的进行,学习率快速单调衰减。
Adadelta 则使用梯度平方的移动平均来取代全部历史平方和。
定义移动平方: E [ g 2 ] t = γ E [ g 2 ] t − 1 + ( 1 − γ ) g t 2 E[g^2]_t=\gamma E[g^2]_{t-1}+(1-\gamma)g_t^2 E[g2]t=γE[g2]t−1+(1−γ)gt2
于是就得到参数更新法则:
θ t + 1 , i = θ t , i − δ E [ g 2 ] t , i i + ε g t , i \theta_{t+1,i}=\theta_{t,i}- \dfrac{\delta}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,i−E[g2]t,ii+εδgt,i
由于梯度与参数的单位不匹配。
Adadelta使用参数更新的移动平均来取代学习率 δ \delta δ,于是参数的更新法则:
θ t + 1 , i = θ t , i − E [ Δ θ ] t − 1 E [ g 2 ] t , i i + ε g t , i \theta_{t+1,i}=\theta_{t,i}- \dfrac{\sqrt{E[\Delta\theta]_{t-1}}}{ \sqrt{E[g^2]_{t,ii}+\varepsilon}}g_{t,i} θt+1,i=θt,i−E[g2]t,ii+εE[Δθ]t−1gt,i
Adam(结合了动量法和Adamdelta算法)
如果把Adadelta里面梯度的平方和看成是梯度的二阶矩,那么梯度自身的求和就是一阶矩。Adam算法在Adadelta的二阶矩基础上又引入了1一阶矩。
而一阶矩,其实就类似于动量法里面的动量。
m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t = \beta_1 m_{t-1}+(1-\beta_1)g_t mt=β1mt−1+(1−β1)gt v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 v_t = \beta_2 v_{t-1}+(1-\beta_2)g_t^2 vt=β2vt−1+(1−β2)gt2
于是参数更新法则为:
θ t + 1 = θ t − δ v t + ε m t \theta_{t+1}=\theta_t - \dfrac{\delta}{\sqrt{v_t}+\varepsilon}m_t θt+1=θt−vt+εδmt
究竟如何选择算法呢?
动量法和Nesterov的改进方法着重解决目标函数图像崎岖的问题
Adagrad和Adadelta主要解决学习率更新问题
Adam集中了前述两种做法的主要优点
目前为止Adam可能是几种算法中综合表现最好的