深度学习(三):优化器

往往求解目标函数的最优解时,需要对函数进行进行最优化,因此会用到一些比较经典的优化器。总的来说可以分为三类,一类是梯度下降法(Gradient Descent),一类是动量优化法(Momentum),另外就是自适应学习率优化算法。

Optimizers是在网络训练时,对网络权重进行更新,使得模型最优化loss,现阶段主流的深度学习优化器是基于梯度的优化方法,代表有:SGD,Momentum,AdaGrad,Adam,Nesterov,RMSprop等。

1. SGD – 随机梯度下降法(Stochastic Gradient Descent)

函数朝着梯度方向上升最快,梯度反方向下降最快。而在深度学习的目标中,是最小化loss。直觉上可以想到能使用梯度下降方法,来最优化loss。

他的缺点是更新比较频繁,会有严重的震荡。

2. Momentum

Momentum原本来源物理,表示动量。

它可以在梯度方向不变的维度上使速度变快,在梯度方向有所改变的维度上更新速度更慢,可以抵消某些维度的摆动,加快收敛并减小震荡。

举个简单的例子:当我们将一个小球从山上滚下来,没有阻力时,它的动量会越来越大,但是如果遇到了阻力,速度就会变小,动量优化法就是借鉴此思想。

这是一种自适应的学习率策略,自适应梯度法。

他的缺点是分母会不断累计,最终学习率会变得非常小。如果初始梯度很大,会导致学习率变得很小。它适合用于稀疏数据。

4.Adam

Adam将Momentum和AdaGrad结合在一起。

5.Nesterov

Nesterov 是对Momentum的改进和优化,其形式与Momentum极其相似。

能够让算法提前看到前方的地形梯度,如果前面的梯度比当前位置的梯度大,那我就可以把步子迈得比原来大一些,如果前面的梯度比现在的梯度小,那我就可以把步子迈得小一些

6.RMSprop

RMSprop通过在AdaGrad的基础上,增加一个衰减系数来控制历史信息的获取量。

医学造影成像领域

现代医学常常要借助 CT、B 超、核磁等手段造影成像,作为判断病情的重要手段。其中 CT 成像是由若干射线源与接收器来采集数据,在实际应用中,受到设备、病人条件等限制,常常不能做到全角度扫描,故而在成像算法上也常常要面对稀疏数据。

如果数据是稀疏的,就用自适用方法,即 Adagrad, Adadelta, RMSprop, Adam。

你可能感兴趣的:(深度学习,深度学习,人工智能,python)