优化算法:Adam 分析

重温了下论文《Adam: A Method for Stochastic Optimization》,结合李沐的系列课程,有了新的一些理解

几种常见的optimization method

RMSProp 处理在线和非平稳数据
AdaGrad 处理稀疏梯度

adam原理简介

论文推荐的参数设定:
alpha=0.001、beta1=0.9、beta2=0.999 和 epsilon=10E−8

adam(adam moment estimation) 通过计算梯度的一阶矩和二阶矩来计算不同参数各自的自适应learning rate。

收敛性证明

暂未深入研究

实验部分

论文在lr,全连接网络,深度卷积网络上进行了实验
1)lr model。学习率衰减同样适用于adam算法。论文中采用了。AdaGrad擅长学习稀疏feature和稀疏梯度。学习率衰减的adam算法在imdb数据集(Bow feature)上,可以取得和AdaGrad一样的效果。

2)全连接网络。和SFO优化算法相比,在收敛性和时间上,adam算法都更好。和其他随机一阶算法比较,adam算法同样更好

3)卷积神经网络。CNN时,通常更小的学习率被设定。梯度的二阶估计很快衰减成0,可以看到二阶估计在cnn的cost function上表现较差,因此AdaGrad算法表现较差。

  1. VAE网络。当 逼近于1时,如果不适用bias correlection,在训练过程中不稳定。最好的训练结果,由 ,同时使用bias correlection时取得

你可能感兴趣的:(优化算法:Adam 分析)