深度学习激活函数 和 优化函数总结

深度学习激活函数 和 优化函数总结_第1张图片

1、SGD,Momentum,Adagard,Adam原理?

【第一张图为不同算法在损失平面等高线上随时间的变化情况】

深度学习激活函数 和 优化函数总结_第2张图片

【第二张图为不同算法在鞍点处的行为比较。】

深度学习激活函数 和 优化函数总结_第3张图片

SGD(Stochastic Gradient Descent )(随机梯度下降)

【意义】单纯的梯度计算容易得到局部最优解,这个时候引入随机变量能很好的在保证梯度下降大体方向情况下得到最优解。也就是说,虽然包含一定的随机性,但是从期望上来看,它是等于正确的导数的。 SGD 就像是喝醉了酒的 GD,它依稀认得路,最后也能自己走回家,但是走得歪歪扭扭。

【公式】

【图示】深度学习激活函数 和 优化函数总结_第4张图片

Momentum

【意义】我们使用SGD训练参数时,有时候会下降的非常慢,并且可能会陷入到局部最小值中。动量的引入就是为了加快学习过程,特别是对于高曲率、小但一致的梯度,或者噪声比较大的梯度能够很好的加快学习过程。SGD每次都会在当前位置上沿着负梯度方向更新(下降,沿着正梯度则为上升),并不考虑之前的方向梯度大小等等。而动量(moment)通过引入一个新的变量 v v 去积累之前的梯度(通过指数衰减平均(类似EMA)得到),得到加速学习过程的目的。

Adagard

【意义】Adagrad算法能够在训练中自动的对learning rate进行调整,对于出现频率较低参数采用较大的α更新;相反,对于出现频率较高的参数采用较小的α更新。因此,Adagrad非常适合处理稀疏数据。

【公式】深度学习激活函数 和 优化函数总结_第5张图片

Adam

【意义】Adam(Adaptive Moment Estimation)是另一种自适应学习率的方法。它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。公式如下:

【公式】

深度学习激活函数 和 优化函数总结_第6张图片

2、常见的4种激活函数有:Sigmoid、tanh,ReLU、leaky ReLU,Softmax它们的优缺点?

深度学习激活函数 和 优化函数总结_第7张图片

别称:S型生长曲线

信息科学中Sigmoid函数常用作神经网络的激活函数,将变量映射到0,1之间。

【优】函数非常适合将输入分为两类,此函数形状较为缓和,其梯度能得到很好的控制,

【缺】在极端情况下,函数输出变得非常平坦,反向传播时,存在梯度消失的问题;

深度学习激活函数 和 优化函数总结_第8张图片

别称:双切正切函数,取值范围[-1,-1]

tanh函数与Sigmoid函数非常相似,函数曲线更加的陡峭,输出变得更加强大

【优】tanh在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。

【缺点】缺点与Sigmoid类似

深度学习激活函数 和 优化函数总结_第9张图片

输出范围为0到无穷大,意味着输出会变得非常大,它的左侧是完全平坦的,可能导致梯度小时。

【优点】计算简单,是神经网络最常用的激活函数

【缺点】存在梯度爆炸和消失的可能性

深度学习激活函数 和 优化函数总结_第10张图片

将ReLU函数的前半段用0.01x代替。

深度学习激活函数 和 优化函数总结_第11张图片

Softmax将输入归一化为概率分布。它将输入压缩为0到1范围,就像Sigmoid。softmax是sigmoid的扩展,因为,当类别数 k=2 时,softmax 回归退化为 logistic 回归

它通常在多分类场景中的输出层,Softmax确保每个类的概率之和为1。

【优点】可用于多分类问题

 

深度学习激活函数 和 优化函数总结_第12张图片

 

你可能感兴趣的:(数学基础,深度学习,机器学习)