梯度与激活函数

文章目录

  • 梯度
    • 初始化的影响
    • 学习率的影响
    • 动量
    • 常见公式求解梯度
  • 激活函数
    • derivative
    • Sigmoid Logistic
    • Tanh
    • RELU
    • Softmax

梯度

初始化的影响

梯度与激活函数_第1张图片
同样的网络,同样的参数,初始化不同,梯度下降的速度不同,得到最小值也不同,如上图。

学习率的影响

梯度与激活函数_第2张图片学习率影响收敛的速度,初始情况下可以设置的大一些,不收敛在设置的小一些。

动量

梯度与激活函数_第3张图片
梯度下降的时候,可能到达局部最优的情况,这时候给一个动量,用惯性冲出局部最优的情况。

常见公式求解梯度

梯度与激活函数_第4张图片
梯度与激活函数_第5张图片
梯度与激活函数_第6张图片
梯度与激活函数_第7张图片

激活函数

derivative

梯度与激活函数_第8张图片
特点:在 z = 0 z = 0 z=0处不可导

Sigmoid Logistic

梯度与激活函数_第9张图片特点:将 z z z ( − ∞ (- \infty ( , ∞ ) , \infty) ,)拉回到 ( 0 , 1 ) (0,1) (0,1),且可导
梯度与激活函数_第10张图片
w w w求导结果也一样。

Tanh

梯度与激活函数_第11张图片

梯度与激活函数_第12张图片

RELU

梯度与激活函数_第13张图片
神经网络中常用,原因在于 z < 0 , z<0, z<0,梯度为0, z > 0 , z>0, z>0梯度为1,这样传递的时候梯度变化不大,得到了比较好的保留。

Softmax

梯度与激活函数_第14张图片
用于分类,且保证所有概率相加为1,而使用sigmod相加最大为3

另一个作用是金字塔作用,2/1=3,0.7/0.2=3.5;将差距拉的更大,将小的压缩到更小。
梯度与激活函数_第15张图片
梯度与激活函数_第16张图片
总结
梯度与激活函数_第17张图片pytorch实现
梯度与激活函数_第18张图片

你可能感兴趣的:(深度学习)