6.2、解决vanishing gradient问题

解决vanishing gradient问题:

6.2、解决vanishing gradient问题_第1张图片
6.2、解决vanishing gradient问题_第2张图片

刚才的例子只是一每层一个神经元:

6.2、解决vanishing gradient问题_第3张图片

        矩阵和向量的表示, 与之前类似 所以只要是sigmoid函数的神经网络都会造成gradient更新的时候及其不稳定, vanishing or exploding问题。

        训练深度神经网络的其他难点:  2010 Glorot and Bengio*: sigmoid函数造成输出层的activation大部分饱和0, 并且建议了其他的activation函数 

2013 Sutskever, Martens, Dahl and Hinton*: 随机初始权重和偏向时, 提出momentum-based stochastic gradient descent 

 综上所属, 训练深度神经网络中有很多难点. 

本节课: 神经网络的不稳定性 

activation方程的选择 

初始化权重和偏向的方法

 具体更新的过程 hyper-parameter的选择 

这些目前都是当前学术界研究的课题, 已经取得一些有效的解决方法 解决vanishing gradient方法:

6.2、解决vanishing gradient问题_第4张图片
6.2、解决vanishing gradient问题_第5张图片

Sigmoid和ReL方程主要区别:

Sigmoid函数值在[0, 1], ReL函数值在[0,∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数

Sigmoid函数的gradient随着x增大或减小和消失

ReL 函数不会:

gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势:

不会产生vanishing gradient的问题


你可能感兴趣的:(6.2、解决vanishing gradient问题)