理解神经网络梯度爆炸和梯度弥散问题

今天为理解神经网络训练过程中梯度爆炸和梯度弥散的具体原因,看了几篇文章。Jacobian矩阵和Hessian矩阵

http://jacoxu.com/jacobian矩阵和hessian矩阵/

激活函数
http://www.mamicode.com/info-detail-873243.html
参考论文Deep Sparse Rectifier Neural Networks
很有意思,有些颠覆了之前对激活函数的理解,原来稀疏性这么重要,所谓的非线性并没那么重要。

梯度弥散
https://en.wikipedia.org/wiki/Vanishing_gradient_problem
http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/

对于循环神经网络RNN中梯度弥散问题,具体公式推导可以去看论文

On the difficulty of training recurrent neural networks 

http://www.jmlr.org/proceedings/papers/v28/pascanu13.pdf


你可能感兴趣的:(神经网络)