cs231n'18: Assignment 3 | LSTM Captioning

Assignment3 | LSTM Captioning

上一节介绍了 Vanilla RNN,同 NN 一样,RNN 存在的最大的问题就是梯度消失。这是因为,RNN 中需要学习的参数在一个 time capsule 结束之后才会更新一次,而在同一个 time capsule 中,所有的时刻都会有 loss 产生,因此也都会有对于参数的梯度产生,最后参数更新时的梯度是所有这些梯度之和。梯度的计算式为:
∂ L ∂ W = ∑ t

你可能感兴趣的:(cs231n,AI,CNN,cs231n)