lstm 一 演化之路

                       

递归神经网络引入了时序的反馈机制,在语音、音乐等时序信号的分析上有重要的意义。
Hochreiter(应该是Schmidhuber的弟子)在1991年分析了bptt带来的梯度爆炸和消失问题,给学习算法带来了梯度
震荡和学习困难等问题;
Hochreater和Schmidhuber在1997年提出了LSTM的网络结构,引入CEC单元解决bptt的梯度爆炸和消失问题;
Felix Gers(Schmidhuber是指导人之一)2001年的博士论文进一步改进了lstm的网络结构,增加了forget gate和peephole
Alex Graves(Schmidhuber的弟子)2006年提出了lstm的ctc训练准则

第一步:RNN->基本lstm

参考文献[1]和[2]

问题

问题一:gradient

BPTT学习算法存在梯度爆炸和消失问题(gradient blow up or vanish),简单通过local error flow分析如下:
对RNN的隐层进行unfolding后,可以得到如下的递推关系:

ϑ j (t)=f  j (net j (t)) i w ij ϑ i (t+1) ϑj(t)=fj′(netj(t))∑iwijϑi(t+1)
最后可得:
ϑ v (tq)ϑ u (t) = l 1 =1 n ... l q1 =1 n  m=1 q f  l m  (net 

你可能感兴趣的:(lstm 一 演化之路)