Feedforward v.s. Recurrent
双向递归层可以提供更好的识别预测效果,但却不能实时预测,由于反向递归的计算需要从最末时刻开始,网络不得不等待着完整序列都产生后才可以开始预测。在对于实时识别有要求的线上语音识别,其应用受限
在实践中,如果序列过长会导致优化时出现梯度消散或梯度爆炸的问题,从而丧失学 习到连接如此远的信息的能力
梯度消失的原因之一:tanh激活函数求导后的连乘
GRU模型如下,它只有两个门了,分别为更新门和重置门,即图中的和。