BPTT算法 / LSTM的细胞状态和隐藏状态 / GRU

1:BPTT: 其实就是BP算法正常的链式推导展开,只是因为它涉及到了之前时刻的ht输出,所以将时间信息给带进去了;而这也是为什么说RNN不能很好的保存长期记忆的原因,因为偏导的连乘,长期的记忆被不断的缩小,很容易出现梯度消失,也就是把长期记忆丢失了

BPTT算法 / LSTM的细胞状态和隐藏状态 / GRU_第1张图片

 2:LSTM的细胞状态和隐藏状态

参考:(41 封私信 / 13 条消息) 如何理解 LSTM 中的 cell state 和 hidden state? - 知乎 (zhihu.com)

快速理解LSTM,从懵逼到装逼 - 知乎 (zhihu.com)

我的理解是认为,细胞状态是包含了全部的长短期信息的,而hidden state则是从细胞状态里面抽取的与当前输入最相关的信息(因为最相关不一定就是短期信息,所以hidden state也可以是长期信息);综上,细胞状态是包含整体的长短期信息,而隐藏状态则是包含的与当前输入最相关的信息

BPTT算法 / LSTM的细胞状态和隐藏状态 / GRU_第2张图片

 

3;GRU

首先,ht-1 融合xt之后,分别生成重置门rt和更新门zt,rt决定ht-1中有多少信息需要遗忘,也可以说是从ht-1中选择与当前输入更相关的信息来与输入进行融合(所以此时融合的信息可以理解为和当前输入联系最紧密的信息,既有短期信息也有长期信息);zt则是更新门,他决定上一步融合的信息有多少会加入到ht中去。而因为之前融合的信息是与当前信息最相关的,所以我们还应该加上与当前信息不那么相关的信息,来保证ht信息的完整性(这就是1-zt,再乘上ht-1的原因)。

BPTT算法 / LSTM的细胞状态和隐藏状态 / GRU_第3张图片

 

 

你可能感兴趣的:(NLP笔记,lstm,人工智能,rnn)