门控循环单元GRU

一、动机:关注一个序列并不是每个观察值都是同等重要,只需要记住相关的观察(这需要能关注的机制和能遗忘的机制)。

二、门控隐藏状态:普通的循环神经网络和门控循环单元之间的关键区别在于后者支持隐藏状态的门控(或者说选通)。这意味着有专门的机制来确定应该何时 更新 隐藏状态,以及应该何时 重置 隐藏状态。这些机制是可学习的,并且能够解决了上面列出的问题。

(1)重置门和更新门

构造:输入是由当前时间步的输入和前一时间步的隐藏状态给出。两个门的输出是由使用 sigmoid 激活函数的两个全连接层给出。

门控循环单元GRU_第1张图片

 数学公式:

门控循环单元GRU_第2张图片

 (2)候选隐藏状态(新状态的生成):将重置门 Rt与 常规隐状态更新机制集成,Rt 和 Ht−1 的元素相乘可以减少以往状态的影响,每当重置门 Rt 中的项接近 1 时,就是普通的循环神经网络。对于重置门 Rt中所有接近 0的项,候选隐藏状态是以 Xt作为输入的多层感知机的结果。

门控循环单元GRU_第3张图片

 (3)隐藏状态:确定新的隐藏状态 Ht在多大程度上就是旧的状态 Ht−1 ,以及对新的候选状态 H~t 的使用量。每当更新门 Zt 接近 1时,只保留旧状态。此时,来自 Xt 的信息基本上被忽略,从而有效地跳过了依赖链条中的时间步 t。相反,当 Zt 接近 0 时,新的隐藏状态 Ht就会接近候选的隐藏状态 H~t。这些设计可以帮助我们处理循环神经网络中的梯度消失问题,并更好地捕获时间步距离很长的序列的依赖关系。

门控循环单元GRU_第4张图片

 (4)总结:

门控循环单元GRU_第5张图片 

  • 重置门(要不要考虑上一步的信息)有助于捕获序列中的短期依赖关系。

  • 更新门(要不要根据X更新H)有助于捕获序列中的长期依赖关系。

你可能感兴趣的:(深度学习,人工智能,计算机视觉,rnn,gru)