深度学习-GRU

GRU介绍      

      GRU是新一代的递归神经网络,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的,与LSTM非常相似。相比LSTM,GRU摆脱了cell状态,使用隐藏状态来传输信息。此外,GRU只有两个门,一个复位门和一个更新门,结构更为简单。

      当前输入,和上一个节点传递下来的隐状态,隐状态包含了之前节点的相关信息。

      结合,GRU会得到当前隐藏节点的输出和传递给下一个节点的隐状态


GRU结构

      r,z为控制门,r是复位门,z是更新门,由拼接向量乘以权重矩阵后,再通过sigmoid激活函数转换成0到1之间的数值,来充当门控信号。

深度学习-GRU_第1张图片

      ⊙r,再将进行拼接,再通过tanh激活函数将数据放缩到-1~1的范围内,即得到h′。

深度学习-GRU_第2张图片

      更新记忆阶段,是GRU最关键的步骤,更新表达式为:

      =(1-z)⊙+z⊙h′

      使用同一个门控z就可以同时进行遗忘和选择记忆,其中(1-z)⊙表示对原本隐藏状态进行选择遗忘,z⊙h′表示对包含当前节点信息的h′进行选择性记忆,综上所述,这一操作就是忘记传递下来的中的某些信息,并加入了当前节点输入的某些信息。

      GRU输入输出的结构与普通的RNN相似,其中的内部思想与LSTM相似。与LSTM相比,GRU内部少了一个门控,参数比LSTM少,但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候我们也就会选择更加实用的GRU。

你可能感兴趣的:(深度学习,深度学习,gru,人工智能)