RNN 中的 GRU

背景

GRU与LSTM效果相当但复杂度更低, 所以更多情况下它是首选.

结构

RNN 中的 GRU_第1张图片
图: GRU_Cell结构, 见参考[3]
RNN 中的 GRU_第2张图片
图. 截图自参考[1]的论文章节

涉及到以下两个state:

  • h
    代表 GRU Cell 的 hidden state
  • h ~ \tilde h h~
    候选状态, 参与 h t h_t ht的更新.

还有以下两个gate, 它们 ∈ R d \in R^d Rd 而非 R 1 R^1 R1

  • z
    update gate. 结合式(5), z 值越大, 更新 h t h_t ht时对 h t − 1 h_{t-1} ht1的依赖越低, 对 h ~ \tilde h h~依赖越高, 以致变化越大.
  • r
    reset gate, 参与 h ~ \tilde h h~ 的计算, r值越接近于0, h ~ \tilde h h~ h t − 1 h_{t-1} ht1的依赖越低, 对当前输入 x 的依赖越大. 有丢弃以前state作重置的意味.

tf实现

参考

  1. paper, 2014, Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
  2. initial paper, 2014,On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
  3. blog, Illustrated Guide to LSTM’s and GRU’s: A step by step explanation

你可能感兴趣的:(RNN 中的 GRU)