LSTM 的几种改进方案

在前面我们很细致地介绍了基本 LSTM 的理论,其实学者们还提出了多种 LSTM 的变种,如 Coupled LSTM、Peephole LSTM、GRU 等等,今天就来看看其中两个比较流行的变体 Peephole connections 和 GRU,它们都可应对梯度消失问题,也都可用于构建深度神经网络,此外我们还会学习一个高效的搜索策略 Beam Search

首先来回顾一下 LSTM 的结构:

LSTM 的几种改进方案_第1张图片

LSTM 有三个门控,还有一个长期状态 C。

数学表达为:

$ i_t = \sigma (W_i h_{t-1} + U_i x_{t} + b_i)$ $ o_t = \sigma (W_o h_{t-1} + U_o x_{t} + b_o)$ $ f_t = \sigma (W_f h_{t-1} + U_f x_{t} + b_f)$

$ \tilde{C}_t = \tanh (W_C h_{t-1} + U_C x_{t} + b_C)$ $ C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C}_t $

$ h_t = o_t \circ \tanh{C_t}$

$ y_t = h_t$

其中:

  • f:forget,遗忘门,负责控制是否记忆过去的长期状态。
  • i:input,输入门,负责控制是否将当前时刻的内容写入长期状态。
  • o&#

你可能感兴趣的:(自然语言处理面试基础)