上一节介绍了循环神经网络 ( Recurrent Neural Network,RNN ) (\text{Recurrent Neural Network,RNN}) (Recurrent Neural Network,RNN)的反向传播过程,本节将针对 RNN \text{RNN} RNN存在的梯度消失问题,介绍一种新的网络——长短期记忆神经网络 ( Long-Short Term Memory,LSTM ) (\text{Long-Short Term Memory,LSTM}) (Long-Short Term Memory,LSTM)。
关于 RNN \text{RNN} RNN的网络结构图(展开)表示如下:
仅以上图部分为例,它的前馈计算过程表示如下:
对应的
t , t + 1 t,t+1 t,t+1时刻同理。
{ Z 1 ( t − 1 ) = W h ( t − 2 ) ⇒ h ( t − 1 ) ⋅ h ( t − 2 ) + W x ( t − 1 ) ⇒ h ( t − 1 ) ⋅ x ( t − 1 ) + b ( t − 1 ) h ( t − 1 ) = Tanh [ Z 1 ( t − 1 ) ] Z 2 ( t − 1 ) = W h ( t − 1 ) ⇒ O ( t − 1 ) ⋅ h ( t − 1 ) + b O O ( t − 1 ) = Softmax ( Z 2 ( t − 1 ) ) \begin{aligned} \begin{cases} \mathcal Z_1^{(t-1)} & = \mathcal W_{h^{(t-2)}\Rightarrow h^{(t-1)}}\cdot h^{(t-2)} + \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}} \cdot x^{(t-1)} + b^{(t-1)}\\ h^{(t-1)} & = \text{Tanh}\left[\mathcal Z_1^{(t-1)}\right] \\ \mathcal Z_2^{(t-1)} & = \mathcal W_{h^{(t-1)} \Rightarrow \mathcal O^{(t-1)}} \cdot h^{(t-1)} + b_{\mathcal O} \\ \mathcal O^{(t-1)} & = \text{Softmax}(\mathcal Z_2^{(t-1)}) \end{cases} \end{aligned} ⎩ ⎨ ⎧Z1(t−1)h(t−1)Z2(t−1)O(t−1)=Wh(t−2)⇒h(t−1)⋅h(t−2)+Wx(t−1)⇒h(t−1)⋅x(t−1)+b(t−1)=Tanh[Z1(t−1)]=Wh(t−1)⇒O(t−1)⋅h(t−1)+bO=Softmax(Z2(t−1))
假设针对分类任务使用交叉熵作为损失函数,从 t + 1 t+1 t+1时刻的损失函数信息 L ( t + 1 ) \mathcal L^{(t+1)} L(t+1)开始,对 t − 1 t-1 t−1时刻的权重 W x ( t − 1 ) ⇒ h ( t − 1 ) \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}} Wx(t−1)⇒h(t−1)求解梯度。那么它的梯度传播方向表示如下(红色箭头方向):
这里仅描述
L ( t + 1 ) \mathcal L^{(t+1)} L(t+1)对
W x ( t − 1 ) ⇒ h ( t − 1 ) \mathcal W_{x^{(t-1)} \Rightarrow h^{(t-1)}} Wx(t−1)⇒h(t−1)的梯度,其他时刻输出对应的梯度不包含在内。
对应梯度公式表示如下:
关于
∂ L ( t + 1 ) ∂ O ( t + 1 ) ⋅ ∂ O ( t + 1 ) ∂ Z 2 ( t + 1 ) \begin{aligned}\frac{\partial \mathcal L^{(t+1)}}{\partial \mathcal O^{(t+1)}} \cdot \frac{\partial \mathcal O^{(t+1)}}{\partial \mathcal Z_2^{(t+1)}}\end{aligned} ∂O(t+1)∂L(t+1)⋅∂Z2(t+1)∂O(t+1)结果见
上一节。其中
y ( t + 1 ) y^{(t+1)} y(t+1)表示
t + 1 t+1 t+1时刻样本的真实分布。
上述梯度仅仅描述了 L ( T ) \mathcal L^{(\mathcal T)} L(T)对 W x ( 1 ) ⇒ h ( 1 ) \mathcal W_{x^{(1)} \Rightarrow h^{(1)}} Wx(1)⇒h(1)的梯度信息,实际上,除去初始时刻,其他时刻的输出都会向 W x ( 1 ) ⇒ h ( 1 ) \mathcal W_{x^{(1)} \Rightarrow h^{(1)}} Wx(1)⇒h(1)传递梯度信息。
观察上式,其中 ∏ k = 2 T W h ( k − 1 ) ⇒ h ( k ) \begin{aligned}\prod_{k=2}^{\mathcal T} \mathcal W_{h^{(k-1)} \Rightarrow h^{(k)}}\end{aligned} k=2∏TWh(k−1)⇒h(k)就是各时刻隐变量权重的累积结果。
由于损失函数使用的交叉熵,因此使用梯度下降法对各权重进行更新,这导致 W h ( k − 1 ) ⇒ h ( k ) ( k = 2 , ⋯ , T ) \mathcal W_{h^{(k-1)}\Rightarrow h^{(k)}}(k=2,\cdots,\mathcal T) Wh(k−1)⇒h(k)(k=2,⋯,T)结果逐渐趋近于零。最终导致梯度结果 ∂ L ( T ) ∂ W x ( 1 ) ⇒ h ( 1 ) \begin{aligned}\frac{\partial \mathcal L^{(\mathcal T)}}{\partial \mathcal W_{x^{(1)} \Rightarrow h^{(1)}}} \end{aligned} ∂Wx(1)⇒h(1)∂L(T)随着各时刻权重更新几乎不发生变化,即梯度消失现象。
从物理意义的角度观察,随着序列长度的增加,对序列初始位置的信息出现忘却的现象。因为参数更新过程中梯度仅能有效传递到之前若干个时刻。这导致无法捕捉长期关联或者依赖关系。
这个问题也被称作‘长期依赖问题’。
针对循环神经网络的长期依赖问题, LSTM \text{LSTM} LSTM给出了解决方式。从思想的角度观察,它与循环神经网络没有本质区别,依然是对各时刻隐变量 h t ( t = 1 , 2 , ⋯ , T ) h_t(t=1,2,\cdots,\mathcal T) ht(t=1,2,⋯,T)的后验分布以及对应下一时刻输入的后验分布进行交替求解:
{ P ( h t ∣ h t − 1 , x t − 1 ) = P [ h t ∣ f ( h t − 1 , x t − 1 ; λ ) ] P ( x t ∣ h t , x t − 1 ) = P [ x t ∣ f ( h t , x t − 1 ; η ) ] \begin{cases} \mathcal P(h_t \mid h_{t-1},x_{t-1}) = \mathcal P [h_t \mid f(h_{t-1},x_{t-1};\lambda)] \\ \mathcal P(x_t \mid h_{t},x_{t-1}) = \mathcal P [x_t \mid f(h_t,x_{t-1};\eta)] \end{cases} {P(ht∣ht−1,xt−1)=P[ht∣f(ht−1,xt−1;λ)]P(xt∣ht,xt−1)=P[xt∣f(ht,xt−1;η)]
不同于 RNN \text{RNN} RNN的神经网络构建, LSTM \text{LSTM} LSTM对各单元的输出进行了限制,从而避免出现梯度消失现象。 LSTM \text{LSTM} LSTM的结构展开图表示如下:
可以看出, LSTM \text{LSTM} LSTM单元结构与循环神经网络是相似的。每个单元均包含 x ( t ) , h ( t ) x^{(t)},h^{(t)} x(t),h(t);不同点在于, LSTM \text{LSTM} LSTM内增加了一个新的变量——细胞状态 ( Cell State ) C ( t ) (\text{Cell State})\mathcal C^{(t)} (Cell State)C(t)。
从图中可以看出,在每一个 LSTM \text{LSTM} LSTM单元中, C ( t ) \mathcal C^{(t)} C(t)不仅全程陪跑,并且还对当前时刻隐变量输出 h ( t ) h^{(t)} h(t)存在紧密关联。下面从 LSTM \text{LSTM} LSTM单元中的各结构进行介绍。
被称作遗忘门 ( Forget Gate ) (\text{Forget Gate}) (Forget Gate)的神经元结构,其输入包含两个部分:当前时刻 t t t的输入信息 x ( t ) x^{(t)} x(t),以及 t t t时刻之前的序列信息 h ( t − 1 ) h^{(t-1)} h(t−1);由于 σ = Sigmoid \sigma = \text{Sigmoid} σ=Sigmoid激活函数的原因,其输出 f ( t ) f^{(t)} f(t)是一个各元素值均 ∈ ( 0 , 1 ) \in (0,1) ∈(0,1)的向量结果。对应公式表示如下:
正常写法是
f t = σ ( W f ⋅ [ h ( t − 1 ) , x ( t ) ] + b f ) f_t = \sigma(\mathcal W_f \cdot [h^{(t-1)},x^{(t)}] + b_f) ft=σ(Wf⋅[h(t−1),x(t)]+bf),其将
h ( t − 1 ) , x ( t ) h^{(t-1)},x^{(t)} h(t−1),x(t)进行拼接,使用一个权重矩阵
W f \mathcal W_f Wf进行表示。这里仅是为了与上面格式相同,下同。
f ( t ) = σ [ W h ( t − 1 ) ⇒ f ( t ) ⋅ h ( t − 1 ) + W x ( t ) ⇒ f ( t ) ⋅ x ( t ) + b f ] f^{(t)} = \sigma \left[\mathcal W_{h^{(t-1)} \Rightarrow f^{(t)}} \cdot h^{(t-1)} + \mathcal W_{x^{(t)} \Rightarrow f^{(t)} }\cdot x^{(t)} + b_f\right] f(t)=σ[Wh(t−1)⇒f(t)⋅h(t−1)+Wx(t)⇒f(t)⋅x(t)+bf]
我们可以将 f ( t ) f^{(t)} f(t)理解成比率,即各分量保留下来(不被遗忘)的比率。
被称作输入门 ( Input Gate ) (\text{Input Gate}) (Input Gate)的结构,包含了两个神经元,并且这两个神经元的输入是相同的: x ( t ) , h ( t − 1 ) x^{(t)},h^{(t-1)} x(t),h(t−1)
将 t t t时刻输入门结构中的更新比率 i ( t ) i^{(t)} i(t)与对应的候选信息 C ~ ( t ) \widetilde{\mathcal C}^{(t)} C (t)做点乘 i ( t ) ∗ C ~ ( t ) i^{(t)} * \widetilde{\mathcal C}^{(t)} i(t)∗C (t),表示:当前 t t t时刻能够被保留下来的候选信息;同理,遗忘门结构的遗忘比率 f ( t ) f^{(t)} f(t)与 C ( t − 1 ) \mathcal C^{(t-1)} C(t−1)做点乘 f ( t ) ∗ C ( t − 1 ) f^{(t)} * \mathcal C^{(t-1)} f(t)∗C(t−1),表示能够保留下来的过去 t − 1 t-1 t−1时刻的累积信息。
将两种信息融合,得到:从初始时刻到 t t t时刻保留下来的累积信息 C ( t ) \mathcal C^{(t)} C(t):
C ( t ) = f ( t ) ∗ C ( t − 1 ) + i ( t ) ∗ C ~ ( t ) \mathcal C^{(t)} = f^{(t)} * \mathcal C^{(t-1)} + i^{(t)} * \widetilde{\mathcal C}^{(t)} C(t)=f(t)∗C(t−1)+i(t)∗C (t)
被称作输出门 ( Output Gate ) (\text{Output Gate}) (Output Gate)的结构,包含一个神经元和一个 Tanh \text{Tanh} Tanh激活函数:
激活函数不仅映射值域较广
( − 1 , 1 ) (-1,1) (−1,1),并且该函数在
0 0 0附近的结果趋近于
y = x y=x y=x,这是一个优秀的性质。
关于恒等映射分布与激活函数的底层逻辑,详见
数值稳定性、模型初始化与激活函数之前在其他的模型中,我们更多的是对随机变量的后验进行推断(观测变量、隐变量)。而这里的 f ( t ) , i ( t ) , o ( t ) f^{(t)},i^{(t)},o^{(t)} f(t),i(t),o(t),我们人为给他们赋予的物理意义是一个比率,更泛化地说,它们都是约束序列信息的一种权重。而这种权重还被其他权重约束着。例如:
o ( t ) ⏟ 一种权重 = σ ( W h ( t − 1 ) ⇒ o ( t ) ⏟ 约束权重 o ( t ) 的权重 ⋅ h ( t − 1 ) + W x ( t ) ⇒ o ( t ) ⏟ 约束权重 o ( t ) 的权重 ⋅ x ( t ) + b o ) \underbrace{o^{(t)}}_{一种权重} = \sigma \left(\underbrace{\mathcal W_{h^{(t-1)} \Rightarrow o^{(t)}}}_{约束权重o^{(t)}的权重} \cdot h^{(t-1)} + \underbrace{\mathcal W_{x^{(t)} \Rightarrow o^{(t)}}}_{约束权重o^{(t)}的权重} \cdot x^{(t)} + b_o \right) 一种权重 o(t)=σ 约束权重o(t)的权重 Wh(t−1)⇒o(t)⋅h(t−1)+约束权重o(t)的权重 Wx(t)⇒o(t)⋅x(t)+bo
并能够执行用其执行运算。这种嵌套是个很奇特的感受。
它们的本质也是隐变量,但它们能够与其他隐变量执行运算。
下一节将从反向传播的角度观察为什么 LSTM \text{LSTM} LSTM能够抑制梯度消失。
相关参考:
RNN梯度消失回顾(公式推导)
大名鼎鼎的LSTM详解