LSTM为什么比RNN好

来自知乎大佬Towser的回答,比较深刻,也加了点自己的注释,侵删

  1. “LSTM 能解决梯度消失/梯度爆炸”是对 LSTM 的经典误解,RNN 中的梯度消失/梯度爆炸和普通的 MLP 或者深层 CNN 中梯度消失/梯度爆炸的含义不一样。MLP/CNN 中不同的层有不同的参数,各是各的梯度;而 RNN 中同样的权重在各个时间步共享,最终的梯度 g = 各个时间步的梯度 g_t 的和。(RNN反向传播使用BPTT,即收集 全部or部分 历史对cell共享参数进行更新
  2. 由 1 中所述的原因,RNN 中总的梯度是不会消失的。即便梯度越传越弱,那也只是远距离的梯度消失,由于近距离的梯度不会消失,所有梯度之和便不会消失。RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系
    • 难以学到较远依赖,突出基于attention的依赖建模的优势
    • RNN使用BPTT计算的梯度包含两部分,一是用于直接学到满足各个位置输出的W(利用近距离梯度);二是根据远距离上下文关系调节W(利用远距离梯度);如果远距离梯度消失,会影响对长距离上下文关系的刻画;(个人理解,有点玄学,哈哈)
  3. LSTM 中梯度的传播有很多条路径, c t − 1 = > c t = f t ⨀ c t − 1 + i t ⨀ c t ^ c_{t-1} => c_t = f_t \bigodot c_{t-1} + i_t \bigodot \hat{c_t} ct1=>ct=ftct1+itct^这条路径上只有逐元素相乘和相加的操作,梯度流最稳定;但是其他路径(例如 c t − 1 = > h t − 1 = > i t = > c t c_{t-1} => h_{t-1} => i_t => c_t ct1=>ht1=>it=>ct )上梯度流与普通 RNN 类似,照样会发生相同的权重矩阵反复连乘。(第一条路径形成梯度回传的高速公路,神图镇楼)LSTM为什么比RNN好_第1张图片LSTM为什么比RNN好_第2张图片LSTM为什么比RNN好_第3张图片LSTM为什么比RNN好_第4张图片LSTM为什么比RNN好_第5张图片
  4. LSTM 刚提出时没有遗忘门,或者说相当于 f t = 1 f_t=1 ft=1 ,这时候在 c_{t-1}=>c_t直接相连的短路路径上, d l o s s / d c t dloss/dc_t dloss/dct可以无损地传递给 d l o s s / d c t − 1 dloss/dc_{t-1} dloss/dct1,从而这条路径上的梯度畅通无阻,不会消失。类似于 ResNet 中的残差连接。(高速公路通畅无阻)
  5. 但是在其他路径上,LSTM 的梯度流和普通 RNN 没有太大区别,依然会爆炸或者消失。由于总的远距离梯度 = 各条路径的远距离梯度之和,即便其他远距离路径梯度消失了,只要保证有一条远距离路径(就是上面说的那条高速公路)梯度不消失,总的远距离梯度就不会消失(正常梯度 + 消失梯度 = 正常梯度)。因此 LSTM 通过改善一条路径上的梯度问题拯救了总体的远距离梯度。
  6. 同样,因为总的远距离梯度 = 各条路径的远距离梯度之和,高速公路上梯度流比较稳定,但其他路径上梯度有可能爆炸,此时总的远距离梯度 = 正常梯度 + 爆炸梯度 = 爆炸梯度,因此 LSTM 仍然有可能发生梯度爆炸。不过,由于 LSTM 的其他路径非常崎岖,和普通 RNN 相比多经过了很多次激活函数(导数都小于 1),因此 LSTM 发生梯度爆炸的频率要低得多。实践中梯度爆炸一般通过梯度裁剪来解决。(可能爆炸,只是较RNN程度小一点
  7. 对于现在常用的带遗忘门的 LSTM 来说,6 中的分析依然成立,而 5 分为两种情况:其一是遗忘门接近 1(例如模型初始化时会把 forget bias 设置成较大的正数,让遗忘门饱和),这时候远距离梯度不消失;其二是遗忘门接近 0,但这时模型是故意阻断梯度流的,这不是 bug 而是 feature(例如情感分析任务中有一条样本 “A,但是 B”,模型读到“但是”后选择把遗忘门设置成 0,遗忘掉内容 A,这是合理的)。当然,常常也存在 f 介于 [0, 1] 之间的情况,在这种情况下只能说 LSTM 改善(而非解决)了梯度消失的状况。
  8. 最后,别总是抓着梯度不放。梯度只是从反向的、优化的角度来看的,多从正面的、建模的角度想想 LSTM 有效性的原因。选择性、信息不变性都是很好的视角,比如看看这篇

你可能感兴趣的:(技术问题,#,深度学习,神经网络)