论文笔记:Long Short-Term Memory

LongShort-Term Memory

摘要

通过recurrent BP方式来学着存储随时间间隔变化的信息会花费很长的时间。我们引进了新奇的,有效的,基于梯度的方法:LSTM(至少在1997年的时候这么评价还算公正)。 且能够解决一些标签比较长的分类任务。

LSTM现在基本会被用在RNN模型中,代替RNN的隐层单元,能够起到很好的长时间记忆效果。现阶段(2017)GRU跟LSTM都是基于门的单元,但是GRU有2个门,计算速度比LSTM(3个门)要快。

引言

RNN共享权重,权重修正速度比较慢,只有短时记忆。
problem 卷积“Back-Propagation Through Time”或者”Real-Time Recurrent Learning”, 误差信号随着反馈网络会趋向于(1)爆炸(2)消失 。 情况(1)会产生摆动权重,情况2 会浪费大量的时间,可能会一点也不工作。
remedy LSTM的提出就是为了解决上面提出的问题

LSTM

  1. Memory cells and gate units
    引进乘法输入单元和乘法输出单元。输入单元是为了保护存储在j中的记忆内容不受不相关输入的微小影响。同时,输出单元是为了保护其他的单元免受当前不相关信号产生的微小影响。
  2. 输入们 输出门 遗忘门
  3. 3.

RNN

RNN能够有效联系上下文信息就是因为他可以长时间记忆。梯度存在爆炸或者消失的问题,因此提出了LSTM。
论文笔记:Long Short-Term Memory_第1张图片
论文笔记:Long Short-Term Memory_第2张图片
论文笔记:Long Short-Term Memory_第3张图片
论文笔记:Long Short-Term Memory_第4张图片
论文笔记:Long Short-Term Memory_第5张图片
LSTM的backpropagation
使用梯度下降,使用了RTRL和BPTT方法。4

Reference
1. Hochreiter, S, and J. Schmidhuber. “Long short-term memory.” Neural Computation 9.8(1997):1735-1780.
2. Graves, Alex. Long Short-Term Memory. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012:1735-1780.
3. http://www.jianshu.com/p/9dc9f41f0b29/ 这篇文章很不错


EMMA

SIAT

你可能感兴趣的:(论文笔记:Long Short-Term Memory)