『RNN 监督序列标注』笔记-第四章 LSTM(Long Short-Term Memory)

『RNN 监督序列标注』笔记-第四章 LSTM(Long Short-Term Memory)

标准 RNN 在实际使用中能够有效利用的上下文范围很有限,这是由于经过若干次迭代,隐含层权重值要么消失要么爆炸。Long Short-Term Memory (LSTM)结构解决了这一问题。

网络结构

LSTM 具有记忆单元,每个单元含有记忆细胞和3个倍增单元(输入、输出以及遗忘门)。如图所示


『RNN 监督序列标注』笔记-第四章 LSTM(Long Short-Term Memory)_第1张图片

展示了一个 LSTM 网络结构,包含4个输入,5个输出,2个 LSTM 记忆细胞。

预处理的影响

LSTM 用于解决长时间范围上下文信息,如果能够找到从长时间范围依赖信号到短时间范围依赖信号之间的转换关系,就没有必要使用 LSTM,可以直接使用隐马尔科夫模型。

网络公式

脚标 ι,ϕ,ω 分别代表输入、遗忘和输出门。 wij 是从 i j 的权重连接。在 t 时刻神经元 j 的输入定义为 atj ,而 j 的激活值定义为 btj 。脚标 c 代表了 C 个记忆细胞中的一个。从 c 细胞到输入、遗忘和输出门的窥视孔权重依次为 wcι,wcϕ,wcω stc 为细胞 c 在时间步 t 下的状态。 f 为门激活函数, g h 分别为输入和输出激活函数。 I,K,H 分别为输入、输出数量以及隐藏层细胞数。 G 代表输入到隐藏层的总数,包含了细胞输入和门输入,以 g 进行索引。对于每个记忆单元只有一个细胞的情况, G 等于 4H 。其中有

δtj=defatj

前向过程

输入门

atι=i=1Iwiιxti+h=1Hwhιbt1h+c=1Cwcιst1cbtι=f(atι)

遗忘门

atϕ=i=1Iwiϕxti+h=1Hwhϕbt1h+c=1Cwcϕst1cbtϕ=f(atϕ)

细胞状态

atc=i=1Iwicxti+h=1Hwhcbt1hstc=btϕst1c+btιg(atc)

输出门

atω=i=1Iwiωxti+h=1Hwhωbt1h+c=1Cwcωstcbtω=f(atω)

细胞输出

btc=btωh(stc)

反向过程

εtc=defbtcεts=defstc

细胞输出

εtc=k=1Kwckδtk+g=1Gwcgδt+1g

输出状态

δtw=f(atw)c=1Ch(stc)εtc

细胞状态

εts=btwh(stc)εtc+bt+1ϕεt+1s+wcιδt+1ι+wcϕδt+1ϕ+wcωδtω

细胞残差

εts=btwh(stc)εtc+bt+1ϕεt+1s+wcιδt+1ι+wcϕδt+1ϕ+wcωδtωδtc=btιg(atc)εts

遗忘门

δtϕ=f(atϕ)c=1Cst1cεts

输入门

δtι=f(atι)c=1Cg(atc)εts

你可能感兴趣的:(Deep,Learning,神经网络,模式识别)