NLP基础知识点:GRU模型结构与公式的梳理

本篇笔记与李宏毅2020机器学习深度学习(4) RNN循环神经网络 笔记+作业一起使用

GRU神经元结构图与公式

GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。
2014年于论文《Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation》中首次提出
与LSTM相比,GRU更容易进行训练。
NLP基础知识点:GRU模型结构与公式的梳理_第1张图片
图片与公式来自维基百科。
公式中的中的 ⨀ \bigodot 是Hadamard Product,也就是操作矩阵中对应的元素相乘,因此要求两个相乘矩阵是同型的。 + + +则代表进行矩阵加法操作。

NLP基础知识点:GRU模型结构与公式的梳理_第2张图片

GRU只有两个gate,一个是reset gate, 一个是update gate
更新门z选择是否用新的隐藏状态 h t ^ \widehat{h_t} ht 更新隐藏状态。复位门r决定是否忽略先前的隐藏状态。
这里的 h t ^ \widehat{h_t} ht 主要是包含了当前输入的 x t x_t xt数据。
当r接近0时,隐藏状态被强制忽略先前的隐藏状态,并用当前输入重置。
有针对性地对 h t ^ \widehat{h_t} ht 添加到当前的隐藏状态,相当于”记忆了当前时刻的状态“。
门控信号z的范围为0~1。门控信号越接近1,代表”记忆“下来的数据越多;而越接近0则代表”遗忘“的越多。

简化的门控机制如下图所示:
NLP基础知识点:GRU模型结构与公式的梳理_第3张图片
使用了同一个门控z就同时可以进行遗忘和选择记忆(LSTM则要使用多个门控)。

你可能感兴趣的:(#,NLP知识补充学习,深度学习,神经网络)