深度学习入门课笔记(三)

目录

一、序列数据

二、语言模型

三、RNN

基本结构

 RNN的通过(穿越)时间反向传播

四、门控循环单元

引入门的循环网络(GRU)

五、长短期记忆网络LSTM


一、序列数据

序列数据是常见的数据类型,前后数据具有关联性,比如我们说出的一句话,词与词之间互相有影响。

举个例子:语音识别、机器翻译、视频的行为识别等

二、语言模型

语言模型是自然语言处理(NLP)的重要技术。在NLP中常把文本看成离散时间序列,一段长度为T的文本的词依次为W1,W2,....,W_{T},其中W_{t}是时间步t的输出或标签,而语言模型就是来计算该序列概率P(W1,W2,....,W_{T})

语言模型计算序列概率计算公式:

                         P(w_{1},w_{2},\cdots ,w_{T})=\prod_{t=1}^{T}P(w_{t}\mid w_{1},w_{2},\cdots ,w_{t-1}) 

举个例子:P(我,在,听,课)=P(我)*P(在|我)P(听|我,在)*P(课|我,在,听)

统计语料库中的词频,得到以上的概率,得到以上的概率

有个缺点就是时间步的词需要考虑t-1步的词,计算量随t指数增长

三、RNN

基本结构

RNN是针对序列数据而生的神经网络结构,核心在于循环使用网络层参数,避免时间步增大带来的参数激增,并引入隐藏状态用于记录历史信息,有效处理数据的前后关联性。

激活函数采用Tanh,将输出值域限制在(-1,1),防止数值呈指数级变化

下图是将感知机(左)与RNN(右)的结构进行了对比

深度学习入门课笔记(三)_第1张图片

 举个例子:

深度学习入门课笔记(三)_第2张图片

 RNN的通过(穿越)时间反向传播

深度学习入门课笔记(三)_第3张图片

 如上图借助第二个公式,我们可以得到:

                                        \frac{\partial L}{\partial W_{qh}}=\sum_{t=1}^{T}prod(\frac{\partial L}{\partial O_{t}},\frac{\partial L}{\partial W_{qh}})=\sum_{t=1}^{T}\frac{\partial L}{\partial O_{t}}h_{t}^{\top }

                                         \frac{\partial L}{\partial h_{T}}=prod(\frac{\partial L}{\partial O_{T}},\frac{\partial O_{T}}{\partial h_{T}})=W_{qh}^{\top }\frac{\partial O_{T}}{\partial h_{T}}

   还有两个公式: 

                                        深度学习入门课笔记(三)_第4张图片

 深度学习入门课笔记(三)_第5张图片

 

我们举个例子来理解下:当t=2时,如下图所示有两条途径到h2,我们把这两个路径导数相加即可

深度学习入门课笔记(三)_第6张图片

 当t=1时:如下图所示有三条路径

深度学习入门课笔记(三)_第7张图片

 对应写出的公式:深度学习入门课笔记(三)_第8张图片

而我们有了ht就可以求W_{hx}W_{hh}啦(链式求导):

深度学习入门课笔记(三)_第9张图片

 

从公式中我们也可以发现:梯度随时间t呈指数变化,易引发梯度消失或梯度爆炸

四、门控循环单元

引入门的循环网络(GRU)

缓解RNN梯度消失带来的问题,引入门概念,控制信息流动,使模型更好的记住长远时期的信息。

重置门:(哪些信息需要遗忘)用于遗忘上一时间步隐藏状态

更新门:(哪些信息需要注意)用于更新当前时间步隐藏状态

激活函数用Sigmoid,值域为(0,1),0表遗忘,1表保留

深度学习入门课笔记(三)_第10张图片

 运算过程中,还会引入一个候选隐藏状态:

深度学习入门课笔记(三)_第11张图片

 隐藏状态:由候选隐藏状态和上一时间步隐藏状态得来

 

深度学习入门课笔记(三)_第12张图片

深度学习入门课笔记(三)_第13张图片

 GRU特点:

 1、采用Sigmoid函数

2、若更新门自第一个时间步到t-1时间过程中,一直保持为1,信息可有效传递到当前时间步

五、长短期记忆网络LSTM

引入3个门和记忆细胞,控制信息传递

遗忘门:哪些信息需要遗忘

输入门:哪些信息需要流入当前记忆细胞(记忆细胞时特殊的隐藏状态,记忆历史信息)

输出门:哪些记忆信息流入隐藏状态

深度学习入门课笔记(三)_第14张图片

候选记忆细胞:特殊隐藏状态 

 记忆细胞与隐藏状态

记忆细胞由候选记忆细胞及上一时间步记忆细胞组合得来

深度学习入门课笔记(三)_第15张图片

 

你可能感兴趣的:(笔记,深度学习,自然语言处理,rnn)