深度学习之序列模型

1，序列模型应用

输入或者输出中包含有序列数据的模型叫做序列模型。以循环神经网络RNN为基础建立的序列模型在自然语言处理，语音识别等领域中引起了巨大的变革。以下是一些序列模型的典型应用：

语音识别：输入输出都为序列。

音乐生成：输出为序列。

情感分析：输入为序列。

DNA序列分析：输入为序列。

机器翻译：输入输出都为序列。

视频行为识别：输入为序列。

命名实体识别：输入输出都为序列。

2. Notation数学符号

下面以一个人名实体识别为例讲述表示符号，给出一句话X，识别里面所有的人名，为了使说明简单，这里的输出Y只简单标识每个单词是否为人名，这种表示方式并不是很好，有一些复杂的输出方式可以指出一个人名从哪里开始到哪里结束。

上图输入中有9个单词，那么第一步就是要把单词划分开，表示如下-以下表示上标：

x ：表示第t个单词；

Tx：表示输入的单词总数，这里Tx=9；

y：为第t个单词的输出；

Ty：为输出总数，，这里Ty=9；

以上是对单个样本的表示，若有i个样本的话，第i个样本表示如下-以下(i)、表示上标：

x(i)：表示第i个样本的第t个单词；

T(i)x：表示第i个样本的输入的单词总数；

y(i)：为第i个版本的第t个单词的输出；

T(i)y：为第i个样本的输出总数；

如何表示一个单词？

1. 首先建立一个词汇表vocabulary，也就是将表示方法中所有要用到的词列成一列

如下图，建立一个长度为10,000的词表，这对实际中的NLP来说太小了，商用中的词表有的三五万，也有的几十万甚至百万，这里仅用作说明的例子；

2. 用one-hot向量来表示单词

也就是每个单词用一个和词表长度一样的向量来表示，向量中除了这个单词所在位置为1，其余都为0，所以称之为one-hot。

3.Recurrent Neural Network Model（RNN循环序列模型）

1）为什么不用标准神经网络？

主要基于以下几点：

第一，全连接的神经网络不能够用一个模型适应输入或输出中不同的序列长度。例如，在不使用数据填充的技巧下，无法用同一个全连接模型架构对15个单词的长度的句子和150个单词长度的句子进行情感分析。但是RNN则能够自然地适应这种序列长度的变化。

第二，全连接神经网络不能够共享在序列不同位置学到的权重。这会导致参数过多的问题。而RNN则能够跨时间共享权重。

此外，以RNN为基础的序列模型通常还有时间平移非对称的特性，通常模型会更容易受到输入序列中较后位置的数据的影响。这一特性在时间序列预测等问题中通常是非常重要的，而全连接神经网络和卷积神经网络则不具有这样的特性。

2）什么是循环神经网络？

RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出

首先，将第一个单词x<1>输入神经网络，并预测 y^<1>;

然后，将第二个单词x<2>输入神经网络，同时将第一步计算的激活值a<1>也输入到神经网络，共同作用并预测y^<2> 重复第二步，直至把所有单词都训练完毕。

注意，由于在第一步之前没有任何输入，所以一般人为设置一个a<0>和x<1>一起输入到神经网络中，a<0>最常见的初始化为0，不过也有人任意初始化。

在这个结构中输入和输出数目相等，如果输入和输出不等的话，网络结构还需要改变。

参数：

循环神经网络中的参数是共享的，从输入到隐藏层的参数表示为wax，水平方向激活值向下一层输入的参数表示为waa，从隐藏层到输出的参数表示为wya

则在前向传播中：

其中参数waa，wax两个参数可以合并为wa，若waa为(100,100),wax为(100,10000)，wa为(100,10100)，如下图：

则可以表示为：

关于激活函数，两步的激活函数可以相同也可以不同，一般求a采用tanh或ReLU，求y^ 则根据输出的个数选择sigmoid或者softmax。

4. Backpropagation through time时间反向传播

RNN的反向传播，虽然开源框架通常都会自动计算反向传播，但是了解其原理还是很有帮助的。

损失函数：

这里损失函数采用标准逻辑回归的损失函数，又叫交叉熵损失函数，具体如下：

穿越时间的反向传播：

5.Different types of RNN

之前将的RNN是建立在输入和输出数目相等的情况下，在循环神经网络中，输入和输出数目可以不等，那么这种情况下的RNN结构应该是什么样呢？-RNN的各种不同的结构。

1) one to one

标准神经网络就是这种类型

2) one to many （music generation音乐生成）

输入为空，或有较少的输入，产生很多输出

3) many to one (setiment classification情感分类)

输入为文本，输出为整数

4）many to many

这里又分两类，一类是输入和输出数目相同，一类是输入和输出数目不同。

输入和输出数目相同。这种就是之前将的多个输入产生多个输出的结构，如图：

输入和输出数目不同如machine translation

此结构中输入的部分，也就是x<1>−x通常被称作encoder，输出部分，也就是y^<1>−y^通常被称为decoder。

6. Vanishing gradients with RNN梯度消失、梯度爆炸

有如下两句：

The cat, which already ate……, was full.

The cats, which already ate……, were full.

系动词需要根据主语是单数还是复数来决定，这个句子主语和系动词距离比较远，即后面的词对前面的词有长期的依赖关系，而目前所看到的RNN并不擅长捕捉这种长期依赖关系，因为由于梯度消失或梯度爆炸的问题，两个间隔很远的隐藏层很难互相影响，通常一个隐藏层主要受其附近的一些影藏层的影响，前向传播受其之前几层的影响，后向传播受其之后几层的影响。

梯度爆炸

对于RNN 来说梯度爆炸也会发生，梯度爆炸其参数值会变得很大甚至出现数值溢出，变成了一个非数字，所以很容易发现。

解决方法：

梯度修剪，也叫最大值修剪，即观察梯度向量，一旦其超过某个阈值，就对其进行缩放，以保证其不会过大

梯度消失

梯度消失是RNN面临的首要问题，其解决也较为复杂，主要的解决方案有：

- GRU

- LSTM

后面将会讨论详细的各个解决方法。