The Unreasonable Effectiveness of Recurrent Neural Networks,http://karpathy.github.io/2015/05/21/rnn-effectiveness/
https://www.csdn.net/article/2015-08-28/2825569
RNN基础
rnn是的输入和输出都是序列,如图
所以rnn可以认为是用于学习序列和序列之间的匹配关系
如何用符号表示
X,Y表示输入,输出
(i),表示训练集中的序号
T表示序列长度
对于NLP,X用传统的one-hot方式表示,基于字典vocabulary
为何要使用rnn,使用标准网络有什么问题?
首先,从上面图也看的出来,序列长度是改变的,而对于标准网络,输入输出是固定的
再者,对于上面的X表示方式,可以看出X是很高维的,这样需要的参数会非常多,所以这里RNN和CNN一样,优势在于参数共享
CNN无论输入图片多大,参数是由filter大小决定
RNN无论序列多长,序列中的每一步的参数是一样的
RNN的结构
下图给出一个RNN的示意图,
可以看到,主要有三个参数,Wax,Waa,Wya,用红色标出
可以看到RNN序列中的每一次迭代,参数是一样的,所以这是一层网络,而不是多层,也可以用右边的图表示
输出序列y和中间状态a,用如下公式计算出来
a0初始化成0向量
注意这里的激活函数,一般会用tanh
这里提供一种简写方式,把Waa,Wax合并成Wa
RNN的反向传播
NG没有给出具体的过程,具体的过程参考,https://www.cnblogs.com/pinard/p/6509630.html
这里只给出损失函数的定义,L
对于Wy,by,求导比较直接,dL/dy/dWy
但是读音Wa,ba,就比较麻烦一些,因为对于a
一部分是dy/da
另一部分是da
要把两种加起来,再继续算dWa,dba
RNN的类型
One to one,普通网络
One to many, 用于序列生成场景,比较特殊,每个t的输出y
Many to one,用于类似文本情感分析
Many to many,有两种,如果Tx = Ty,那么就是普通的RNN
如果Tx和Ty不相等,典型的场景是机器翻译,分为encoding和decoding的部分
Language model
什么是language model,是一种概率分布,
任意给一个句子,可以给出这个句子在这种language model里面出现的概率是多大
如何创建语言模型?
传统的方法是基于统计的方法,用n-gram,马尔科夫模型
那么用RNN的方式,如何创建,
然后需要使用One to many的 RNN进行训练,
过程如下,
对于训练集中的一个sample,cats average 15 hours of sleep a day.
a<0>,x<1>都是0向量,输出是y^<1>
由于输出函数是softmax,所以y^<1>的size等同于vocabulary的大小,其中每个值的含义就是开头第一个单词是该词的概率
比如vocabulary中第一个单词是a,那么y^<1>中第一个值就是P(a),如果cats在vocabulary中是第100个词,那第100个值表示P(cats)
x<2>, 是cats,无论算出来y^<1>是啥,训练的时候,要使用y<1>
那这样通过softmax算出来y^<2>, 第一个值的含义是P(a | cats),其中有个值代表P(average | cats)
依次类推,x<3> = average, y^<3>,第一个值的含义是P(a | cats average)
这里损失函数是比较y
用corpus来通过反向传播算法,就可以训练出language model
训练好的language模型可以干啥
首先可以判断,某个句子的出现概率,example,P(sentence) = P(cats) P(average | cats) P(15 | cats average),这些值从y^
然后,还可以序列生成
输出y^<1>时,我们要根据y^<1>中的概率,用np.random.choice选出一个词,这个函数会结合概率分布sampling一个词出来,比如sample出的词是the
那么把the作为x<2>输入
这个序列怎么算结束,当sampling的词是
Character-level language model
之前看到的都是word-level的语言模型,word-level有个问题,就是depend on词典,词典中没有的词就无法表示
所以提出Character-level,对于英文,character就那么几个,所以不存在unknown的情况
Character-level模型的问题,就是序列长度要大一个数量级,计算成本会大很多
RNN梯度消失
RNN和普通网络一样,也有梯度消失或梯度爆炸的问题
梯度爆炸的问题,可以通过clip的方式,简单解决,就是设置梯度上限
梯度消失的问题就比较麻烦,当序列比较长的时候,后面的序列很难影响到前面序列的参数
所以像例子中的cat,cats对后面was,were的对应关系,就很难学习到
在RNN中解决梯度消失的方式,是使用GRU(Gated Recurrent Unit)或LSTM(Long Short Term Memory)来解决
解决梯度消失的思路,一般都是将值直接往后传,如果每层都进行非线性变化,比如sigmod,很容易就会导致梯度消失
GRU
GRU是LSTM的简化版本,之所以先学GRU,是因为简单一些,实际使用时LSTM还是更普遍一些
和普通RNN区别,
引入memory cell,c
这里的c~
区别就是,这里不会直接把c~
G本身也是通过一个神经元得到,它的激活函数是sigmod,所以大部分情况下,G的值都是0或1,这是由sigmod函数的特性决定的
所以这里根据G的值,可能输出c~
这里注意,c,a都是向量,size等于vocabulary的大小
所以gate也是一个相同大小的向量,里面部分值接近0,表示保留上一层的数据,部分值接近1,表示学习这层新的内容
比如,例子中,cat用向量中的一位表示,这一位的gate值一直是0,表示保留cat,直到was
而其他的位的gate值就可能是1,用于学习中间出现的which already ate
LSTM
LSTM相对复杂些,但是理解了GRU,思路类似,
首先,c
再者,gate变多,一共3个,Gupdate(等同于GRU中的gate),Gforget(等同于GRU中的1-gate),增加Goutput
最后,通过Goutput算出a
然后,算gate的时候,也可以考虑c
Bidirectional RNN
普通的RNN只能考虑之前出现的word对当前的影响,即context上下文只能考虑一半,如果要考虑前后上下文的影响,就需要使用bidirectional rnn
Bidirectional,需要把序列正向遍历一遍,这个和普通RNN一样
还需要把序列反向遍历一遍,然后用两遍遍历的a->
Deep RNN
RNN一个序列,只能算是一个layer,为什么?简单的理解,因为只有一组参数
我们也可以把RNN进行stack,RNN一般不会太深,3层已经比较深,因为计算量太大了
如果要加深depth,可以在output上添加一组普通的NN
Word Embedding
在NLP领域,传统使用one-hot的表示方法来表示word
这种表示的问题,
首先维度很高,等于vocabulary的size
再者,各个词之间的是孤立的,没有相关性的,用任意两个词向量做点积,得到的结果都是0
所以看右边的例子,我们就算学习到orange juice,也无法应用到apple上
这里介绍的新的word表示方法,word embedding
这里作为例子,我们用一些可理解的features来表示word,比如gender, royal, age等
这样表示的好处,首先features数会比较少,比如这里的300,远小于vocabulary的size
关键的是,各个words间通过features具有了相关性,Apple和Orange在features上很相似,所以在orange上学习到的knowledge也可以用在apple上
word embedding是可以通过海量的无标注的语料库训练出来,这个是可以重用的,或者transfer learning
使用很简单,先将你的word的one-hot表示通过word embedding模型进行encoding成特征向量,再继续后面的学习
这样的好处,是可以只用很少的训练集来完成NLP应用,因为对于NLP,大量的知识已经包含在word embedding模型中了
word embedding还有一个很有用的特性,
可以用它来比较词与词之间的关系
并且只需要通过简单的词向量间的相减,
比如,回答 Man:Woman等同于 King:?
用这个公式就可以简单求出
那么下面自然的问题就是,如何训练出word embedding?
最早的方法如下,
用语料库来训练language modeling,
即这样的问题,我们以前n个词作为context来预测下一个词是什么?
输入是one-hot向量(10000维),经过Embedding矩阵E,转化成word embedding(300维)
那么这里的E就是我们最终要训练出的word embedding模型
后面再接上一层nn和一层softmax
这样nn中要训练的参数用黄色线框出,优化目标就是后面真正出现的词
例子中就是juice
这个方法生效的原因是,如果要得到相同的输出,自然word embedding输入也要接近
如果我们训练nn的目标是得到语言模型,language modeling,那么一般这里的context都是用前n个词,来预测后一个词
但是如果我们的目标是得到word embedding,实验证明我们可以用一些更简单的context也能达到比较好的效果
比如,前一个word,或 nearby a word
Word2Vec
Word2Vec,顾名思义,就是一种生成 word embedding的算法
context选取,
以任一个词为context,然后以这个词的前后10个词中,随机选择一个词作为target
如下面的例子,看起来很随性,这称为skip-gram
但是这里的采样也不是完全随机和均匀分布的,因为这样很容易导致大部分采样都是常见词,a, of, the;所以还是要采用些启发式的方式去合理选择常见,不常见的word
Word2Vec里面还有另外一种context版本,CBow,用两边的词预测中间的词
模型如下,
可以看到,这个模型确实简单
用E转化成embedding后,只接了一层softmax
这个模型虽然简单,但是最大的问题的是,Softmax的分母要遍历计算整个vocabulary,这个计算量非常的大
有一种优化就是把softmax分层,如何分层可以二分,也可以更高效的按熵值进行分层
Negative sampling
softmax之所以计算复杂度比较高,是因为它是一个多元分类,比如vocabulary里面有100000个word,一次分类就需要同时考虑所有的word
其实softmax等价于多个二元分类,100类的softmax也可以用100个二元分类器
但是如果我们要训练的是分类器本身,那么这样一点用也没有,同时训练100个二元分类器肯定更加低效
但是我们这里是要训练前面的E,
所以我们先把一个多元分类问题转化成一个二元分类问题,
这里的问题转换为,判断orange的context window中是否有另一个词,比如juice
这样从corps中,我们可以得到一个正样本,但是二元分类还需要负样本
这里我们随机从vocabulary中选取word作为负样本,哪怕选中的词恰巧也在context窗口中,也没有关系,比如例子中的of
每产生一个正样本,我们会产生k个负样本,k可以随着数据集的变大而变小,这里选择4
所以这个方法称为negative sampling, 负采样
所以模型就变成如下图,
只是最后一步从一个softmax变成10000个二元分类器,这里并不需要一次训练所有的分类器
一次只需要训练其中k+1个二元分类器,比如例子中一个正样本,4个负样本
因为我们的目的是通过分类器来训练E,而不是训练分类器本身,所以这样是可行的
seq2seq模型
该模型的最典型的场景,就是翻译
如下图,法语翻译成英语,由于输入,输出的个数不一致,所以需要分成两部分,encoding和decoding部分
这个模型也可以用于训练一个序列的embedding,比如把sql query encoding,保证输入输出一致,就可以训练encoding部分
还有一个有意思的场景是看图说话,这个和翻译的差别就是input不一样
input不是一个query,而是一个图片
所以encoding部分不能用RNN,这里用的是CNN,通过CNN生成encoding后,再继续接上用RNN的decoding的部分
和简单的RNN模型相比
Seq2seq模型在概率模型是不一样的
对于语言模型的概率模型就是单纯的,P(y1,y2,y3,y4)
而在机器翻译时,概率模型是,P(y1,y2,y3,y4| x1,x2,x3)
机器翻译的问题在于,
decoding的时候,因为y1,y2,y3是softmax输出,是一个所有word的概率
所以可能有多种可能的输出,如下图,
所以我们需要找出其中最合适的
直观的想法就是贪婪算,每一步都挑概率最大的输出,这个效果一定不会太好,如下面的例子,
第三个词是going的概率是要大于visiting的,但从整体上看,上面的翻译会更加好些
Beam Search
既然greed算法无法找到全局最优
这里提出Beam search来试图找出更优解
beam search的思路很简单,既然每次用最优的考虑的case太少了,那就多考虑些
比如我们设置beam width=3,即每次考虑top3的可能性
第一步,算P(y1 | x),找出p最大的3个,比如,in,jane,september
第二步,基于y1,找到y2
目标是,P(y1,y2|x) = P(y1|x) P(y2|x, y1)
在第一步中找到3个word,第二步对每一个都有10000种可能性,一共300000种可能性,从其中再找出 P(y1,y2|x) top3的组合
比如这里,是In september,jane is,jane was
这样一步步迭代下去,每一步都选最优的3个组合,最终可以找到较优的组合
beam search的优化
beam seach在求P(y1, y2, y3, ...| x)的时候,是连乘,一堆很小的数连乘,很容易就溢出
所以典型的思路,用log转换成连加
然后为了解决sentence长度带来的对P的影响,除上sentence长度进行平均normalization
beam search 误差分析
如下面的例子,如果通过算法得到的结果没有训练集中的好,那我们怎么分析原因
y*是正确的结果
y^是算法得到的结果
做法,比较P(y* | x) 和 P(y^ | x)
P(y* | x) 大,说明RNN 的language model没有问题,beam search算法没有找出最优解,可以增加beam width
P(y^ | x)大,说明RNN 的language model本身有问题,需要从新去训练