【论文翻译】

写给自己看的,保存一下。

gedit写的,后面有时间再改吧。

1.输入Embedding层
        我们采用常规的技术,通过连接单词的单词嵌入和字符嵌入,来获取每个单词的嵌入。词嵌入在训练中是固定的(is fixed),用p1=300维的预训练GloVe词向量来初始化。所有的不在词典中的单词都被映射到一个标记,这个标记的嵌入是随机初始化的并且是可训练的。字符嵌入是这样获得的:每个字符被表示成为一个p2=200维的可训练向量,也就是每个单词可以看作是每个它的字符的嵌入向量的连接。每个单词的长度都增加或者删减到16(truncated or padded to 16)我们选取这个矩阵的每行中的最大值来获得一个固定大小的单词的向量表示。最终,一个给定单词x在这一层的输出是连接[Xw;Xc],其中Xw和Xc是单词X的嵌入和字符嵌入的卷积输出。得力于Seo et
al,我们在这个表示之上也采取了一个两层的高速网络。为了保持简洁性,我们也用"x"来表示这一层的输出。
2.  嵌入编码层
        编码层是如下基本构件的集合:【卷基层 X # +注意力层 +前馈层】,如图1右所示。我们用深度可分离卷积结构而不是传统的结构,因为我们发现它is momory efficient并且有更好的generalization。kernel的大小为7,过滤器数量为d=128而且一个block中的conv layers是4. 对于注意力层,我们采用了nulti-head mechanism(Vaswani et al,2017a),它对query的输入的每一个位置都计算了一个所有位置的权重和,或者对于keys,在基于query和key的相似度的输入上(相似度是两者的点积)。在整个(编码)层中heads的数量是8,这些基本的操作(卷积、注意力、前馈)都被放在了一个残差块里(residu block),如图1右下所示。对于一个输入x和一个操作f,输出是f(layernorm(x))+x,也就是每一块中从输入到输出有一个恒等路径,其中layernorm是指(Ba et al,2016)提出的层归一化(layer-normalization)。编码块的总数量为1。需要注意对每一个单词来说这层的输入是一个p1+p2=500维的向量,这会通过一维卷积被立即mapped到d=128。这一层的输出也是d=128.
3. 文本-问题 注意力层
        这个模型是标准的,几乎在每一个先前的阅读理解模型中都是类似的,如Weissenborn et al(2017)和Chen et al(2017)。我们用C和Q来表示编码后的文本和问题。context-to-query attention是遮掩被搭建的:我们首先计算每一对文本和问题单词的相似度,其后表示成为一个相似度矩阵S nm。然后我们采用softmax函数对S的每一行进行归一化,得到矩阵S'。然后context-toquery attention这样计算:A=S'点乘Qt (nxd)。在这里用的相似度函数是三线性函数(Seo et al,2016): f(q,c)=W0[q,c,q(特殊符号)c] 其中这个特殊符号是数组元素依次相乘,W0是可训练的变量。
大多数好的模型都保持传统地用一些query-to-query的方式,比如BiDaF(Seo et al 2016)和DCN(xiong et al 2016)。从经验上讲,我们发现,DCN attention相比于简单地采用context-to-query可以提供一小点的好处,所以我们采用了这个策略。更具体的来说,我们用softmax函数计算了矩阵S的列归一化矩阵S'',query-to-context attention是B=S'点乘S''t点乘Ct
4. 模型编码层
        与seo et al.(2016)相似,在每一个位置这一层的输入是[c,a,c(特殊符号)a,c(特殊符号)b],其中a和b分别是attention矩阵A和B中的一行。层的参数与嵌入编码层相同,除了每一块的卷积层的个数是2,总的块数是7以外。模型编码层的3个重复模块有相同的权重。
5.输出层
        这一层是功能性的。每一个SQuAD的样例在包含着答案的文本中都用一个span来做标记。我们采取Seo et al(2016)来预测每一个位置是答案span的起始点和终止点的概率。更具体地说,起始点和终止点的概率被建模为: p1=softmax(W1[M0;M1]),  p2=softmax(W2[M0;M2]),   其中W1和W2是两个可训练的变量,M0 M1 M2分别是从下到上3个模型编码器(mode encoders)的输出。一个span的得分是起始点概率和终止点概率的乘积。最终,目标函数被定义为起始点和终止点下标的预测分布的log probabilities的negative sum,在所有训练样例中求均值:(公式太复杂)
其中 yi1和yi2分别是样例i的标定好的真实的起始和终止位置,theta包含了所有的可训练的变量。所推荐的模型可以通过改变输出层来被修改为其他理解工作,比如从候选答案中选择。

推论:在推断阶段,预测的span(s,e)被选择当且仅当ps1pe2是最大化的而且s<=e。标准动态规划可以在线性时间内得到结果。

B=SSTCT

你可能感兴趣的:(论文阅读)