Self-Attention with Relative Position Representations

Hi,这是第四篇算法简介呀!

论文链接:Self-Attention with Relative Position Representations,2018

文章概述

  Vaswani等人提出了只用注意力机制的Transformer,没有显式地建立相对位置或绝对位置信息的模型。这篇文章提出了一种有效地将相对位置表示纳入Transformer的Self-Attention中的方法。
  在Transformer中,Encoder由self-attention和position-wise前馈层组成。Decoder部分增加Mask部分防止训练期间合并关于未来输出位置的信息。在Encoder和Decoder之前,使用基于正弦变化的位置编码。
  在Self-Attention中,将input sentence x x x,通过value矩阵 W V W^V WV和权重 α i j \alpha_{ij} αij,将 x j x_j xj转化为target sentence中的 z j z_j zj
  在这篇文章中,将input建模为一个有标记的、有向的、完全连接的图,考虑元素之间的关系。输入元素 x i x_i xi x j x_j xj之间的边可以用向量 a i j V a^V_{ij} aijV a i j K a^K_{ij} aijK,学习两种边的表示方式是因为分别用于计算 z i z_i zi e i j e_{ij} eij。在考虑相对位置信息时,假设精确的相对位置信息在一定距离之外是没有用的,所以使用最大截断值 k k k进行截断。选取 2 k + 1 2k+1 2k+1范围内的 w K w^K wK w V w^V wV,使用 c l i p ( x , k ) = m a x ( − k , m i n ( k , x ) ) clip(x,k)=max(-k, min(k,x)) clip(x,k)=max(k,min(k,x))进行裁剪,分别得到 α i j K \alpha^K_{ij} αijK α i j V \alpha^V_{ij} αijV。修改 z i z_i zi e i j e_{ij} eij计算公式,考虑 a i j V a^V_{ij} aijV a i j K a^K_{ij} aijK

公式理解

  主要是3.2部分和3.3部分。

网络结构

  参考Transformer。

伪代码分析

  无。

实验结果分析

  

你可能感兴趣的:(Learning),Self-Attention,Transformer,相对位置)