【Transformer论文:Attention Is All You Need】2.论文精读

一、知识树

【Transformer论文:Attention Is All You Need】2.论文精读_第1张图片

二、算法模型总览

注:这一部分主要介绍在论文改进前的原有模式模型

【Transformer论文:Attention Is All You Need】2.论文精读_第2张图片

【Transformer论文:Attention Is All You Need】2.论文精读_第3张图片

【Transformer论文:Attention Is All You Need】2.论文精读_第4张图片

【Transformer论文:Attention Is All You Need】2.论文精读_第5张图片

【Transformer论文:Attention Is All You Need】2.论文精读_第6张图片

【Transformer论文:Attention Is All You Need】2.论文精读_第7张图片

三、Self Attention

1. Scaled Dot-Product Attention

input

【Transformer论文:Attention Is All You Need】2.论文精读_第8张图片

X1乘以WQ等于q1,X1乘以WK等于k1。

【Transformer论文:Attention Is All You Need】2.论文精读_第9张图片

除以根号dk的目的是为了使得后续通过softmax得到的结果使得梯度很小。

【Transformer论文:Attention Is All You Need】2.论文精读_第10张图片

q1和k1的乘积明显比q1和k2的乘积大,说明Thinking与自身的关系比与Machines的关系要密切。

【Transformer论文:Attention Is All You Need】2.论文精读_第11张图片

2. Multi Head Attention

【Transformer论文:Attention Is All You Need】2.论文精读_第12张图片

以两个head为例,将上面Scaled Dot-Product Attention中的q拆分为q1和q2(WQ拆分为WQ1和WQ2,WQ1*X=q1,WQ2*X=q2)。qi,1必须和ki,1或kj,1相乘最后乘以vi,1或vj,1,qi,2必须和ki,2或kj,2相乘最后乘以vi,2或vj,2。

【Transformer论文:Attention Is All You Need】2.论文精读_第13张图片

将W矩阵切成8个小矩阵,head的数量就是8。Z0-Z7拼接起来与Wo相乘得到Z矩阵。

【Transformer论文:Attention Is All You Need】2.论文精读_第14张图片

encoder的输出都是512维的。

四、Feed-Forward network

【Transformer论文:Attention Is All You Need】2.论文精读_第15张图片

五、Positional Encoding

【Transformer论文:Attention Is All You Need】2.论文精读_第16张图片

六、Mask

1、 Sequence Mask
为了防止decoder 的时候看到 未来的信息
2、 Padding Mask
attention时处理 pad 时为 0 的值原

七、Layer Normalization

【Transformer论文:Attention Is All You Need】2.论文精读_第17张图片

 

 

你可能感兴趣的:(自然语言处理)