李宏毅老师Transformer课程笔记 [Attention is all your need]
Transformer会议:NIPS2017论文:https://arxiv.org/pdf/1706.03762.pdfinput是x1~x4x_1~x_4x1~x4,经过embending之后得到a1~a4a_1~a_4a1~a4,输入到self-attention中。对于每一个input,都乘上三个不同的权值矩阵,得到三个不同的向量q,k,vq,k,vq,k,v。qqq:query(toma