⭐关于论文的详解:请移步至:《Attention Is All You Need》论文笔记 - 【transformer模型】
⭐源码详解:Transformer理论源码细节详解
废话不多说,直接上问题:
1、简单介绍一下transformer?
答:trm提出于NIPS-2017,其最先应用于机器翻译领域,其没有采用循环递归结构和卷积结构。其主要利用了self-attention机制来学习上下文语义信息。trm主要包含encoder和decoder结构。
- 在encoder端,首先是将输入通过了embedding层,然后和位置编码的结果进行相加得到嵌入向量。然后将这个嵌入向量经过3个线性变换(可通过全连接层实现)得到Q、K、V这3个矩阵。然后Q和K矩阵点积、除dk的平方根(即缩放),再softmax得到一个注意力得分矩阵。最后乘上V矩阵即为self-attention层的结果。然后multi-head attention层的输出就是综合了多个self-attention层的结果进行concat传入全连接得到。然后经过残差和LN。然后再经过两层的全连