Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介
Transformer背景注意力机制已经在编码器解码器模型中广泛应用,极大提升了模型性能。我们为什么不能尝试完全抛开RNN、CNN等传统结构,直接尝试使用注意力机制来捕捉输入和输出之间的依赖呢?结构输入序列是(x1,...,xn)(x_1,...,x_n)(x1,...,xn),编码器将其映射到向量表示(z1,...,zn)(z_1,...,z_n)(z1,...,zn),解码器再根据此中间向量产