Self-Attention原理、Multi-head Self-Attention原理及Pytorch实现
一、Self-Attention原理下图虚线框内为Self-Attention模块基本功能,输入a1,a2,a3,a4a_1,a_2,a_3,a_4a1,a2,a3,a4,输出b1,b2,b3,b4b_1,b_2,b_3,b_4b1,b2,b3,b4。输入序列与输出序列长度相同,内部实际上做的是加权求和的运算。1、计算a1a_1a1与所有向量(包括自己)的attention-score使用q1q_