为什么在进行softmax之前需要对attention进行scaled(为什么除以 d_k的平方根)
解释的好:Self-attention中dot-product操作为什么要被缩放-知乎标准正太分布(0均值,1方差的高斯分布)解释1:解释2:这样做是因为对于较大的深度值,点积的大小会增大,从而推动softmax函数往仅有很小的梯度的方向靠拢(分布集中在绝对值大的区域),导致了一种很硬的(hard)softmax。例如,假设Q和K的均值为0,方差为1。它们的矩阵乘积将有均值为0,方差为d_k(d_