self-attention为什么要除以根号d_k

self-attention为什么要除以根号d_k_第1张图片

一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;

二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小 

参考:

transformer中的attention为什么scaled? - 知乎

注意力机制在softmax时除以一个根号d的作用_samuelzhoudev的博客-CSDN博客

self-attention为什么要除以根号d_k_tyler的博客-CSDN博客

你可能感兴趣的:(自然语言处理,数据挖掘,推荐系统,深度学习,cnn,人工智能)