Attention机制

目录

第一步:Q和K相似度计算

点乘 dot product​

权重 General

 拼接权重 Concat​

感知器 Perceptron ​

第二步:归一化

第三步:加权求和计算


Attention机制本质上是对相关性的计算,Attention通常表示,将query(Q)和key-value pairs  映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:

第一步:Q和K相似度计算

Q和K的相似度计算比较,用一种映射f来表示如下:

   通常相似度的计算方法包括以下四种:

  • 点乘 dot product

  • 权重 General

 

 

  •  拼接权重 Concat

 

  • 感知器 Perceptron 

 

第二步:归一化

将得到的相似度进行Softmax操作,进行归一化

Attention机制_第1张图片

 

第三步:加权求和计算

 针对计算出来的权重  ,对V中所有的values进行加权求和计算,得到Attention向量 

 

 

你可能感兴趣的:(深度学习,深度学习)