Self attention(自注意力机制)

论文《Attention is all you need》

输入:N维向量

输出:N个lable:class/sclar  (词性判断)

          一个label:   class/sclar(一个句子判断褒贬,听声识人)

         未定数量的lable,数量由机器学习(seq2seq,翻译,语音辨识)

二 输出为N个label

N 是个不确定的值,具体例子为输入一句话,每句话的长短不一样。

Self attention(自注意力机制)_第1张图片

 要考虑整个句子间的联系,window就要尽可能大,过大参数会过多,并且要统计训练样本最长的句子取window,引用自注意力机制

三.self attention           

          

Self attention(自注意力机制)_第2张图片

 输入独立的向量,输出有联系的向量,再丢进fully connect 训练

self attention 与 fully connect交替使用,self attention专注于处理整个seq信息,fully connect处理单个向量。

计算每一个向量之间的联系,相关性用\alpha(attention score)表示

Self attention(自注意力机制)_第3张图片

 \alpha的计算方法:

Self attention(自注意力机制)_第4张图片

 softmax或relu

Self attention(自注意力机制)_第5张图片

 由a得到b的过程,b1.b2...同时得到。

Self attention(自注意力机制)_第6张图片

Self attention(自注意力机制)_第7张图片

 矩阵理论解释self attention

Self attention(自注意力机制)_第8张图片

多头自注意力机制

Self attention(自注意力机制)_第9张图片

添加位置信息(positional encoding)

四.应用

 image

CNN是简单化的self attention

《on the relationship between sele_attention and convolutional layers》


你可能感兴趣的:(p2p,fpga开发,深度学习)