【深度学习】Attention

seq2seq中的attention机制 

我们在encoder的过程中保留每个RNN单元的隐藏状态(hidden state)得到(h1……hN)
然后对于decoder的每一个timestep,因为有此时decoder的输入和上一步的隐藏状态输出,所以我们可以得到当前步的隐藏状态。假设第t步的(根据上一步隐藏状态输出与当前输入得到的)隐藏状态为St,
在每个第t步利用St和hi进行dot点积得到attention score,也称为“相似度“或者“影响度”,或者“匹配得分”
【深度学习】Attention_第1张图片

利用softmax函数将attention scores转化为概率分布

按照刚才的概率分布,计算encoder的hidden states的加权求和。到这里其实attention的计算就结束了,得到的这个at就已经是decoder的第t时刻的注意力向量了(在后面的文章中,这个at也称作是上下文向量,context vector,符号表示也可能是用ct)。

【深度学习】Attention_第2张图片

最后将注意力向量at,以及decoder的t时刻的hidden state st,并联起来,然后做后续的步骤(比如加个dense全连接层做标签预测之类的。

attention的一个通用定义

按照Stanford大学课件上的描述,attention的通用定义如下:

给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。

attention的重点就是这个集合values中的每个value的“权值”的计算方法。
有时候也把这种attention的机制叫做query的输出关注了(或者说叫考虑到了)原文的不同部分。(Query attends to the values)
举例:刚才seq2seq中,哪个是query,哪个是values?
each decoder hidden state attends to the encoder hidden states (decoder的第t步的hidden state----st是query,encoder的hidden states是values)

从定义来看Attention的感性认识:

The  weighted sum is a selective summary of the information contained in the values, where the query determines which values to focus on.
换句话说,attention机制就是一种根据某些规则或者某些额外信息(query)从向量表达集合(values)中抽取特定的向量进行加权组合(attention)的方法。简单来讲,只要我们从部分向量里面搞了加权求和,那就算用了attention。


Attention其实就是计算一种相关程度

【深度学习】Attention_第3张图片

Attention通常可以进行如下描述,表示为将query(Q)和key-value pairs映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:

1)计算比较Q和K的相似度,用f来表示:

2)将得到的相似度进行softmax归一化:

3)针对计算出来的权重,对所有的values进行加权求和,得到Attention向量:

计算相似度的方法有以下4种:

【深度学习】Attention_第4张图片

soft attention

【深度学习】Attention_第5张图片

 一点小的疑惑补充,a的求解好像softmax的那个公式,难道是c1/(c1+c2+c3)=a11??(错的,待考证)


【深度学习】Attention_第6张图片

参考:

完全解析RNN, Seq2Seq, Attention注意力机制 - 白裳的文章(介绍的已经很详细了,基于seq2seq)

自然语言处理中的Attention机制总结

你可能感兴趣的:(深度学习)