Attention

在Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c再解码,因此, c中必须包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。Attention机制通过在每个时间输入不同的c来解决这个问题。每个 c 会自动选取与当前需要输出的 y 最合适的上下文信息。具体来说,用衡量 encoder 中第 j 阶段 的和解码时第 i 阶段的相关性,从而 decoder 第 i 阶段的上下文信息 就来自于所有对的加权和。

图中标红表示该权重值较大。

是从模型中学出的,它实际和Decoder的第i-1阶段的隐状态、Encoder第j个阶段的隐状态有关。

你可能感兴趣的:(Attention)