【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq

使用注意力机制的seq2seq

  • 动机
  • Seq2Seq+Attention (Bahdanau注意力模型)
  • 总结
  • 参考
  • 系列文章

在 【动手学深度学习v2】注意力机制—1 注意力评分函数,讲解了注意力评分函数的两种形式,但未阐明何为keys何为values。之后会根据不同的应用任务,去对应合适的keys和values。

动机

机器翻译中,每个生成的词可能相关于源句子中不同的词;但单纯的seq2seq无法做到,解码器仅用了编码器最后时刻的hidden状态;想要在翻译每个词时,注意到与之相关的源句子中的词。举例:“Hello world.”翻译成“你好世界。”,翻译“世界”的时候应该看“world”而不是最后输出的“.”。

Seq2Seq+Attention (Bahdanau注意力模型)

【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq_第1张图片

  • key和value编码器对每个词的输出。(第i个词的RNN的输出,key=value)
  • query解码器中的RNN对上个词的输出。
  • 注意力的输入和下个词的词嵌入合并输入解码器RNN。

总结

  • Seq2Seq通过隐状态在编码器和解码器中传递信息
  • 注意力机制可以根据解码器RNN的输出匹配到合适的编码器RNN的输出,来更有效传递信息

参考

DIVE INTO DEEP LEARNING> 10 注意力机制 > 10.4. Bahdanau 注意力

66 使用注意力机制的seq2seq【动手学深度学习v2】

系列文章

【动手学深度学习v2】注意力机制—1 注意力评分函数
【动手学深度学习v2】注意力机制—2 使用注意力机制Seq2Seq
【动手学深度学习v2】注意力机制—3 自注意力&位置编码
【动手学深度学习v2】注意力机制—4 Transformer

你可能感兴趣的:(DeepLearning,深度学习,神经网络,人工智能)