【深度学习】Transformer模型详解

前言

  本文为学习记录,其中的内容和图片多有借鉴其他文章的内容,相关博文在参考文献处一并给出链接。

整体架构

Encoder

Decoder

参考文献

[1]Self-Attention和Transformer
[2]详解Transformer (Attention Is All You Need)
[3]强烈推荐!台大李宏毅自注意力机制和Transformer详解!
[4]The Illustrated Transformer
[5]Transformer中Q,K,V的理解
[6]transformer的self_attention中(KQV)中的V为什么也要乘一个Wv矩阵?
[8]transformer中QKV的通俗理解(渣男与备胎的故事)
[9]The Annotated Transformer

你可能感兴趣的:(深度学习,transformer,深度学习,自然语言处理)