Transformer注意力机制模型介绍

文章目录

    • 前言
    • 高层次的自我关注(Self-Attention at a High Level)
    • 编码器(Encoder)
    • 多头注意力机制(The Beast With Many Heads)
    • 残差神经网络
    • 解码器(Decoder)
    • 线性(Linear)层和softmax层
    • 位置编码
    • 总结
    • 参考文献

前言

Transformer是一个利用注意力机制来提高模型训练速度的模型。关于注意力机制可以参看这篇文章,trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和

你可能感兴趣的:(深度学习,transformer,深度学习,self-attention,多头注意力机制,位置编码)