Transformer

1.Transformer

  1. Transformer 是一种新的、基于 attention 机制来实现的特征提取器,可用于代替 CNNRNN 来提取序列的特征。

    Transformer 首次由论文 《Attention Is All You Need》 提出,在该论文中 Transformer 用于 encoder - decoder 架构。事实上 Transformer 可以单独应用于 encoder 或者单独应用于 decoder

  2. Transformer 相比较 LSTM 等循环神经网络模型的优点:

    • 可以直接捕获序列中的长距离依赖关系。

    • 模型并行度高,使得训练时间大幅度降低。

1.1结构

  1. 论文中的 Transformer 架构包含了 encoderdecoder 两部分,其架构如下图所示。

你可能感兴趣的:(深度学习,transformer,深度学习,自然语言处理)