Transformer——《Attention is all you need》

本文是Google 机器翻译团队在2017 年发表,提出了一个新的简单的网络模型——Transformer。该模型基于纯注意力机制(Attention mechanisms),完全抛弃了RNN和CNN网络结构,在机器翻译任务上取得了很好的效果。

目录

1 引言

2 背景

3 模型架构

3.1编码器和解码器的堆栈

编码器:

解码器:

3.2 注意力

3.2.1 Scaled Dot-Product Attention

3.2.2 Multi-Head Attention

3.2.3 Applications of Attention in our Model

3.3 Position-wise Feed-Forward Networks

3.4 Embeddings and Softmax

3.5 Positional Encoding

4 Why Self-Attention

你可能感兴趣的:(deep,learning,ML,transformer,深度学习,人工智能)