Transformer 好文章

原文:  

https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

香侬读 | Transformer中warm-up和LayerNorm的重要性探究 - 知乎 (zhihu.com)

上面知乎的这篇文章主要是探究 Layer normalization、warm up和梯度的关系 。

1603.05027.pdf (arxiv.org)

1908.11365.pdf (arxiv.org)

On Layer Normalization in the Transformer Architecture | OpenReview

你可能感兴趣的:(Transformer,python,transformer)