原文:
https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
香侬读 | Transformer中warm-up和LayerNorm的重要性探究 - 知乎 (zhihu.com)
上面知乎的这篇文章主要是探究 Layer normalization、warm up和梯度的关系 。
1603.05027.pdf (arxiv.org)
1908.11365.pdf (arxiv.org)
On Layer Normalization in the Transformer Architecture | OpenReview