Transformer网络理解

详解Transformer (Attention Is All You Need) - 知乎

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.

The Illustrated Transformer【译】_yujianmin1990的专栏-CSDN博客

 1.目前看到的最清晰的解释

Self-Attention和Transformer - machine-learning-noteshttps://luweikxy.gitbook.io/machine-learning-notes/self-attention-and-transformer

2.havard nlp 对transform的解释:

The Annotated Transformerhttps://nlp.seas.harvard.edu/2018/04/03/attention.html

The Annotated Transformer  对应译文 搞懂Transformer结构,看这篇PyTorch实现就够了 - 知乎

3.位置编码的理解

The Annotated Transformer正在上传…重新上传取消https://nlp.seas.harvard.edu/2018/04/03/attention.htmlTransformer网络理解_第1张图片

 Transformer网络理解_第2张图片

总结下来:

(1)一个单词经过embedding后有d维特征,每两个维度上会施加一对相同频率的正弦和余弦波,随着维度的增加频率不断降低,但是所有维度上的正余弦波的position相同,因为是同一个单词。对于不同单词相同维度上的特征会施加相同频率的正弦或余弦波,区别在于不同单词的position不同。

(2)正余弦波也可以用mlp编码来替代,mlp更容易理解一些:对不同的单词用同一个mlp函数把位置编码出d维特征。

(3)对应其它应用领域,比如笛卡尔坐标系下位置(x, y)的编码,如果采用三角函数,可以在i = 2k和i=2k+1时分别输入x的正弦波和y的余弦波。或者直接用mlp。

4.轴向attention——transformer 的变种

Axial Attention 和 Criss-Cross Attention及其代码实现 | 码农家园https://www.codenong.com/cs106760382/

《论文阅读》AXIAL ATTENTION IN MULTIDIMENSIONAL TRANSFORMERS_未知丶的博客-CSDN博客

你可能感兴趣的:(深度学习基础,transformer,位置编码)