上一篇我讲解了RPR式最经典的相对位置编码,接着这一篇开始讲解transformer-XL了。因为trm-XL是进一步学习XLNet的基础。
学习trm-XL时,建议先看RPR,链接:相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记
先打个预防针,防止学习了 BERT(MLM+NSP式,双向建模) 或是GPT(LM式,单向建模),XLNet(PLMs式)搞混了。注意transformer-XL也是单向的!!!!!警告!!!transformer-XL也属于LM式,即类似RNN那种味道,LM即语言模型,当前状态基于前面状态获得。
transformer-XL重点在于改进transformer编码结构,解决的问题是可以编码更长的文本,减少随着序列长度增加而信息丢失,而优化目标用的就是语言模型的loss:给定前面的词,生成当前词。实验评价的就是语言模型生成的文本质量如何。
这里我保证是全网最全的讲解,有问题评论区指出必回复。
CMU,谷歌大佬的作品。其中大家应该比较熟悉的杨