Trm变体之Trm-XL《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文笔记

上一篇我讲解了RPR式最经典的相对位置编码,接着这一篇开始讲解transformer-XL了。因为trm-XL是进一步学习XLNet的基础。
学习trm-XL时,建议先看RPR,链接:相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记

先打个预防针,防止学习了 BERT(MLM+NSP式,双向建模) 或是GPT(LM式,单向建模),XLNet(PLMs式)搞混了。注意transformer-XL也是单向的!!!!!警告!!!transformer-XL也属于LM式,即类似RNN那种味道,LM即语言模型,当前状态基于前面状态获得。
transformer-XL重点在于改进transformer编码结构,解决的问题是可以编码更长的文本,减少随着序列长度增加而信息丢失,而优化目标用的就是语言模型的loss:给定前面的词,生成当前词。实验评价的就是语言模型生成的文本质量如何。

这里我保证是全网最全的讲解,有问题评论区指出必回复。

CMU,谷歌大佬的作品。其中大家应该比较熟悉的杨

你可能感兴趣的:(NLP,算法岗面试,transformer,语言模型,论文阅读,深度学习,人工智能)