[论文笔记] Transformer-XL

        这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决 长依赖问题中受到固定长度上下文的限制,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。

        Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由 段级递归机制 一种新的位置编码方案 组成。该方法 不仅能够捕获长期依赖,还解决了上下文碎片的问题

        Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%),在短序列和长序列上都取得了很好的性能,在评估期间比普通transformer快1800多倍。将bpc/perplexity的最新结果在enwiki8上提高到0.99,在text8上提高到了1.08,在wikitext-103上提高到了18.3,在10亿单词上提高到了21.8,在Penn Treebank上提高到54.5。当仅当WikiText-103上进行训练时,Transformer-XL能生成1k+tokens的合理连贯新颖的文章。(,体感:1k+tokens文章生成流畅连贯

你可能感兴趣的:(论文笔记,transformer,深度学习,人工智能)