[NLP论文笔记] Transformer-XL 阅读笔记

就在前两天,Zihang Dai和Zhilin Yang最新提出了NLP利器Transformer的升级版——Transformer-XL(eXtra Long),并在5个数据集上获得了非常好的效果,在速度上更是比Transformer快1800多倍,惊讶之余忍不住让人一探究竟。

paper:Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context
github:https://github.com/kimiyoung/transformer-xl

0. Preface

谷歌在2017年大名鼎鼎的论文 Attention Is All You Need 中提出了Transformer模型,利用self-attention和position embedding克服了RNN中的长距离依赖、无法并行计算的缺点,也解决了CNN中远距离特征捕获难的问题,并在机器翻译领域大有取代RNN的之势。就在几个月前发布的BERT模型也是完全基于Transformer的。

1. Motivation

Transformer模型可以学习到输入文本的长距离依赖关系和全局特性,但在语言建模中受到固定长度上下文的限制。针对此问题,作者提出了Transformer-XL,解决了transformer在不破坏时间一致性情况下学习固定长度以外的依赖性。
Transformer-XL通过segment-level递归机制和一种新型相对位置编码方案来捕捉更长距离的上下文依赖,并解决了上下文碎片(context fragmentation)问题。
检验结果表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。

2. Introduction

未完待续......

你可能感兴趣的:([NLP论文笔记] Transformer-XL 阅读笔记)