Transformer-XL 第3页

Attention,Transformer,BERT,XLNet,Transformer-XL

1传统的词向量的缺点传统WordEmbedding的预训练表示是上下文无关的，例如word2vec,glove,fasttext，在训练好词向量之后不能表示多义单词，例如：bankdeposit（银行）VSriverband（岸边）2什么是BERTBERT:BidirectionalEncoderRepresentationsfromTransformers。它是一种预训练语言的表示，上下文相关。

guohui_0907·2019-07-22 15:00

[NLP] 相对位置编码(一) Relative Position Representatitons (RPR) - Transformer

positionalencoding，最初在Attentionisallyouneed的文章中提出的是进行绝对位置编码，之后Shaw在2018年的文章中提出了相对位置编码，就是本篇blog所介绍的算法RPR；2019年的Transformer-XL

listenviolet·2019-07-14 20:00

Transformer-XL：超长上下文依赖

解决的问题Transformer的自注意力机制可以让长距离的单词直接联系，可以很容易地学习到句子之间的长距离依赖。但是在将Transformer应用在语言模型时，核心的问题在于如何将任意长度的context编码成固定长度的上下文变量。普遍的做法是将整个语料库划分成较短的片段，在每个片段上训练模型。但是这么做很有几个问题：最大可能依赖长度不会超过片段的长度语料库按照固定长度而不是按照语义或者句子的分

盐味橙汁·2019-07-07 05:37

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context翻译

原文链接：https://arxiv.org/pdf/1901.02860.pdfgithub:https://github.com/kimiyoung/transformer-xl摘要Transformers

nopSled·2019-07-05 10:51

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

目录前言一、AttentionIsAllYouNeedAttention机制Transformer成绩二、Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContextVanillaTransformer

luv_dusk·2019-07-03 23:50

文献阅读笔记：Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context

0.背景机构：CMU、谷歌大脑作者：ZihangDai、ZhilinYang发布地方：arxiv面向任务：LanguageUnderstanding论文地址：https://arxiv.org/abs/1901.02860论文代码：https://github.com/kimiyoung/transformer-xl0-1摘要Transformer具有学习长程依赖关系的潜力，但是受到语言建模中上下

JasonLiu1919·2019-07-03 17:44

论文笔记 — Transformer-XL [更优秀的长文本编码器]

FromGoogleBrainandCMU.Authors:ZihangDai∗,ZhilinYang∗,YimingYang,JaimeCarbonell,QuocV.Le,RuslanSalakhutdinovTitle:TransformerXL:AttentiveLanguageModelsBeyondaFixed-LengthContext.In:ACL,2019Introduction

IndexFziQ·2019-06-26 11:13

Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet

目录写在前面1.Transformer1.1从哪里来？1.2有什么不同？1.2.1ScaledDot-ProductAttention1.2.2Multi-HeadAttention1.2.3MaskedMulti-HeadAttention2.Transformer-XL2.1XL是指什么？2.2它做了什么？3.小结写在前面前两天我正在微信上刷着消息，猛然间关注的几个学习号刷屏，又一个超强预训练

berryfish·2019-06-24 19:02

XLNet

3.用了最先进的transformer-XL,获得了更牛逼的性能。它比BERT在20个任务上好，还在18个任务上实现了最好的结果。

荒山之夜·2019-06-23 21:52

号称20项任务全面碾压BERT的XLNet横空出世

大家也可以先看一下：论文：https://arxiv.org/pdf/1906.08237.pdfXlNet源码：https://github.com/zihangdai/xlnet由于XLNet是借助transformer-XL

王发北·2019-06-22 10:12

seq3代码

感觉seq3代码是我看到的写得前2好的代码，另外的代码是transformer-xl所有的超参数都是从yaml文件中读取的，训练的时候只用指定配置文件即可，感觉和把超参放入sh文件中的方法差不多好。

VanJordan·2019-06-12 10:41

transformer xl 用于文本生成

本文尝试用transformerxl做中文文本续写，基于论文为：《Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext》https

penkgao·2019-05-30 12:07

Transformer-xl

Transformer-xl原文：https://blog.csdn.net/Magical_Bubble/article/details/89060213循环机制训练阶段，每个隐层接收两个输入该段下层隐藏层的输出

manlier·2019-05-23 11:32

Transformer-XL模型：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

因此，我们提出了一种叫做Transformer-XL的新神经架构来解决

大白菜—NLP·2019-04-15 14:16

Transformer-XL解读（论文 + PyTorch源码）

前言目前在NLP领域中，处理语言建模问题有两种最先进的架构：RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系，而Transformer则接收一整段序列，然后使用self-attention机制来学习它们之间的依赖关系。这两种架构目前来看都取得了令人瞩目的成就，但它们都局限在捕捉长期依赖性上。为了解决这一问题，CMU联合GoogleBrain在2019年1月推出的

MagicBubble·2019-04-07 23:03

[PyTorch]Transformer-xl 构建模型

在train.py函数里面直接写自己编写init_weight函数，tf中直接就有编写更新dropout的函数update_dropout，以及attentionprobabilitydropoutrate，update_dropatt如果是重新加载的模型，那么重新训练的时候要设置相应的dropout，但是感觉在layer上面设置更加的合理啊。作者使用的是args保存模型参数的数量等等信息。arg

VanJordan·2019-03-31 11:58

8个优秀的预训练模型，帮助您开始使用自然语言处理（NLP）

本文涵盖的预训练NLP模型多用途NLP模型ULMFiT有关ULMFiT的更多信息，请参阅：Transformer学习和阅读更多有关Transformer的资源：谷歌的BERT学习和阅读更多有关BERT的资源：谷歌的Transformer-XL

SZ laoluo·2019-03-28 09:52

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

转自：http://www.dataguru.cn/article-14544-1.html近期的NLP方向，ELMO、GPT、BERT、Transformer-XL、GPT-2，各种预训练语言模型层出不穷

芮芮杰·2019-03-22 19:39

Transformer-XL：释放注意力模型的潜力

文/ZhilinYang和QuocLe，GoogleAI团队为了正确理解一篇文章，读者有时需要返回前文，参考在几千字之前出现的一个词或句子。这是一个长程依赖性的示例。长程依赖现象在序列数据中非常常见，我们必须理解其含义，这样才能处理很多现实任务。虽然人们可以很自然地这样做，但使用神经网络对长期依赖关系进行建模仍然是一项挑战。门控循环神经网络(RNN)和梯度裁剪技术可以提升对长期依赖关系进行建模的能

谷歌开发者_·2019-02-19 11:34

Transformer-XL: Unleashing the Potential of Attention Models

原文链接：https://segmentfault.com/a/1190000018141529简介现实远程依赖问题，比如要正确理解文章内容，有时需要阅读多处段落，这对人来说轻松自如。但是，对神经网络来说，远程依赖问题依然是一个挑战。虽然基于门控的RNN（LSTM,GRU等）和梯度裁剪等技术提高了对远程依赖建模的能力，但仍不足以解决问题。其中一个解决方法就是使用Transformers，Trans

weixin_34278190·2019-02-13 04:49

Transformer-XL: Unleashing the Potential of Attention Models

简介现实远程依赖问题，比如要正确理解文章内容，有时需要阅读多处段落，这对人来说轻松自如。但是，对神经网络来说，远程依赖问题依然是一个挑战。虽然基于门控的RNN（LSTM,GRU等）和梯度裁剪等技术提高了对远程依赖建模的能力，但仍不足以解决问题。其中一个解决方法就是使用Transformers，Transformers允许数据单元直接连接，可以更好的捕获远距离的数据关系。但是，在语音模型中，Tran

醇岩·2019-02-13 00:00

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

作为一种解决方法，我们提出一种新颖的网络结构Transformer-XL,它能使Transformer在不打乱输入文本的时间序列（文本顺序）的情况下，学习不止固定长度的长期依赖。具体的，它

candy134834·2019-02-02 14:29

谷歌开源先进语言模型Transformer-XL：集Transformer和RNN之大成

近日，谷歌联合CMU开源了一个名为Transformer-XL的语言模型，它是目前处理语言建模问题最先进的架构之一Transformer模型的第三代升级，不仅能够处理可变长度序列，并且在多个任务中刷新了当前的最好性能

昵称4·2019-01-26 14:00

谷歌开源语言模型Transformer-XL

语言建模是NLP中的一种重要技术，因为它能够应用在各种NLP任务中，如机器翻译和主题分类等。目前，处理语言建模问题有两种最先进的架构——循环神经网络（RNN）和Transformer。前者处理输入表征（单词或字符），逐个学习它们之间的关系；后者接收一段表征，并使用注意机制学习它们之间的依赖关系。虽然这两种架构都取得了令人瞩目的成就，但它们的主要局限在于捕获长期依赖性，例如使用文档开头的重要单词来预

ejinxian·2019-01-26 13:42

CMU和谷歌联手放出XL号Transformer！提速1800倍 | 代码+预训练模型+超参数

近日，CMU和谷歌联手发布一篇论文，介绍了一种新的语言建模方法Transformer-XL。

量子位·2019-01-15 16:49

[NLP论文笔记] Transformer-XL 阅读笔记

就在前两天，ZihangDai和ZhilinYang最新提出了NLP利器Transformer的升级版——Transformer-XL（eXtraLong），并在5个数据集上获得了非常好的效果，在速度上更是比

lzhenboy·2019-01-13 18:03

Transformer-XL

简介Transformer智能学习具有固定长度内容的建模局限性，新网络Transformer-XL（超长）包含片段级递归机制和新颖的位置编码机制，从而捕获长期依赖性。

rosefunR·2019-01-12 19:03

推荐频道

Transformer-XL

Attention,Transformer,BERT,XLNet,Transformer-XL

[NLP] 相对位置编码(一) Relative Position Representatitons (RPR) - Transformer

Transformer-XL：超长上下文依赖

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context翻译

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

文献阅读笔记：Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context

论文笔记 — Transformer-XL [更优秀的长文本编码器]

Transformer 和 Transformer-XL——从基础框架理解BERT与XLNet

XLNet

号称20项任务全面碾压BERT的XLNet横空出世

seq3代码

transformer xl 用于文本生成

Transformer-xl

Transformer-XL模型：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL解读（论文 + PyTorch源码）

[PyTorch]Transformer-xl 构建模型

8个优秀的预训练模型，帮助您开始使用自然语言处理（NLP）

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

Transformer-XL：释放注意力模型的潜力

Transformer-XL: Unleashing the Potential of Attention Models

Transformer-XL: Unleashing the Potential of Attention Models

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

谷歌开源先进语言模型Transformer-XL：集Transformer和RNN之大成

谷歌开源语言模型Transformer-XL

CMU和谷歌联手放出XL号Transformer！提速1800倍 | 代码+预训练模型+超参数

[NLP论文笔记] Transformer-XL 阅读笔记

Transformer-XL