Transformer-XL 第2页

论文笔记：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

前言论文链接：https://www.aclweb.org/anthology/P19-1285/github：https://github.com/kimiyoung/transformer-xl目前在

饮冰l·2022-11-17 17:49

Transformer模型详解

2013年----wordEmbedding2017年----Transformer2018年----ELMo、Transformer-decoder、GPT-1、BERT2019年----Transformer-XL

凌逆战·2022-11-10 16:35

语言模型串烧

2017年6月）PositionalEncodingMulti-headselfattentionFullyconnectedfeedforwardELMo（2018年2月）BERT（2018年10月）Transformer-XL

Randool·2022-10-04 07:08

预训练语言模型

BERT系列模型的改进方向、特征表示4个视角，对比预训练语言模型：不同的特征抽取机制RNNs：ELMO/ULMFiT/SiATL；Transformer：GPT1.0/GPT2.0/BERT系列模型；Transformer-XL

weixin_44179676·2022-09-29 07:05

Transformer-XL全解读

MotivationTransformer最大的问题在于没有办法建模超过最大长度的序列，例如basebert其支持的序列最大长度是512，超过了该长度的序列需要进行截取，再把截取后的片段分别用bert进行编码，该方法虽然可行，但是存在上下文碎片化的问题，也就是说每个片段是单独建模的，互相之间没有上下文信息，并且，不同的片段位置编码都是从0开始，明显是有问题的。可见Transformer对于较长的序

爱编程真是太好了·2022-07-31 07:03

Longformer论文解读和代码解析

longformer论文的主要思想、代码实现和结果复现方面的一些工作，相关链接如下：原longformer论文地址github上原作者公开的代码huggingface上原作者编辑的longformer模块原论文解读其时transformer-xl

菜比·2022-06-28 08:32

Transformer-XL详解

maskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmaskmask

Xu_Wave·2022-03-01 07:19

《Transformer-XL_Attentive Language Models Beyond a Fixed-Length Context》论文笔记

本文提出了Transformer-XL模型，这个模型使得文本的依赖能够超越固定文本的长度，并且不会产生时间上的错乱。

XHHP·2021-11-10 14:49

论文笔记 | Transformer-XL：Attentive Language Models Beyond a Fixed-Length Context

作者：韩单位：燕山大学论文地址：https://arxiv.org/pdf/1901.02860.pdf代码地址：https://github.com/kimiyoung/transformer-xl目录一

期待成功·2021-05-01 09:46

Transformer-XL 语言模型

但是Transformer在学习长距离依赖信息的能力仍然有一些限制，Transformer-XL是一种语言模型，可以提高Transformer学习长期依赖信息的能力

NLP与人工智能·2021-04-17 20:58

语言三元组快速转制_[预训练语言模型专题] ENRIE(Tsinghua)：知识图谱与BERT相结合，为语言模型赋能助力...

4:[萌芽时代]、[风起云涌]、[文本分类通用技巧]、[GPT家族]5-8:[BERT来临]、[浅析BERT代码]、[ERNIE合集]、[MT-DNN(KD)]9-12:[Transformer]、[Transformer-XL

范米索·2021-01-07 14:55

杨植麟：28 岁青年科学家，开挂人生的方法论

在此期间先后以一作身份，发表了影响广泛的成果Transformer-XL和XLNet，对自然语言处理带来了极大的影响。在最近由“青源会”组织的

BAAIBeijing·2020-12-23 19:00

BERT，XLNET分词方法bpe，unigram等介绍

BERT,XLNET等分词方法先给一个结论吧，BERT使用的是wordpiece的分词方法，XLNET和transformer-xl使用的是sentencepiece的切分方法。

彭伟_02·2020-12-20 22:15

pytorch resnet50预训练模型_最强NLP预训练模型库PyTorchTransformers正式开源！支持6个预训练框架，27个预训练模型...

该项目支持BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM等，并包含了27个预训练模型。

weixin_39663360·2020-11-27 00:38

深度学习 | (9) Transformer和LSTM对比的设想？

这点在最近Transformer-XL[1]的文章中有体现。可以看的到Transformer是比RNN有明显差距的。

CoreJT·2020-09-13 02:28

Transformer-XL框架

引入Transformer-XL超长上下文的注意力模型，出自CMU和GoogleBrain在2019年1月发表的论文：《Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext

xieyan0811·2020-09-10 21:03

【论文解读】XLNet: Generalized Autoregressive Pretraining for Language Understanding

文章目录引言提出的方法背景目标：排列语言模型结构：基于目标感知的双流注意力融合Transformer-XL多句建模讨论Reference:1.XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding2

十里清风·2020-08-24 02:38

【论文解读】Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

文章目录VanillaTransformerLanguageModelsSegment-LevelRecurrencewithStateReuseRelativePositionalEncodingsReference1.Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext2.Transformer-XL:Unleashi

十里清风·2020-08-24 02:37

BERT及其变种们

Transformer-XL买衣服都知道XL是比large更大一号，所以Transformer-XL也是比Bert更大一号。大在哪呢？

羚谷光·2020-08-24 02:14

transformer-xl

位置编码绝对位置vanillaTransformer中的绝对位置编码，$$\begin{equation}PE(pos,2i)=\sin(pos/10000^{\frac{2i}{d_{model}}})\tag{1}\end{equation}$$$$\begin{equation}PE(pos,2i+1)=\cos(pos/10000^{\frac{2i}{d_{model}}})\tag{2

AGUILLER·2020-08-20 17:27

transformer-xl

位置编码绝对位置vanillaTransformer中的绝对位置编码，$$\begin{equation}PE(pos,2i)=\sin(pos/10000^{\frac{2i}{d_{model}}})\tag{1}\end{equation}$$$$\begin{equation}PE(pos,2i+1)=\cos(pos/10000^{\frac{2i}{d_{model}}})\tag{2

AGUILLER·2020-08-20 17:27

Transformer变体（Star-Transformer，Transformer-XL）

Star-Transformer来自NAACL2019的论文。问题：Transformer的自注意力机制每次都要计算所有词之间的注意力，其计算复杂度为输入长度的平方，结构很重在语言序列中相邻的词往往本身就会有较强的相关性，似乎本来就不需要计算所有词之间解决：Star-Transformer用星型拓扑结构代替了全连通结构如上图左边是Transformer，而右边是Star-Transformer。在

上杉翔二·2020-08-15 07:40

Transformer家族2 -- 编码长度优化（Transformer-XL、Longformer）

系列文章，请多关注Transformer家族1–Transformer详解和源码分析Transformer家族2–编码长度优化（Transformer-XL、Longformer）Transformer

谢杨易·2020-08-15 03:18

Transformer家族4 -- 通用性优化（Universal-Transformer）

系列文章，请多关注Transformer家族1–Transformer详解和源码分析Transformer家族2–编码长度优化（Transformer-XL、Longformer）Transformer

谢杨易·2020-08-15 03:18

Transformer家族3 -- 计算效率优化（Adaptive-Span、Reformer、Lite-Transformer）

系列文章，请多关注Transformer家族1–Transformer详解和源码分析Transformer家族2–编码长度优化（Transformer-XL、Longformer）Transformer

谢杨易·2020-08-15 03:18

Transformer家族5 -- 推理加速（Faster-Transformer、TurboTransformers）

系列文章，请多关注Transformer家族1–Transformer详解和源码分析Transformer家族2–编码长度优化（Transformer-XL、Longformer）Transformer

谢杨易·2020-08-15 03:18

transformer-xl

位置编码绝对位置vanillaTransformer中的绝对位置编码，$$\begin{equation}PE(pos,2i)=\sin(pos/10000^{\frac{2i}{d_{model}}})\tag{1}\end{equation}$$$$\begin{equation}PE(pos,2i+1)=\cos(pos/10000^{\frac{2i}{d_{model}}})\tag{2

AGUILLER·2020-08-01 11:50

transformer详解：transformer/ universal transformer/ transformer-XL

特别鸣谢刘陆琛@Mayouji在本文写作过程中的帮助Attention机制在NLP领域的应用最早可以追朔到2014年，Bengio团队将Attention引入NMT(神经机器翻译)任务[1]。之后更是在深度学习的各个领域得到了广泛应用：如CV中用于捕捉图像上的感受野；NLP中定位关键token/feature.作为某种程度上可以称为当下NLP领域最强的特征抽取器的transformer[2]，同样

彼得.攀·2020-07-15 11:36

transformerXL

DOCTYPEhtml>Transformer-XL解读（论文+PyTorch源码）-Magical_Bubble的博客-CSDN博客{"@context":"https:\/\/ziyuan.baidu.com

w344674·2020-07-15 02:30

sentencepiece原理与实践

1前言前段时间在看到XLNET，Transformer-XL等预训练模式时，看到源代码都用到sentencepiece模型，当时不清楚。

烛之文·2020-07-13 21:58

NLP模型卡-Transformer-XL

二：论文Transformer-XL：AttentiveLanguageModelsBeyondaFixed-Lengt

这个名字有人用？·2020-07-08 21:25

【代码解析】Transformer-XL 之 Relative Positional Encodings

[论文]《Transformer-XL：AttentiveLanguageModelsbeyondaFixed-LengthContext》-CMU&GoogleBrainMotivationTransformer

PROoshio·2020-07-02 12:04

[预训练语言模型专题] XLNet：公平一战！多项任务效果超越BERT

4:[萌芽时代]、[风起云涌]、[文本分类通用技巧]、[GPT家族]5-8:[BERT来临]、[浅析BERT代码]、[ERNIE合集]、[MT-DNN(KD)]9-12:[Transformer]、[Transformer-XL

yang191919·2020-06-30 05:02

预训练模型（2）---- Transformer-XL&GPT2&XLNet

预训练模型（2）1.Transformer-XL句段层级的循环相对位置编码Transformer-XL三大优势Transformer-XL计算过程2.GPT2语言模型GPT-2模型概述输入模型表示方法模型修改部分

小小鸟要高飞·2020-06-28 21:03

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

本篇带来XL-Net和它的基础结构Transformer-XL。

weixin_30908649·2020-06-28 02:37

关于transformer-xl中rel-shift实现的解读

而transformer-xl实现了另一种更好的方法：_rel_shift。def_rel_shift(self,x,zero_triu=False):#x:q,k,bs,n_headzer

ywm-pku·2020-06-26 04:40

XLNet详解

在本文中，我们重点介绍比BERT更强大的预训练模型XLNet，它为了达到真正的双向学习，采用了Permutation语言模型、以及使用了双流自注意力机制，并结合了Transformer-XL的相对位置编码

Xu_Wave·2020-06-25 01:00

18-19基于预训练的语言模型对比

18-19年基于预训练的语言模型对比ref：后BERT时代：15个预训练模型对比分析与关键点探究1.模型对于长距离依赖的处理能力Transformer-XL>Transformer>RNNs>CNNs2

秃然变强了·2020-06-23 23:48

Transformer-XL: 在自注意力模型中处理长距离依赖

论文题目：Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext，下载链接Insight如何赋予编码器捕获长距离依赖的能力通过随机排列自然语言而预测某个位置可能出现的词

菱歌·2020-06-21 03:56

Transformer解读（附pytorch代码）

Transformer早在2017年就出现了，直到BERT问世，Transformer开始在NLP大放光彩，目前比较好的推进就是Transformer-XL（后期附上）。

Cingti·2020-05-08 13:46

Transformers 保存并加载模型 | 八

作者|huggingface编译|VK来源|Github本节说明如何保存和重新加载微调模型(BERT，GPT，GPT-2和Transformer-XL)。

人工智能遇见磐创·2020-04-06 19:52

Transformer-XL框架

引入Transformer-XL超长上下文的注意力模型，出自CMU和GoogleBrain在2019年1月发表的论文：《Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext

xieyan0811·2020-03-27 22:57

2019-06-27 Transformer-XL 笔记

Transformer-XL是为了解决Transformer对于Long-term依赖问题而提出来了，那么Transformer对于Long-termdependency的支持不好吗？

云飞_f2a4·2019-11-30 14:30

Transformer-XL 论文泛读笔记

一、写在前面的话Transformer-XL主要是针对长文本问题提出了两点改进，一是对分段文本进行编码时，加入相连的上一段的编码信息（这一改进其实可以用在其他模型中，并不是Transformer这一结构特有的改进

freedom_king·2019-11-28 07:34

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

本篇带来XL-Net和它的基础结构Transformer-XL。

微笑sun·2019-09-29 16:00

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

原文链接：https://blog.csdn.net/candy134834/article/details/86693757长度可以不一样的语言模型(就是依赖下一层和下一层的前一段)https://arxiv.org/pdf/1901.02860.pdftransformer框架有学习长期依赖的潜能，但是受限于语言模型设置的固定长度。作为一种解决方法，我们提出一种新颖的网络结构Transform

ljz2016·2019-09-25 00:56

XLNET中文文本分类

Xlnet融合了自回归（AR，单向语言模型）、自编码（AE，双向语言模型）等语言模型特征，采用最先进的transformer特征提取器（transformer-xl，利用分割循环机制和相对位置编码进行高并发

大漠帝国·2019-08-29 23:31

transformer和transformer-xl的解读

第一部分：TRANSFORMERTransformer出自于论文AttentionisAllYouNeed，Tensorflow实现的版本可以由Tensor2Tensor下载查看。Pytorch版本见guideannotatingthepaperwithPyTorchimplementation。本篇文章会试着简化概念并且一个一个介绍，以便于初学者理解。总览让我们从将模型视为一个模块开始。在机器翻

ywm-pku·2019-08-28 10:31

[paper]Transformer 相关论文阅读

[paper]Transformer-XL:AttentiveLanguageModels(venv2.7)mi@mi-OptiPlex-7060:~/shenhao/study/transformer-xl

Lord_sh·2019-08-20 20:48

[NLP] 相对位置编码(二) Relative Positional Encodings - Transformer-XL

1.Motivation在Transformer-XL中，由于设计了segments，如果仍采用transformer模型中的绝对位置编码的话，将不能区分处不同segments内同样相对位置的词的先后顺序

listenviolet·2019-07-26 19:00

推荐频道

Transformer-XL

论文笔记：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer模型详解

语言模型串烧

预训练语言模型

Transformer-XL全解读

Longformer论文解读和代码解析

Transformer-XL详解

《Transformer-XL_Attentive Language Models Beyond a Fixed-Length Context》论文笔记

论文笔记 | Transformer-XL：Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL 语言模型

语言三元组快速转制_[预训练语言模型专题] ENRIE(Tsinghua)：知识图谱与BERT相结合，为语言模型赋能助力...

杨植麟：28 岁青年科学家，开挂人生的方法论

BERT，XLNET分词方法bpe，unigram等介绍

pytorch resnet50预训练模型_最强NLP预训练模型库PyTorchTransformers正式开源！支持6个预训练框架，27个预训练模型...

深度学习 | (9) Transformer和LSTM对比的设想？

Transformer-XL框架

【论文解读】XLNet: Generalized Autoregressive Pretraining for Language Understanding

【论文解读】Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

BERT及其变种们

transformer-xl

transformer-xl

Transformer变体（Star-Transformer，Transformer-XL）

Transformer家族2 -- 编码长度优化（Transformer-XL、Longformer）

Transformer家族4 -- 通用性优化（Universal-Transformer）

Transformer家族3 -- 计算效率优化（Adaptive-Span、Reformer、Lite-Transformer）

Transformer家族5 -- 推理加速（Faster-Transformer、TurboTransformers）

transformer-xl

transformer详解：transformer/ universal transformer/ transformer-XL

transformerXL

sentencepiece原理与实践

NLP模型卡-Transformer-XL

【代码解析】Transformer-XL 之 Relative Positional Encodings

[预训练语言模型专题] XLNet：公平一战！多项任务效果超越BERT

预训练模型（2）---- Transformer-XL&GPT2&XLNet

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

关于transformer-xl中rel-shift实现的解读

XLNet详解

18-19基于预训练的语言模型对比

Transformer-XL: 在自注意力模型中处理长距离依赖

Transformer解读（附pytorch代码）

Transformers 保存并加载模型 | 八

Transformer-XL框架

2019-06-27 Transformer-XL 笔记

Transformer-XL 论文泛读笔记

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

XLNET中文文本分类

transformer和transformer-xl的解读

[paper]Transformer 相关论文阅读

[NLP] 相对位置编码(二) Relative Positional Encodings - Transformer-XL