u013250861

NLP-预训练模型-2019-NLU：XLNet【在Transformer-XL的基础上：①“排列组合LM”取代Bert中的“掩码LM”解决其弊端；②使用“双流注意力机制”解决位置信息】

预训练模型(Pretrained model)：一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型.

在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料，同时语言模型又是许多典型NLP任务的基础，如机器翻译，文本生成，阅读理解等，常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.

一、XLNet概述

“干翻芝麻街”

2018 年，谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT，刷新了 11 项 NLP 任务的最优性能记录，为 NLP 领域带来了极大的惊喜。很快，BERT 就在圈内普及开来，也陆续出现了很多与它相关的新工作。

BERT 带来的震撼还未平息，来自卡耐基梅隆大学与谷歌大脑的研究者又提出新型预训练语言模型 XLNet，在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

作者表示，BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息，性能优于基于自回归语言模型的预训练方法。然而，由于需要 mask 一部分输入，BERT 忽略了被 mask 位置之间的依赖关系，因此出现预训练和微调效果的差异（pretrain-finetune discrepancy）

基于这些优缺点，该研究提出了一种泛化的自回归预训练模型 XLNet。XLNet 可以：

通过最大化所有可能的因式分解顺序的对数似然，学习双向语境信息；
用自回归本身的特点克服 BERT 的缺点。
此外，XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路

最终，XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果（state-of-the-art），包括机器问答、自然语言推断、情感分析和文档排序。

以前超越 BERT 的模型很多都在它的基础上做一些修改，本质上模型架构和任务都没有太大变化。但是在这篇新论文中，作者从自回归（autoregressive）和自编码（autoencoding）两大范式分析了当前的预训练语言模型，并发现它们虽然各自都有优势，但也都有难以解决的困难。为此，研究者提出 XLNet，并希望结合大阵营的优秀属性。

二、背景知识：降噪自动编码器（Denoising AutoEncoder)

随着一些奇怪的高维数据出现，比如图像、语音，传统的统计学-机器学习方法遇到了前所未有的挑战。

数据维度过高，数据单调,噪声分布广，传统方法的“数值游戏”很难奏效。数据挖掘？已然挖不出有用的东西。

为了解决高维度的问题，出现的线性学习的PCA降维方法，PCA的数学理论确实无懈可击，但是却只对线性数据效果比较好。

于是，寻求简单的、自动的、智能的特征提取方法仍然是机器学习的研究重点。比如LeCun在1998年CNN总结性论文中就概括了今后机器学习模型的基本架构。

当然CNN另辟蹊径，利用卷积、降采样两大手段从信号数据的特点上很好的提取出了特征。对于一般非信号数据，该怎么办呢？？

1、自动编码器（AutoEncoder）

自动编码器基于这样一个事实：原始input（设为x）经过加权（W、b)、映射（Sigmoid）之后得到y，再对y反向加权映射回来成为z。

通过反复迭代训练两组（W、b），使得误差函数最小，即尽可能保证z近似于x，即完美重构了x。

那么可以说正向第一组权（W、b）是成功的，很好的学习了input中的关键特征，不然也不会重构得如此完美。结构图如下：

从生物的大脑角度考虑，可以这么理解，学习和重构就好像编码和解码一样。

这个过程很有趣，首先，它没有使用数据标签来计算误差update参数，所以是无监督学习。

其次，利用类似神经网络的双隐层的方式，简单粗暴地提取了样本的特征。

这个双隐层是有争议的，最初的编码器确实使用了两组（W，b），但是Vincent在2010年的论文中做了研究，发现只要单组W就可以了。

即 $W'=W^T$ , $W$ 和 $W ’$ 称为Tied Weights。实验证明， $W^{'}$ 真的只是在打酱油，完全没有必要去做训练。

逆向重构矩阵让人想起了逆矩阵，若 $W^{-1}=W^T$ 的话， $W$ 就是个正交矩阵了，即 $W$ 是可以训成近似正交阵的。

由于 $W^{'}$ 就是个酱油，训练完之后就没它事了。正向传播用 $W$ 即可，相当于为input预先编个码，再导入到下一layer去。所以叫自动编码器，而不叫自动编码解码器。

2、降噪自动编码器（Denoising Autoencoder）

Vincent在2008年的论文中提出了AutoEncoder的改良版——dA。论文的标题叫 “Extracting and Composing Robust Features”，译成中文就是"提取、编码出具有鲁棒性的特征"。

怎么才能使特征很鲁棒呢？就是以一定概率分布（通常使用二项分布）去擦除原始input矩阵，即每个值都随机置0, 这样看起来部分数据的部分特征是丢失了。以这丢失的数据 $x^{'}$ 去计算 $y$ ，计算 $z$ ，并将 $z$ 与原始 $x$ 做误差迭代，这样，网络就学习了这个破损（原文叫Corruputed）的数据。

这个破损的数据是很有用的，原因有二：

其之一，通过与非破损数据训练的对比，破损数据训练出来的Weight噪声比较小。降噪因此得名。原因不难理解，因为擦除的时候不小心把输入噪声给×掉了。
其之二，破损数据一定程度上减轻了训练数据与测试数据的代沟。由于数据的部分被×掉了，因而这破损数据一定程度上比较接近测试数据。（训练、测试肯定有同有异，当然我们要求同舍异）。

这样训练出来的Weight的鲁棒性就提高了。图示如下：

关键是，这样胡乱擦除原始input真的很科学？真的没问题？ Vincent又从大脑认知角度给了解释：

paper中这么说到：人类具有认知被阻挡的破损图像能力，此源于我们高等的联想记忆感受机能。

我们能以多种形式去记忆（比如图像、声音，甚至如上图的词根记忆法），所以即便是数据破损丢失，我们也能回想起来。

另外，就是从特征提取的流形学习(Manifold Learning)角度看：

破损的数据相当于一个简化的PCA，把特征做一个简单的降维预提取。

Denoising Auto-encoder与人的感知机理类似，比如人眼看物体时，如果物体某一小部分被遮住了，人依然能够将其识别出来。
人在接收到多模态信息时（比如声音，图像等），少了其中某些模态的信息有时也不会造成太大影响。

Autoencoder的本质是学习一个相等函数，即网络的输入和重构后的输出相等，这种相等函数的表示有个缺点就是当测试样本和训练样本不符合同一分布，即相差较大时，效果不好，而Denoising Autoencoder在这方面的处理有所进步。

三、AR（Auto-Regressive自回归）模型 v.s. AE（Auto-Encoding自编码）模型

1、AR（Auto-Regressive自回归）【语言模型】

在 ELMO／BERT 出来之前，大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行（就是根据下文预测前面的单词）。这种类型的 LM 被称为自回归语言模型。

GPT 就是典型的自回归语言模型。
ELMO 尽管看上去利用了上文，也利用了下文，但是本质上仍然是自回归 LM，这个跟模型具体怎么实现有关系。ELMO 是分别做了两个方向的自回归 LM（从左到右以及从右到左两个方向的语言模型），然后把 LSTM 的两个方向的隐状态拼接到一起，来体现双向语言模型这个事情的。所以ELMO 其本质上仍然是自回归语言模型

AR即 Auto-Regressive自回归，也就是论文题目中的自回归。

AutoRegressive（自回归）是时间序列分析或者信号处理领域喜欢用的一个术语，我们这里理解成语言模型就好了：一个句子的生成过程如下：首先根据概率分布生成第一个词，然后根据第一个词生成第二个词，然后根据前两个词生成第三个词，……，直到生成整个句子。
AR语言模型旨在寻找一个最大条件概率，形如： $p(\textbf{x})=\prod^T_{t=1}p(x_t|\textbf{x}_{p(x)=∏t=1Tp(xt∣x<t)$
容易发现，在语言生成类的任务中AR模型有天然的优势，但只使用上下文中单侧的信息来预测新的字符，这肯定会丢失很多信息，而很多下游的语言理解任务经常需要上下文两侧的信息。
虽然也有研究者提出结合上下文两侧的信息（像ELMO模型），但大量研究实验证明，简单的浅结合两侧信息对模型性能提升很有限。

给定文本序列 $\mathbf{x}=[x_1,…,x_T]$ ，语言模型的目标是调整参数使得训练数据上的似然函数最大：

$\underset{\theta}{max}\; log p_\theta(\mathbf{x})=\sum_{t=1}^T log p_\theta(x_t \vert \mathbf{x}_{θmaxlogpθ(x)=t=1∑Tlogpθ(xt∣x<t)=t=1∑Tlog∑x′exp(hθ(x1:t−1)Te(x′))exp(hθ(x1:t−1)Te(xt)) 等式(1)$

记号 $\mathbf{x}_{x<t$
$h_\theta(\mathbf{x}_{1:t-1})$ 是RNN或者Transformer（注：Transformer也可以用于语言模型，比如GPT）编码的 $t$ 时刻之前的隐状态。
$e (x)$ 是词 $x$ 的 Embedding。

自回归语言模型的缺点是无法同时利用上下文的信息，貌似 ELMO 这种双向都做，然后拼接看上去能够解决这个问题，但其实融合方法过于简单，所以效果其实并不是太好。它的优点跟下游 NLP 任务有关，比如生成类 NLP 任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的，自回归语言模型天然匹配这个过程。

而 Bert 这种 DAE（Denoise AutoEncoder）模式，在生成类 NLP 任务中，面临训练过程和应用过程不一致的问题，导致生成类的 NLP 任务到目前为止都做不太好

2、AE【（Denoising ）AutoEncoder】降噪自编码

AE即（Denoising ）AutoEncoder降噪自编码，以BERT模型为代表的自编码模型。

自编码器是一种无监督学习输入的特征的方法：我们用一个神经网络把输入(输入通常还会增加一些噪声)变成一个低维的特征，这就是编码部分，然后再用一个Decoder尝试把特征恢复成原始的信号。
和AR模型不同，AE模型不是根据条件概率来预测字符的，而是通过恢复被噪声污染的数据来训练的，其中的佼佼者BERT；
我们可以把BERT看成一种AutoEncoder，它通过Mask改变了部分Token，然后试图通过其上下文的其它Token来恢复这些被Mask的Token。Bert巧妙使用特殊字符 $[M A S K]$ 将要预测的字符遮盖，以期在预训练阶段可以看到目标字符两侧上下文的信息，大大提高了预训练模型的实战能力。但是，BERT模型也不是完美的，因为在 Per-training 阶段加入了 $[M A S K]$ ，而 Fine-tune 阶段却没有，所以两个阶段有断层，同时还假设了被MASK掉的字符是独立的。

BERT是去噪(denoising)自编码的方法。对于序列 $\mathbf{x}$ ，BERT会随机挑选15%的Token变成[MASK]得到带噪声版本的 $\hat{\mathbf{x}}$ 。假设被Mask的原始值为 $\bar{\mathbf{x}}$ ，那么BERT希望尽量根据上下文恢复(猜测)出原始值了，也就是：

$\underset{\theta}{max}\;log p_\theta(\bar{\mathbf{x}} | \hat{\mathbf{x}}) \approx \sum_{t=1}^Tm_t log p_\theta(x_t | \hat{\mathbf{x}})=\sum_{t=1}^T m_t log \frac{exp(H_\theta(\mathbf{x})_{t}^T e(x_t))}{\sum_{x'}exp(H_\theta(\mathbf{x})_{t}^T e(x'))} \text{ 等式(2)}$

$m_t=1$ 表示t时刻是一个Mask，需要恢复。
$H_\theta$ 是一个Transformer，它把长度为 $T$ 的序列 $\mathbf{x}$ 映射为隐状态的序列 $H_\theta(\mathbf{x})=[H_\theta(\mathbf{x})_1, H_\theta(\mathbf{x})_2, ..., H_\theta(\mathbf{x})_T]$ 。

注意：前面的AR语言模型的RNN在 $t$ 时刻只能看到之前的时刻，因此记号是 $h_\theta(\mathbf{x}_{1:t-1})$ ；而BERT的Transformer(不同与用于语言模型的Transformer)可以同时看到整个句子的所有Token，因此记号是 $H_\theta(\mathbf{x})$ 。

如上式中的 $\approx$ 符号所强调，BERT（AE）对联合条件概率进行分解是基于一个独立假设，即假定所有掩码token均被独立重建，待预测的掩码token之间在给定未掩盖的token的上下文中没有依赖关系，这样的假设太过简单，因为高阶、长程依赖在自然语言中普遍存在。

这种 AE【（Denoising ）AutoEncoder】降噪自编码的优缺点正好和 AR（Auto-Regressive自回归）【语言模型】反过来，它能比较自然地融入双向语言模型，同时看到被预测单词的上文和下文，这是好处。缺点是啥呢？主要在输入侧引入 [Mask] 标记，导致预训练阶段和 Fine-tuning 阶段不一致的问题，因为 Fine-tuning 阶段是看不到 [Mask] 标记的

3、AR/AE两个模型的优缺点

独立假设

注意等式(2)的约等号 $\approx$ ，它的意思是假设在给定 $\hat{\mathbf{x}}$ 的条件下被Mask的词是独立的(没有关系的)，这个显然并不成立，比如”New York is a city”，假设我们Mask住”New”和”York”两个词，那么给定”is a city”的条件下”New”和”York”并不独立，因为”New York”是一个实体，看到”New”则后面出现”York”的概率要比看到”Old”后面出现”York”概率要大得多。而公式(1)没有这样的独立性假设，它是严格的等号。

输入噪声

BERT的在预训练时会出现特殊的[MASK]，但是它在下游的fine-tuning中不会出现，这就是出现了不匹配。而语言模型不会有这个问题。

双向上下文

AR语言模型只能参考一个方向的上下文，而AE（BERT）可以参考双向整个句子的上下文，因此这一点BERT更好一些。

鉴于这些优点和缺点，XLNet作者就想结合AR和AE语言模型各自的优点同时摒弃缺点，因此就有了屠榜的XLNet。

XLNet 的出发点就是：能否融合自回归 LM 和 DAE LM 两者的优点。具体来说就是，站在 AR 的角度，如何引入和双向语言模型等价的效果

三、XLNet结构

1、排列(Permutation)语言模型

1.1 排列思想

根据上面的讨论，语言模型和BERT各有优缺点，有什么办法能构建一个模型使得同时有它们的优点并且没有它们缺点呢？

借鉴NADE(不了解的读者可以忽略，这是一种生成模型)的思路，只要在 AR 以及 AE 方式中再加入一个步骤，就能够完美地将两者统一起来，那就是 Permutation，XLNet使用了排列语言模型，它同时有AR、AE两个模型的优点。

具体实现方式是，通过随机取一句话排列的一种，然后将末尾一定量的词给 “遮掩”（和 BERT 里的直接替换 “[MASK]” 有些不同）掉，最后用 AR 的方式来按照这种排列方式依此预测被 “遮掩” 掉的词

这里我稍微解释下，为什么是 “遮掩” 末尾的一些词，以及随机打乱句子的顺序有什么用？

输入句子正常的顺序是 “1 2 3 4 5 6 7”，常规的自回归 LM 无法同时考虑上下文信息。
如果能够同时考虑上下文信息，那 “3” 这个词，需要有 “1 2 4 5 6 7” 这些信息，换句话说，在预测 “3” 之前，我们需要保证模型已经看过 “1 2 4 5 6 7”（无所谓顺序）。
而打乱句子的顺序之后（比方说上图的例子），3 这个词就来到了句子的末尾，此时按照自回归 LM 预测 “3” 的时候，模型已经看过了 “1 2 4 5 6 7”，由此便考虑到了 “3” 的上下文信息。
当然，句子到底怎么打乱是无所谓的（接下来有分析），因为我们的目标不是具体要预测哪个词，而是谁在最后，就预测谁。

这里再谈一个有意思的点，到底该挑选最后几个做遮掩呢？作者这里设了一个超参数 K，K 等于总长度除以需要预测的个数。拿上面的例子，总长为 7 而需要预测为 2，于是 K = 7/2。而论文中实验得出的最佳 K 值介于 6 和 7 （更好）之间，其实如果我们取 K 的倒数（即 $\frac{1}{6},\frac{1}{7}$ ），然后转为百分比，就会发现最佳的比值介于 14.3% 到 16.7% 之间，还记得 BERT 论文的同学肯定就会开始觉得眼熟了。因为 BERT 里将 Token 遮掩成 “[MASK]” 的百分比就是 15%，正好介于它们之间，我想这并不只是偶然，肯定有更深层的联系。

1.2 排列方式

给定长度为T的序列 $\mathbf{x}$ ，总共有 $T!$ 种排列方法，也就对应 $T!$ 种链式分解方法。

举个例子，假设 $\mathbf{x}=x_1x_2x_3$ ，则 $T = 3$ ，那么总共用 $3! = 6$ 种分解方法：

$p(\mathbf{x})=p(x_1)p(x_2|x_1)p(x_3|x_1x_2) \Rightarrow 1 \rightarrow 2 \rightarrow 3 \\ p(\mathbf{x})=p(x_1)p(x_2|x_1x_3)p(x_3|x_1) \Rightarrow 1 \rightarrow 3 \rightarrow 2 \\ p(\mathbf{x})=p(x_1|x_2)p(x_2)p(x_3|x_1x_2) \Rightarrow 2 \rightarrow 1 \rightarrow 3 \\ p(\mathbf{x})=p(x_1|x_2x_3)p(x_2)p(x_3|x_2) \Rightarrow 2 \rightarrow 3 \rightarrow 1 \\ p(\mathbf{x})=)p(x_1|x_2x_3)p(x_2|x_3p(x_3) \Rightarrow 3 \rightarrow 2 \rightarrow 1 \\ p(\mathbf{x})=p(x_1|x_3)p(x_2|x_1x_3)p(x_3) \Rightarrow 3 \rightarrow 1 \rightarrow 2$

注意： $p(x_2 \vert x_1x_3)$ 指的是第一个词是 $x_1$ 并且第三个词是 $x_3$ 的条件下第二个词是 $x_2$ 的概率，也就是说原来词的顺序是保持的。如果理解为第一个词是 $x_1$ 并且第二个词是 $x_3$ 的条件下第三个词是 $x_2$ ，那么就理解错了。

如果我们的语言模型遍历 $T!$ 种分解方法，并且这个模型的参数是共享的，那么这个模型应该就能(必须)学习到各种上下文。

普通的从左到右或者从右往左的语言模型只能学习一种方向的依赖关系，比如先”猜”一个词，然后根据第一个词”猜”第二个词，根据前两个词”猜”第三个词，……。
排列语言模型会学习各种顺序的猜测方法，比如上面的最后一个式子对应的顺序 $\rightarrow 1 \rightarrow 2$ ，它是先”猜”第三个词，然后根据第三个词猜测第一个词，最后根据第一个和第三个词猜测第二个词。

对于一个长度为 $T$ 的句子，我们可以遍历 $T!$ 种路径，然后学习语言模型的参数，但是这个计算量非常大(10!=3628800,10个词的句子就有这么多种组合)。因此实际我们只能随机的采样 $T!$ 里的部分排列。

为了用数学语言描述，我们引入几个记号：

$\mathcal{Z}_T$ 表示长度为 $T$ 的序列的所有排列组成的集合，则 $\in \mathcal{Z}_T$ 是一种排列方法；
$z_t$ 表示排列的第 $t$ 个元素，而 $z_{z<t$

举个例子，假设 $T = 3$ ，那么 $\mathcal{Z}_T$ 共有 $3! = 6$ 个元素，我们假设其中之一 $z = [1, 3, 2]$ ，则 $z_3=2$ ，而 $z_{<3}=[1,3]$ 。

有了上面的记号，则排列语言模型的目标是调整模型参数使得下面的似然概率最大：

$\underset{\theta}{max} \mathbb{E}_{z \sim \mathcal{Z}_T}[\sum_{t=1}^Tlog p_\theta(x_{z_t}|\mathbf{x}_{z_{θmaxEz∼ZT[t=1∑Tlogpθ(xzt∣xz<t)]$

上面的公式看起来有点复杂，细读起来其实很简单：从所有的排列中采样一种，然后根据这个排列来分解联合概率成条件概率的乘积，然后加起来。

注意：上面的模型只会遍历概率的分解顺序，并不会改变原始词的顺序。

1.3 通过Attention Mask 实现排列

论文中 Permutation 具体的实现方式不是打乱输入句子的顺序，而是通过对 Transformer 的 Attention Mask 进行操作，实现不同的分解方法。

比如说序号依次为 1234 的句子，先随机取一种排列 3241。根据这个排列我们就做出类似上图的 Attention Mask，先看第 1 行，因为在新的排列方式中 1 在最后一个，根据从左到右 AR 方式，1 就能看到 234 全部，于是第一行的 234 位置是红色的（没有遮盖掉，会用到），以此类推，第 2 行，因为 2 在新排列是第二个，只能看到 3 于是 3 位置是红色，第 3 行，因为 3 在第一个，看不到其他位置，所以全部遮盖掉…

比如 $p(x_1 \vert x_3)p(x_2 \vert x_1x_3)p(x_3)$ ，我们可以在用Transformer编码 $x_1$ 时候让它可以Attend to $x_3$ ，而把 $x_2$ Mask掉；编码 $x_3$ 的时候把 $x_1,x_2$ 都Mask掉。

下图为排列语言模型在预测 $x_3$ 时不同排列的情况：

比如图的左上，对应的分解方式是 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ ，因此预测 $x_3$ 是不能attend to任何其它词，只能根据之前的隐状态 $m e m$ 来预测。而对于左下， $x_3$ 可以attend to其它3个词。

2、Two-Stream Self-Attention for Target-Aware Representations

2.1 没有目标(target)位置信息的问题

上面排列(Permutation)语言模型的思想很简单，但是如果我们使用标准的Transformer来实现时会有问题。我们来看一个例子。

假设输入的句子是 “I like New York”，并且一种排列为 $z = [1, 3, 4, 2]$ ，假设我们需要预测 $z_3=4$ ，那么根据公式：

$p_\theta(X_{z_3}=x|x_{z_1z_2})=p_\theta(X_4=x|x_1x_3)=\frac{exp(e(x)^Th_\theta(x_1x_3))}{\sum_{x'}exp(e(x')^Th_\theta(x_1x_3))}$

我们通常用大写的 $X$ 表示随机变量，比如 $X_4$ ，
而小写的 $x$ 表示某一个具体取值，比如 $x$ ，
我们假设 $x$ 是”York”，则 $p_\theta(X_4=x)$ 表示第4个词是York的概率。
用自然语言描述：上面的概率是第一个词是 I，第3个词是 New 的条件下第4个词是York 的概率。

另外我们再假设一种排列为 $z ’ = [1, 3, 2, 4]$ ，我们需要预测 $z_3=2$ ，那么：

$p_\theta(X_{z_3}=x|x_{z_1z_2})=p_\theta(X_2=x|x_1x_3)=\frac{exp(e(x)^Th_\theta(x_1x_3))}{\sum_{x'}exp(e(x')^Th_\theta(x_1x_3))}$

则上面是表示是第一个词是I，第3个词是New的条件下第2个词是York的概率。

我们仔细对比一下公式会发现这两个概率是相等的。

但是根据经验，显然这两个概率是不同的，而且上面的那个概率大一些，因为York跟在New之后是一个城市，而”York New”是什么呢？

上面的问题的关键是模型并不知道要预测的那个词在原始序列中的位置。

了解Transformer的读者可能会问：输入的位置编码在哪里呢？位置编码的信息不能起作用吗？

注意：位置编码是和输入的Embedding加到一起作为输入的，因此 $p_\theta(X_4=x \vert x_1x_3)$ 里的 $x_1$ 和 $x_3$ 是带了位置信息的，模型(可能)知道(根据输入的向量猜测)I是第一个词，而New是第三个词，但是第四个词的向量显然这个是还不知道(知道了还要就不用预测了)，因此就不可能知道它要预测的词到底是哪个位置的词，因此我们必须”显式”的告诉模型我要预测哪个位置的词。

为了后面的描述，我们再把上面的两个公式写出更加一般的形式。给定排列 $z$ ，我们需要计算 $p_\theta(X_{z_t} \vert \mathbf{x}_{z_{pθ(Xzt∣xz<t=x)$

$p_\theta(X_{z_t}=x \vert \mathbf{x}_{z_{pθ(Xzt=x∣xz<t)=∑x′exp(e(x′)Thθ(xz<t))exp(e(x)Thθ(xz<t))$

根据前面的讨论，我们知道问题的关键是模型并不知道要预测的到底是哪个位置的词，为了解决这个问题，我们把预测的位置 $z_t$ 放到模型里：

$p_\theta(X_{z_t}=x \vert \mathbf{x}_{z_{pθ(Xzt=x∣xz<t)=∑x′exp(e(x′)Tgθ(xz<t,zt))exp(e(x)Tgθ(xz<t,zt))$

上式中 $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$

2.2 Two-Stream Self-Attention

接下来的问题是用什么模型来表示 $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$

为了预测 $\mathbf{x}_{z_t}$ ， $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$
为了预测 $z_t$ 之后的词， $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$

但是上面两点要求对于普通的Transformer来说是矛盾的无法满足的。因为上面是理解为什么要搞出两个Stream的关键，所以我这里再啰嗦一点举一个例子。

假设输入的句子还是”I like New York”，并且一种排列为 $z = [1, 3, 4, 2]$ ，假设 $t = 2$ ，我们现在是在计算 $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$

为了解决这个问题，论文引入了两个Stream，也就是两个隐状态：

内容隐状态 $h_\theta(\mathbf{x}_{z_{hθ(xz<t)$
查询隐状态 $g_\theta(\mathbf{x}_{z_{gθ(xz<t,zt)$

下面我们介绍一下计算过程。我们首先把查询隐状态 $g_i^{(0)}$ 初始化为一个变量w，把内容隐状态 $h_i^{(0)}$ 初始化为词的Embedding $e(x_i)$ 。这里的上标0表示第0层(不存在的层，用于计算第一层)。因为内容隐状态可以编码当前词，因此初始化为词的Embedding是比较合适的。

接着从m=1一直到第M层，我们逐层计算：

$\begin{aligned} g_{z_t}^{(m)} & \leftarrow Attention(Q=g_{z_t}^{(m-1)},KV=h_{\color{red} {z_{gzt(m)hzt(m)←Attention(Q=gzt(m−1),KV=hz<t(m−1);θ) Query流，可以使用zt但不能用其内容xzt←Attention(Q=hzt(m−1),KV=hz≤t(m−1);θ) Content流，同时使用zt和xzt$

上面两个流分别使用自己的Query向量 $g_{z_t}$ 和 $h_{z_t}$ ；但是Key和Value向量都是用的 $h$ ，因为 $h$ 是内容。但是注意Query流不能访问 $z_t$ 的内容，因此KV是 $h_{z_{hz<t(m−1)$

上面的梯度更新和标准的self-attention是一样的。在fine-tuning的时候，我们可以丢弃掉Query流而只用Content流。最后在计算公式的时候我们可以用最上面一层的Query向量 $g_{z_t}^{(M)}$ 。

下面我们通过下图来直观的了解Two Stream排列模型的计算过程：

图的左上是Content流Attention的计算，假设排列为 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ ，并且我们现在预测第1个位置的词的概率。根据排列，我们可以参考所有4个词的信息，因此 $KV=[h_1^{(0)},h_2^{(0)},h_3^{(0)},h_4^{(0)}]$ ，而 $Q=h_1^{(0)}$ 。

左下是Query流的计算，因为不能参考自己的内容，因此 $KV=[h_2^{(0)},h_3^{(0)},h_4^{(0)}]$ ，而 $Q=g_1^{(0)}$ 。

而图的右边是完整的计算过程，我们从下往上看，首先 $h$ 和 $g$ 分别被初始化为 $e(x_i)$ 和 $W$ ，然后Content Mask和Query Mask计算第一层的输出 $h^{(1)}$ 和 $g^{(1)}$ ，然后计算第二层……。注意最右边的Content Mask和Query Mask，我们先看Content Mask。它的第一行全是红点，表示第一个词可以attend to所有的词(根据 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ )，第二个词可以attend to它自己和第三个词，……。而Query Mask和Content Mask的区别就是不能attend to自己，因此对角线都是白点。

2.3 部分预测

虽然排列语言模型有很多有点，但是它的计算量很大(排列很多)，很难优化。因此我们只预测一个句子后面的一些词，为什么不预测前面的词呢？因为前面的词的上下文比较少，上下文信息相对较少。比如句子”I like New York”。预测I的时候没有任何上下文，因此可能的选择很多。而到最后一个词York的时候，如果New已经知道了，那么York的概率就非常大了。

因此我们把一个排列 $z$ 分成两个子序列 $z_{\le c}$ 和 $z_{>c}$ ，分别叫做non-target序列和target序列，其中c是切分点。我们会使用一个超参数K，表示 $1/ K$ 的Token会被预测，因此根据公式：

$\frac{|z|-c}{|z|}=\frac{1}{K}$

可以计算出 $\approx \frac{\vert z \vert -c}{\vert z \vert}$ ，约等于的原因是因为K是整数。前面c个不用预测的Token，我们不需要计算其Query流，从而可以节省计算时间。

2.4 小节

到此为止，XLNet的核心思想已经比较清楚了。主要使用LM，但是为了解决上下文的问题，引入了Permutation LM。Permutation LM在预测时需要target的位置信息，因此通过引入Two-Stream，Content流编码到当前时刻的内容，而Query流只参考之前的历史以及当前要预测位置。最后为了解决计算量过大的问题，对于一个句子，我们只预测后 $\frac{1}{K}$ 个词。

接下来XLNet借鉴了Transformer-XL的优点，它对于很长的上下文的处理是要优于传统的Transformer的。我们这里只是简单的介绍Transformer-XL，有兴趣的读者可以参考Transformer-XL论文。

3、融入Transformer-XL的优点

3.1 普通Transformer处理长文本序列方式

尽管 Transformer 最初是为翻译任务而构建的，但最近的趋势表明，它在语言建模上的应用也可以带来显著的效果。但是，为了获得最佳应用，需要对其架构进行一些修改。

为什么？Transformer 有什么问题？

与 RNN 相比，Transformer 的一项重大改进是其捕获长期依赖关系的能力。但是，Transformer 需要存储的中间步骤（梯度）信息比 RNN 要多的多，并且随着序列长度的增加而指数级增加【 $O(n^2·d$ )】。换句话说，如果你试图一次输入整个文档，内存可能会爆炸（BOOM！）

为了防止出现此问题，早期有些做法是将文档分成固定大小的文本段（Segment），一次训练一段。这虽然解决了内存问题，但是破坏了模型捕获长期依赖关系的能力。例如句子 “The daughter had a nice umbrella | that her mother gave her”，如果 “daughter” 和 “her” 属于不同段。那么在编码 “her 时将无法知晓"daughter” 的信息。

我们知道GPT就是使用Transformer来进行语言模型的建模。因为Transformer要求输入是定长的词序列(不像RNN可以处理长度不确定的输入序列)，太长的截断，不足的padding，这样我们把一个语料库的字符串序列切分成固定长度的segments。它有下面一些问题：

由于定长的要求，我们不可能让输入太长。因此虽然Self-Attention机制虽然不太受长度的约束，但是Transformer的语言模型实际能够考虑的上下文就是输入的长度。
因为我们在序列语言模型的时候通常很难准确的分句(或者有时候一个句子比最大长度还长)，所以一个Segment很可能不是一个完整的句子(甚至它是从某个句子的中间部分开始的)，这样前面的几个词就很难预测(给人一个没头没脑的句子也很难预测)，因为语言模型是自回归的，一步错步步错。这就是所谓的context fragmentation的问题。
预测的性能问题，假设我们要使用Transformer语言模型来计算一个句子的概率(而不是用于下游的任务)，那么我们首先要计算 $P(x_1)$ ，然后计算 $P(x_2 \vert x_1)$ ，……，一直计算到 $P(x_T \vert x_1, …, x_{T-1})$ 。每个时刻都需要用Transformer计算一次，而不能像RNN那样之前的把历史都编码到一个context向量里。

上图做是普通的Transformer语言模型的训练过程。假设Segment的长度为4，如图中我标示的：根据红色的路径，虽然 $x_8$ 的最上层是受 $x_1$ 影响的，但是由于固定的segment，x_8无法利用 $x_1$ 的信息。而预测的时候的上下文也是固定的4，比如预测 $x_6$ 时我们需要根据 $x_2,x_3,x_4,x_5]$ 来计算，接着把预测的结果作为下一个时刻的输入。接着预测 $x_7$ 的时候需要根据 $x_3,x_4,x_5,x_6]$ 完全进行重新的计算。之前的计算结果一点也用不上。

如何解决这个问题呢？下面就轮到 Transformer-XL 出场了。

3.2 Transformer-XL思想简介

首先Transformer-XL是一个语言模型，也就是改进Transformer来根据历史的词预测下一个词。它不同于BERT的Mask语言模型问题，也不同于XLNet使用的排列语言模型。

而Transformer-XL如下图所示：

我们会把之前一个固定长度的词序列每一层的输出都放到一个cache里，比如把 $x_1,…,x_4$ 的计算结果都存起来，那么在训练第二个Segment $x_5,…,x_8]$ 的时候就可以让Self-Attention机制参考 $x_1,…,x_4]$ 的信息了。当然在反向计算梯度的时候，cache里的内容是不会参与梯度的计算的。而在预测的时候，比如右图我们在计算 $x_{12}$ 作为输入的时候，之前那些 $x_{11},x_{10},…]$ 都不需要重新计算。而普通的的Transformer是需要的，为什么呢？我们仔细看一下上图，在t=12的时候， $x_{11}$ 可以attend to $x_{11},…,x_{9}]$ (而 $x_8$ 被截掉了)，而在t=11的时候可以attend to $x_{11},…,x_{8}]$ ，因此这两个计算结果是不同的，需要重新计算。

3.3 Segment基本的状态重用【Segment Recurrence Mechanism（段循环机制）】

根据之前的思路，我们用cache缓存部分历史的状态。虽然计算梯度的时候只使用本segment的信息，但是在forward的时候其实是用到了之前的segment(甚至很久以前的segment，只有cache的空间足够大)的信息，因此它又有点类似于RNN。下面我们形式化的用数学语言来描述状态重用的过程。假设两个相邻的segment为 $s_\tau=[x_{\tau,1}, x_{\tau,2}, …, x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1}, x_{\tau+1,2}, …, x_{\tau+1,L}]$ 。假设segment $s_\tau$ 的第n层的隐状态序列为 $h_\tau^n \in R^{L \times d}$ ，那么计算segment $s_{\tau+1}$ 的隐状态的过程如下：

$\begin{aligned} & \tilde{h}_{\tau+1}^{n-1}=[SG(h_{\tau}^{n-1}) \circ h_{\tau+1}^{n-1}] \\ & q_{\tau+1}^n, k_{\tau+1}^n, v_{\tau+1}^n=h_{\tau+1}^{n-1}W_q^T, \tilde{h}_{\tau+1}^{n-1}W_k^T, \tilde{h}_{\tau+1}^{n-1}W_v^T \\ & h_{tau+1}^n=\text{Transformer-Layer}(q_{\tau+1}^n, k_{\tau+1}^n, v_{\tau+1}^n) \end{aligned}$

$SG(h_{\tau}^{n-1})$ 函数代表 $h_{\tau}^{n-1}$ 不参与梯度的计算。
$[h_{u} \circ h_{v}]$ 表示向量拼接，
$W_q^T,W_k^T.W_v^T$ 是模型参数

我们看到，

计算Query的时候只是用本segment的信息 $h_{\tau+1}^{n-1}$ ，
而计算Key和Value的时候用的是 $\tilde{h}_{\tau+1}^{n-1}$ 。

原则上只要 GPU 内存允许，该方法可以利用前面更多段的信息，测试阶段也可以获得更长的依赖（类似于 DenseNet）。

3.4 Transformer-XL的相对位置编码

在Transformer中，一个重要的地方在于其考虑了序列的位置信息。在分段的情况下，如果仅仅对于每个段仍直接使用Transformer中的位置编码，即每个不同段在同一个位置上的表示使用相同的位置编码，就会出现问题。比如，第 $i - 2$ 段和第 $i - 1$ 段的第一个位置将具有相同的位置编码，但它们对于第 $i$ 段的建模重要性显然并不相同（例如第 $i - 2$ 段中的第一个位置重要性可能要低一些）。

Transformer-XL不能像BERT那样使用绝对位置编码，下面我们来分析一些为什么不行。

和前面一样，假设两个相邻的segment为 $s_\tau=[x_{\tau,1}, x_{\tau,2}, …, x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1}, x_{\tau+1,2}, …, x_{\tau+1,L}]$ 。假设segment $s_\tau$ 的第n层的隐状态序列为 $h_\tau^n \in R^{L \times d}$ ，那么计算公式如下：

$\begin{aligned} h_{\tau+1} & =f(h_\tau,E_{s_{\tau+1}} + U_{1:L}) \\ h_{\tau} & =f(h_{\tau-1},E_{s_{\tau}} + U_{1:L}) \end{aligned}$

上式中 $E_{s_{\tau}}$ 是segment的每一个词的Embedding的序列。我们发现 $E_{s_{\tau}}$ 和 $E_{s_{\tau+1}}$ 都是加了 $U_{1:L}$ ，因此模型无法通过向量判断它到底是当前segment的第i个位置还是前一个Segment的第i个位置。注：不熟悉位置编码的读者需要参考Transformer图解。它的基本思想就是给每一个绝对位置一个Embedding，因此模型可以通过这个Embedding猜测它在编码哪个位置的信息，也可以学到某个位置用什么向量来表示更好。

因此Transformer-XL必须使用相对位置编码，它使用了和原始的Transformer使用正弦函数不同的方法。原始的Transformer是把位置信息embedding进去直接加到输入里，而Transformer-XL是在Attention计算的时候利用当前Query和Key的相对位置。

相对位置编码不再关心句中词的绝对位置信息，而是相对的，比如说两个词之间隔了多少个词这样的相对信息。

在标准的Transformer里，同一个Segment的 $q_i$ 和 $k_j$ 的attention score这样分解

$\begin{aligned} A_{i,j}^{abs} & = (W_q(E_{x_i}+U_i))^T ·(W_k(E_{x_j}+U_j)) \\ & = (E_{x_i}+U_i)^TW_q^TW_k(E_{x_j}+U_j) \\ & = E_{x_i}^TW_q^TW_k(E_{x_j}+U_j) + U_i^TW_q^TW_k(E_{x_j}+U_j)\\ & = \underbrace{E^T_{x_i}W_q^TW_kE_{x_j}}_{(a)}+\underbrace{E^T_{x_i}W_q^TW_kU_j}_{(b)} \\ & + \underbrace{U_i^TW_q^TW_kE_{x_j}}_{(c)}+\underbrace{U_i^TW_q^TW_kU_j}_{(d)} \end{aligned}$

其中， $E_{x_i}$ 是词 $i$ 的词向量， $U_i$ 是词 $i$ 的位置向量。

(a)(b)（c）(d)四项各有各的意义：(a)表示纯基于内容之间的寻址；(b)和（c）则分别是 $i$ 位置的内容和位置信息分别相对于 $j$ 位置的位置和内容信息进行的寻址；(d)则是纯基于位置之间的寻址。于是要改进的话，就需要对后三个和位置信息相关的项进行改进

Transformer-XL给出的改进方案是这样：

Transformer-XL 给出的改进方案是这样：

$\begin{aligned} A_{i,j}^{rel} & = \underbrace{E^T_{x_i}W_q^TW_{k,E}E_{x_j}}_{(a)}+\underbrace{E^T_{x_i}W_q^TW_{k,R}\color{blue}{R_{i-j}}}_{(b)} \\ & + \underbrace{{\color{red}{u^T}}W_{k,E}E_{x_j}}_{(c)} + \underbrace{{\color{red}{v^T}}W_{k,R}\color{blue}{R_{i-j}}}_{(d)} \end{aligned}$

和前面的 $A_{i,j}^{abs}$ 相比，第一个改动是将(b)和(d)里的绝对位置编码 $U_j$ 都替换成相对位置编码向量 $R_{i-j}$ 。注意这里的 $R$ 是之前介绍的正弦函数的编码方式，它是固定的，不需要学习
在（c）中用可训练的 ${\color{red}{u}} \in R^d$ 替代原来的 $U_i^TW_q^T$ 。因为我们假设Attention score只依赖于 $i$ 和 $j$ 的相对位置，而与 $i$ 的绝对位置无关，所以这里对于所有的 $i$ 都相同。也就是 $U^TW_q^T$ ，所以可以用一个新的 $\color{red}u$ 来表示。同理，(d)中的 ${\color{red}{v}}\in R^d$ 也一样
最后，我们把Key的变换矩阵 $W_k$ 拆分成 $W_{k,E}$ 和 $W_{k,R}$ ，分别给内容向量和相对位置向量用

在上面的新公式里，每一项的意义都非常清晰：(a)表示内容的计算，也就是 $x_i$ 的Embedding乘以变换矩阵 $W_q$ 和 $x_j$ 的Embedding乘以 $W_{k,E}$ 的内积；(b)表示基于内容的位置偏置，也就是 $i$ 的向量乘以相对位置编码；（c）表示全局的内容偏置；(d)表示全局的位置偏置。

3.5 在XLNet里融入Transformer-XL的思想

首先XLNet借鉴了Transoformer-XL的相对位置编码的思想，这个和它基本一样，因此这里不再介绍。另外一点就是cache前一个segment的隐状态。我们假设有两个从原始序列 $\mathbf{s}$ 里抽取的两个连续Segment， $\tilde{x}=s_{1:T}$ 和 $x=s_{T+1:2T}$ 。同时假设 $\tilde{z}$ 和 $z$ 分别是[1,…,T]和[T+1,…,2T]的一个排列。然后根据排列 $\tilde{z}$ 的概率分解我们首先计算第一个segment，并且把Content流的隐状态 $\tilde{h}^{(m)}$ cache下来，这里 $\tilde{h}^{(m)}$ 是第m层的Content流的隐状态。那么计算第二个Segment的Content流的方法如下：

$h_{z_t}^{(m)} \leftarrow \text{Attention} (Q=h_{z_t}^{(m-1)},KV=[\tilde{h}^{(m-1)},h_{z \le t}^{(m-1)}];\theta)$

上式用自然语言描述就是：为了计算 $z_t$ 第m层的隐状态，我们使用Attention机制，其中Query是上一次的隐状态 $h_{z_t}^{(m-1)}$ ，而Key和Value除了 $z_1,…,z_t$ 第m-1层的隐状态，也需要attend to cached上一个segment的所有第 $m - 1$ 层的隐状态。

在计算第二个segment时，我们只需要知道隐状态 $\tilde{h}^{(m)}$ 就可以了，而并不需要知道它是通过哪个排列 $\tilde{z}$ 计算出来的。这样我们在cache前一个segment时不用考虑它的排列。

4、建模多个segment

许多下游的任务会有多余一个输入序列，比如问答的输入是问题和包含答案的段落。下面我们讨论怎么在自回归框架下怎么预训练两个segment。和BERT一样，我们选择两个句子，它们有50%的概率是连续的句子(前后语义相关)，有50%的概率是不连续(无关)的句子。我们把这两个句子拼接后当成一个句子来学习排列语言模型。输入和BERT是类似的：[A, SEP, B, SEP, CLS]，这里SEP和CLS是特殊的两个Token，而A和B代表两个Segment。而BERT稍微不同，这里把CLS放到了最后。原因是因为对于BERT来说，Self-Attention唯一能够感知位置是因为我们把位置信息编码到输入向量了，Self-Attention的计算本身不考虑位置信息。而前面我们讨论过，为了减少计算量，这里的排列语言模型通常只预测最后1/K个Token。我们希望CLS编码所有两个Segment的语义，因此希望它是被预测的对象，因此放到最后肯定是会被预测的。

但是和BERT不同，我们并没有增加一个预测下一个句子的Task，原因是通过实验分析这个Task加进去后并不是总有帮助。【注：其实很多做法都是某些作者的经验，后面很多作者一看某个模型好，那么所有的Follow，其实也不见得就一定好。有的时候可能只是对某个数据集有效果，或者效果好是其它因素带来的，一篇文章修改了5个因素，其实可能只是某一两个因素是真正带来提高的地方，其它3个因素可能并不有用甚至还是有少量副作用。】

4.1 相对Segment编码【Relative Segment Encoding】

由于很多下游NLP任务中都包含了多个句子的情况，比如问答任务。下面我们讨论怎么在自回归框架下怎么预训练两个segment。和BERT一样，我们选择两个句子，它们有50%的概率是连续的句子（前后语义相关），有50%的概率是不连续（无关)的句子。我们把这两个句子拼接后当成一个句子来学习Permutation LM。输入和BERT是类似的：[A, SEP, B, SEP, CLS]，这里SEP和CLS是特殊的两个Token，而A和B代表两个Segment。与BERT稍微不同，这里把CLS放到了最后。原因是因为对于BERT来说，Self-Attention能够感知位置是因为我们把位置信息编码到输入向量了，Self-Attention的计算本身不考虑位置信息。而前面我们讨论过，为了减少计算量，这里的排列语言模型通常只预测最后1/K个Token。我们希望CLS编码所有两个Segment的语义，因此希望它是被预测的对象，而放到最后肯定是会被预测的

但是和BERT不同，XLNet并没有增加一个预测下一个句子的Task，原因是通过实验分析这个Task加进去后并不是总有帮助。【注：其实很多做法都是某些作者的经验，后面很多作者一看某个模型好，那么所有的Follow，其实也不见得就一定好。有的时候可能只是对某个数据集有效果，或者效果好是其它因素带来的，一篇文章修改了5个因素，其实可能只是某一两个因素是真正带来提高的地方，其它3个因素可能并不有用甚至还是有少量副作用】

BERT使用的是绝对的Segment编码，也就是第一个句子对于的Segment id是0，而第二个句子是1。这样如果把两个句子换一下顺序，那么输出是不一样的。XLNet使用的是相对的Segment编码，它是在计算Attention的时候判断两个词是否属于同一个Segment，如果位置 $i$ 和 $j$ 的词属于同一个segment，那么使用一个可以学习的Embedding $s_{ij}=s_+$ ，否则 $s_{ij}=s_-$ ，也就是说，我们只关心它们是属于同一个Segment还是属于不同的Segment。当我们从位置 $i$ attend to $j$ 的时候，我们会这样计算一个新的attention score：

$a_{ij}=(q_i+b)^Ts_{ij}$

其中 $q_i$ 是第 $i$ 个位置的Query向量，b是一个可学习的bias。最后我们会把这个attention score加到原来计算的Attention score里，这样它就能学到当 $i$ 和 $j$ 都属于某个segment的特征，以及 $i$ 和 $j$ 属于不同segment的特征。

四、XLNet与BERT的对比

XLNet和BERT都是预测一个句子的部分词，但是背后的原因是不同的。BERT使用的是Mask语言模型，因此只能预测部分词(总不能把所有词都Mask了然后预测?)。而XLNet预测部分词是出于性能考虑，而BERT是随机的选择一些词来预测。

除此之外，它们最大的区别其实就是BERT是约等号，也就是条件独立的假设——那些被MASK的词在给定非MASK的词的条件下是独立的。但是我们前面分析过，这个假设并不(总是)成立。下面我们通过一个例子来说明(其实前面已经说过了，理解的读者跳过本节即可)。

假设输入是[New, York, is, a, city]，并且假设恰巧XLNet和BERT都选择使用[is, a, city]来预测New和York。同时我们假设XLNet的排列顺序为[is, a, city, New, York]。那么它们优化的目标函数分别为：

$\begin{aligned} \mathcal{J}_{\text{BERT}} & = log p(\text{New} | \text{is a city}) + log p(\text{York} | \text{is a city}) \\ \mathcal{J}_{\text{XLNet}} & = log p(\text{New} | \text{is a city}) + log p(\text{York} | \color{red}{\text{New}}, \text{is a city}) \end{aligned}$

从上面可以发现，XLNet可以在预测York的使用利用New的信息，因此它能学到”New York”经常出现在一起而且它们出现在一起的语义和单独出现是完全不同的。

关于训练值得一说的是，和 BERT 一样也是同时构建正例（正确的连续句子）和负例（随机下一句的例子），之后分别对每段进行 Permutation 处理，然后预测，对于正例，后一段会用前一段的信息，而对于负例就不用。

关于训练 loss，XLNet 只用了 PLM 的 loss，却没有像 BERT 一样用 Next Sentence Prediction （下句预测）loss，但是它在句子级别任务表现却不差，对于这个现象感觉非常神奇，按理说应该是会有帮助的。

五、XLNet与语言模型的对比

和语言模型相比，XLNet最大的优势就是通过输入序列的各种排列，同时学习到上下文的信息。

XLNet 整体看起来非常恶心，不如 Transformer 那么简单直白，并且给我一种拆东墙补西墙的感觉（引入了 Permutation，所以没有位置信息了，由此又引入了双流注意力）。XLNet 在 Transformer XL 的基础上引入了随机排列和双流注意力机制，因此使得整个模型变得非常复杂

XLNet 训练总共使用了 126GB 纯文本数据，而 BERT 训练只使用了 13GB 的数据。所以虽说最终成绩 XLNet 超过了 BERT，但究竟是因为数据的帮助，还是模型真的很好呢？

六、XLNet实验

XLNet预训练数据：

BookCorpus数据集：大型文本语料，适用于句子encoder/decoder 的无监督训练，量级13G。
Gigaword 数据集：摘要生成数据集，量级16G。
ClueWeb 2012-B数据集：新闻数据集，带标注。
Common Crawl：爬虫数据集。

1、Pretraining和实现

和BERT一样，XLNet使用了BooksCorpus和英文的维基百科作为训练数据，这两者总共13GB的文本。此外，XLNet还增加了Giga5(16GB)、ClueWeb 2012-B和Common Crawl的数据来进行Pretraining。对于ClueWeb 2012-B和Common Crawl的内容使用了启发式的规则进行了预处理，最终各自保留了19GB和78GB的文本。使用SentencePiece工具后分别得到2.78B, 1.09B, 4.75B, 4.30B和19.97B Token(subword unit)，总计32.89B。

最大的模型XLNet-Large采样了和BERT-large一样的超参数，从而得到类似大小的模型。序列长度和cache分别设置为512和384。训练XLNet-Large是在512核心(不是512个)的TPU v3芯片上进行，使用Adam优化器迭代了500K次。使用了线性的Learning rate decay，batch大小是2048，最终训练了2.5天。我们发现模型仍然是欠拟合(underfitting)的，如果继续训练的话在训练数据上的loss还能下降。但是对于下游的任务并没有太大帮助。因此我们判断是因为数据太大了，默认没有能力完全拟合数据。为了与BERT对比，我们也训练了XLNet-Base模型，它只使用了BooksCorpus和维基百科的数据。

因为引入了递归(recurrence)的机制，我们使用双向的输入pipeline，也就是把一个batch的一半样本正常顺序输入而另一半反向输入。对于XLNet-Large，我们设置K为6，也就是预测1/6的Token。Fine-tuning过程基本是follow BERT。此外我们采样了span-based预测，也就是我们首先采样一个长度L， $\in [1, …, 5]$ ，也就是最少一个Token(1-gram)，最多连续5个Token(5-gram)。然后使用长度为KL的上下文来预测这个n-gram。后面的代码分析我们会看到这一点。

2、XLNet与Bert的对比

3、RACE数据集

RACE数据集，它包含大概100K个问题。它是中国12岁到18岁的学生在初中和高中的英语阅读理解问题。下图是其中一个样例，我们在中学经常做的阅读理解题。

下图是实验结果，我们可以看到XLNet比最好的BERT模型要提升很多。

4、SQuAD数据集

SQuAD是一个大规模的阅读理解任务的数据集。和前面的选择题不同，SQuAD可以看成问答题，也就是需要从阅读的文章找答案。如下图所示：

SQuAD1.1假设答案是原文的一个连续的一个或者多个词，并且答案是一定存在的。而SQuAD2.0可能会问没有答案的问题。因此为了fine-tuning SQuAD2.0，我们使用了Multi-Task Learning：其中一个损失函数是一个二分类的logistic regression损失函数，它判断有没有答案；而另一个就是标标准的span抽取的损失函数(感兴趣的读者可以参考BERT的论文)。因为v1.1的问题是包含在v2.0里的，因此在打榜的时候我们直接使用v2.0的模型去做v1.1的题目，只是把判断有没有答案的部分去掉(因为v1.1肯定有答案)。另外因为很多参赛者会使用额外的数据，我们也增加了NewsQA的数据作为训练数据。如下表所示，我们的单一的模型(很多好成绩都是好的模型的Ensembling)取得了SOTA的成绩。

5、文本分类

我们在IMDB,Yelp-2,Yelp-5,DBpedia,AG,Amazon-2和Amazon-5等文本分类数据集上做了对比实验，结果如下：

6、GLUE数据集

GLUE数据集上的实验如下：

7、ClueWeb09-B

ClueWeb09-B是一个文档排序的数据集。它主要用于搜索引擎：给定一个Query，然后给相关的网页排序。下面是实验结果：

8、Ablation消融实验

因为XLNet引入了很多改进点，包括实验排列语言模型，使用Transformer-XL里的改进，而且还使用了不同的Pretraining数据，为了发现哪些改进是有效的，下面做了Ablation实验，对比的主要是BERT-base和XLNet-base，因为它们的训练数据都是BooksCorpus和Wiki。

从上面的对比实验发现：加上预测下一个句子这个Multi-Task任务在XLNet里并无作用。而去掉memory、span-based的预测和双向的数据时效果都是有所下降的，因此它们都是有用的。

参考资料：
XLNet原理
XLNet代码分析
XLNet代码分析(二)
XLNet代码分析(三)
XLNet代码分析(四)
XLNet 详解
降噪自动编码器（Denoising Autoencoder)
降噪自动编码机（Denoising Autoencoder）
比 BERT 效果更好的 XLNet 详解

你可能感兴趣的:(#,Bert系列,人工智能,深度学习,自然语言处理,预训练模型,XLNet)

深入探讨DICOM医学影像中的MPPS服务及其具体实现猿享天开 DICOM医学影像专业知识精讲 DICOM 医学影象 PACS MPPS
深入探讨DICOM医学影像中的MPPS服务及其具体实现1.引言在医疗影像的管理和传输过程中，DICOM（数字影像和通信医学）标准发挥着至关重要的作用。除了DICOM影像的存储和传输（如影像存储SCP和影像传输SCP），DICOM还定义了其他一系列服务以支持医疗影像的完整管理。其中，**MPPS（ModalityPerformedProcedureStep）**服务是医疗影像工作流中的一个重要环节，
java实现多表代替密码（维吉尼亚密码）就问你爱信不信维基利亚密码 java 密码加密解密密码学加密解密 java 算法
维吉尼亚密码（又译维热纳尔密码）是使用一系列凯撒密码组成密码字母表的加密算法，属于多表密码的一种简单形式。设d为一固定的正整数，d个位移代换表π=（π1,π2,…,πd），由密钥序列K=（k1,k2,…,kd）给定，第i+td个明文字母由表πi决定。即密钥ki决定加密算法如下：ek(xi+td)=(xi+td+ki)mod（q）e_k(x_{i+td})=(x_{i+td}+k_i)mod（q）e
MTALAB实现多表代替密码（维吉尼亚密码）就问你爱信不信 matlab加密解密维吉尼亚密码密码学加密解密算法 matlab
维吉尼亚密码（又译维热纳尔密码）是使用一系列凯撒密码组成密码字母表的加密算法，属于多表密码的一种简单形式。设d为一固定的正整数，d个位移代换表π=（π1,π2,…,πd），由密钥序列K=（k1,k2,…,kd）给定，第i+td个明文字母由表πi决定。即密钥ki决定加密算法如下：ek(xi+td)=(xi+td+ki)mod（q）e_k(x_{i+td})=(x_{i+td}+k_i)mod（q）e
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
正面管教之旅戚海英
知道正面管教，源于一个好朋友。听她说了她的魅力以后才开始去接触简.尼尔人的正面管教。我是一名小学老师，随着教龄的增加，更多地感受到的职业的倦怠。熊孩子层出不穷，在与熊孩子的较量中总是重复着那种你胜三场，我胜两场的戏码。总想着可以用更好的方法去和孩子们和谐相处。特别是当我订下我要做一个让孩子最欢迎的老师的目标时，更觉得责任重大。正面管教于是走进了我的世界。图片发自App一口气买了六本，一个系列。却没
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。股海救星
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。（请加老师微信：hxw128126进入到“股票强化训练营”一起学习，领取涨幅大于40%的选股指标和战法）做交易的，尤其是做交易的，几乎每个人都会了解一些技术分析。趋势线、支撑压力、各种价格形态、超买超卖、背离、百分比回撤，等等，这些技术手段几乎每个人都了解它的主要内容和使用方法。可是，为什么很多人总是用不好技术分析的这些工具
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
小架构step系列18：工具秋千码途架构
1概述在写代码的时候，有很多通用的、与业务无关逻辑，这些一般写成工具类方法。这些工具类方法慢慢地被积累起来，变成了开源包，可以直接使用开源包，而不是自己再花时间来重复造这些轮子。这些工具类的开源包比较多，公司如果没有控制的话，不同的开发人员就会选自己熟悉的开源包，甚至都拿来练练手。这样的后果就是，在一个工程内使用了五花八门的工具类包，维护代码的时候不好维护，如果要升级一些框架包或者扫描漏洞，发现很
海滨诗歌原创《画梦》系列2 海滨公园
海滨诗歌原创《画梦》系列2海滨诗歌原创《画梦》系列2作者：安居士/海滨海滨诗歌原创《画梦》系列2第2号拥有一份真爱多么不易如一滴晨露似一颗流星不经意之间蒸发陨落消逝徒留一份凄美哀婉的记忆海滨诗歌原创《画梦》系列2迷途的羔羊唤不回过去渴望死后再生疯狂爱一次找不回幻影在梦里寻觅孤单寂寞徘徊在旷野里海滨诗歌原创《画梦》系列2只要心还在绝不会停止寻找充满柔情蜜意的小径蓦然回首处我狂奔嘶鸣像一匹天马找回昨日
【动态规划】线性DP1——经典回顾
【动态规划】系列文章线性DP1.【动态规划】线性DP1——经典回顾2.【动态规划】线性DP2——进阶1【动态规划】线性DP1——经典回顾【动态规划】新的开始经典DP回顾最长递增子序列（LIS）题目链接题目分析DP代码O(n2)O(n^2)O(n2)补充算法O(nlogn)O(nlogn)O(nlogn)最长公共子序列（LCS）题目链接题目分析代码数字三角形题目链接题目分析自上而下代码自下而上代码新
开源Agent平台Dify源码剖析系列（三）核心模块core/agent之BaseAgentRunner ATM006 机器智能人工智能大模型 Agent Dify
每一篇文章都短小精悍，不啰嗦。笔者寄语本期介绍Dify框架的核心模块core/agent。接下来我们一起深入剖析core/agent目录下的所有代码，并以通俗易懂的方式解释。我们需要先了解这个目录的完整结构，然后逐个分析关键文件，最后总结整个Agent框架的设计和工作原理。首先，让我查看core/agent目录的完整结构：dify/api/core/agent.├──base_agent_runn
深度解析Java类加载器机制与双亲委派模型 cyc&阿灿 java 开发语言
一、类加载器概述类加载器（ClassLoader）是Java虚拟机（JVM）的核心组件之一，负责将.class文件加载到JVM中，并转换为java.lang.Class类的实例。这一过程是Java实现"一次编写，到处运行"的关键所在。1.1类加载的时机Java类的加载不是一次性完成的，而是遵循按需加载原则，主要触发场景包括：创建类的实例（new操作）访问类的静态变量或方法反射调用（Class.fo
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
2022年4月15日读书笔记龙套哥萨克海龙
今日阅读1小时，总计1917小时，第1858日阅读《在国家与社会之间》通过前面的讨论，我们知道，经过相当长时期的一系列改革，新的财政赋税体制在清代中期最终确立起来。这种与明初所定的赋役制度有根本性差别的财政赋税体制的确立，意味着政府赖以作为征收赋税基础的户籍制度，也必然随之发生根本性的改变。图甲的编制，已经不是一种以家庭和人口为中心的组织，而变成一种以田地赋税为中心的系统。这种人在此里、田在彼里的
绘本讲师训练营【64】期9/21实践原创喵喵糖果
64018陈小燕主题：爱与善良也是一种力量城市：厦门时间：2020年9月5日场次：第2场地点：乐之森书名：《你真好》主讲人：陈小燕/喵喵老师参与人数：15人年龄：3-8岁封面【绘本介绍】书名：《你真好》作者：(日)宫西达也著蒲蒲兰译出版：二十一世纪出版社内容简介：从前，有一只粗暴的、坏心眼的、狡猾的、任性的霸王龙，他总是欺负弱小。但他掉到海里，被善良的薄片龙救出来后，他就跟薄片龙交上朋友。他们天天
【Java源码阅读系列56】深度解读Java Constructor 类源码 ·云扬· 源码阅读系列之Java java 开发语言
Java反射机制中，Constructor类是操作构造方法的核心入口。它封装了构造方法的元信息（如参数类型、修饰符）和实例化逻辑，是框架（如Spring、MyBatis）动态创建对象的关键工具。本文基于JDK1.8源码，从类结构、关键方法、设计模式、典型场景等维度，深入解析Constructor类的实现逻辑与设计思想。一、类结构与核心定位1.1类定义与继承关系Constructor类被声明为pub
【Go语言-Day 22】解耦与多态的基石：深入理解 Go 接口 (Interface) 的核心概念吴师兄大模型 Go 语言从入门到精通 golang 开发语言后端 go语言人工智能 python 大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【Docker-Day 7】揭秘 Dockerfile 启动指令：CMD、ENTRYPOINT、ENV、ARG 与 EXPOSE 详解吴师兄大模型 Docker 与 Kubernetes docker 容器运维大模型 python dockerfile 深度学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【数据结构与算法-Day 4】从O(1)到O(n²)，全面掌握空间复杂度分析吴师兄大模型数据结构与算法数据结构与算法 python 时间复杂度大模型人工智能数据结构深度学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
新兴市场股市估值与智能电网网络安全技术的互动 SuperAGI2025 AI大模型应用开发宝典 web安全网络安全 ai
新兴市场股市估值与智能电网网络安全技术的互动关键词：新兴市场股市估值、智能电网网络安全技术、互动关系、金融市场、电力行业、风险评估、技术驱动摘要：本文旨在深入探讨新兴市场股市估值与智能电网网络安全技术之间的互动关系。通过对新兴市场股市估值的影响因素、智能电网网络安全技术的重要性及发展现状的分析，阐述两者相互作用的内在机制。利用数学模型和算法原理，结合实际案例，揭示这种互动对金融市场和电力行业的影响
胶水（119）假装是老付
他是那种非常聪明的人，总觉得你在下一盘高阶象棋，而不是和他进行一场热情友好的辩论。Hewasthetypeofpersonwhowassosmartthatitalwaysfeltlikeyouwereplayinganadvancedgameofchessratherthanhavingacordialdebatewithhim.他没有像训练国际象棋运动员那样思考此后的三步棋，而是思考已经走过的
京东内部优惠券软件叫什么?京东优惠券怎么领取? 氧惠好项目
亲爱的购物达人，你是否一直在寻找那些能让你在京东购物时省下一些小钱的优惠券软件？今天，我就为你揭秘那些在京东内部被疯抢的优惠券软件，让你轻松掌握省钱的小窍门！氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百
PHPStorm携手ThinkPHP8：开启高效开发之旅奔跑吧邓邓子项目攻略 phpstorm ThinkPHP ThinkPHP8 php开发
目录一、前期准备1.1开发环境搭建1.2配置Xdebug二、PHPStorm集成ThinkPHP82.1导入ThinkPHP8项目2.2配置PHP解释器2.3配置服务器三、ThinkPHP8项目开发基础3.1项目结构剖析3.2控制器与方法创建3.3视图渲染与数据传递四、数据库操作与模型定义4.1数据库配置4.2模型定义与使用4.3数据库迁移与种子五、高级开发技巧与优化5.1路由优化与管理5.2中间
“一年之约”的期限会是怎样的结果？ ILoVe自由潇洒
沈一航我们的相遇相识相爱是注定好的吗还是我们前世有过情感纠葛没有了断又带到了这一世纠缠不清啊沈一航我不知道我们之间竟然会有这种剪不断理还乱的情感问题现在想想我们之间发生的这一系列事情不但不可思议而且更让我感到纠结我记得我曾经对你说过如果我们不能好好的在一起我宁愿快刀斩乱麻长痛不如短痛彻彻底底了断我们之间的问题也不要这种若即若离忽冷忽热互相折磨互相纠缠一辈子的情感太伤人也太累了如果能相爱相守着也算是
大型语言模型在自动化AI科学研究与论文撰写中的应用与展望这是Jamon AI4SR 人工智能
1.引言：LLM驱动科学研究与论文撰写的范式转变大型语言模型（LLM）的快速发展正在科学发现领域引发一场深刻的范式转变。这些模型正从最初的任务特定自动化工具，逐步演变为能够自主执行复杂任务的智能代理，从根本上重新定义了研究过程以及人机协作的模式。LLM所展现出的新兴能力，例如高级规划、复杂推理和精确指令遵循，显著加速了科学发现的步伐。传统科学研究通常是一个由人类主导的、高度线性且劳动密集型的过程，
电商新风口：实时视频直播模型MirageLSD震撼发布！| AI日报未来世界2099 AI日报人工智能大模型 MirageLSD
应用1、OpenAI重磅推出ChatGPTAgent！智能体时代正式开启，浏览器将被AI接管2、00后天才团队震撼发布！全球首个A股金融博弈智能体应用横空出世3、KimiPlayground震撼上线：AI助手进化成"全能工具王"，开发者狂欢开启4、MistralAI聊天机器人LeChat大升级：语音交互+深度研究+图像编辑三连击5、Slack掀起AI办公革命：聊天自动总结、术语秒懂、工作流一键自动
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
Tinker源码分析(一):TinkerApplication 俞其荣
本系列Tinker源码解析基于Tinkerv1.9.12自动生成TinkerApplication接入Tinker第一步就是改造Application。官方推荐是利用@DefaultLifeCycle动态生成Application@DefaultLifeCycle(application="tinker.sample.android.app.SampleApplication",flags=Sha
LLM4SR: A Survey on Large Language Models for Scientific Research UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
文章主要内容文章围绕大语言模型（LLMs）在科学研究中的应用展开，系统探讨了其在科研各关键阶段的作用、方法、挑战及未来方向。科学假设发现：LLMs生成科学假设的研究源于“基于文献的发现”和“归纳推理”。现有方法通过灵感检索策略、反馈模块等组件提升假设生成质量，相关基准测试分为基于文献和数据驱动两类，评估指标涵盖新颖性、有效性等。虽取得一定成果，但面临实验验证困难、依赖现有LLMs能力等挑战。实验规
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

NLP-预训练模型-2019-NLU：XLNet【 在Transformer-XL的基础上：①“排列组合LM”取代Bert中的“掩码LM”解决其弊端；②使用“双流注意力机制”解决位置信息】