AI科技大本营

NLP重大突破？一文读懂XLNet“屠榜”背后的原理

作者 | 李理
原文链接：https://fancyerii.github.io/2019/06/30/xlnet-theory/

本文介绍XLNet的基本原理，读者阅读前需要了解BERT等相关模型，不熟悉的读者建议学习BERT课程。

语言模型和BERT各自的优缺点

在论文里作者使用了一些术语，比如自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型等，这可能让不熟悉的读者感到困惑，因此我们先简单的解释一下。自回归是时间序列分析或者信号处理领域喜欢用的一个术语，我们这里理解成语言模型就好了：一个句子的生成过程如下：首先根据概率分布生成第一个词，然后根据第一个词生成第二个词，然后根据前两个词生成第三个词，……，直到生成整个句子。而所谓的自编码器是一种无监督学习输入的特征的方法：我们用一个神经网络把输入(输入通常还会增加一些噪声)变成一个低维的特征，这就是编码部分，然后再用一个Decoder尝试把特征恢复成原始的信号。我们可以把BERT看成一种AutoEncoder，它通过Mask改变了部分Token，然后试图通过其上下文的其它Token来恢复这些被Mask的Token。如果读者不太理解或者喜欢这两个jargon，忽略就行了。

给定文本序列 $\mathbf{x}=[x_1,...,x_T]$ ，语言模型的目标是调整参数使得训练数据上的似然函数最大：

$\underset{\theta}{max}\; log p_\theta(\mathbf{x})=\sum_{t=1}^T log p_\theta(x_t \vert \mathbf{x}_{<t})=\sum_{t=1}^T log \frac{exp(h_\theta(\mathbf{x}_{1:t-1})^T e(x_t))}{\sum_{x'}exp(h_\theta(\mathbf{x}_{1:t-1})^T e(x'))} \text{ 等式(1)}$

记号 $\mathbf{x}_{<t}$ 表示t时刻之前的所有x，也就是 $\mathbf{x}_{1:t-1}$ $。$ $h_\theta(\mathbf{x}_{1:t-1})$ $是 R N N 或者 T r a n s f o r m e r (注： T r a n s f o r m e r 也可以用于语言模型，比如在 O p e n A I G P T) 编码的 t 时刻之前的隐状态。$ e(x)$是词x的embedding。

而BERT是去噪(denoising)自编码的方法。对于序列 $\mathbf{x}$ ，BERT会随机挑选15%的Token变成[MASK]得到带噪声版本的 $\hat{\mathbf{x}}$ 。假设被Mask的原始值为 $\bar{\mathbf{x}}$ ，那么BERT希望尽量根据上下文恢复(猜测)出原始值了，也就是：

$\underset{\theta}{max}\;log p_\theta(\bar{\mathbf{x}} | \hat{\mathbf{x}}) \approx \sum_{t=1}^Tm_t log p_\theta(x_t | \hat{\mathbf{x}})=\sum_{t=1}^T m_t log \frac{exp(H_\theta(\mathbf{x})_{t}^T e(x_t))}{\sum_{x'}exp(H_\theta(\mathbf{x})_{t}^T e(x'))} \text{ 等式(2)}$

上式中 $m_t=1$ 表示t时刻是一个Mask，需要恢复。 $H_\theta$ 是一个Transformer，它把长度为 $T$ 的序列 $\mathbf{x}$ 映射为隐状态的序列 $H_\theta(\mathbf{x})=[H_\theta(\mathbf{x})_1, H_\theta(\mathbf{x})_2, ..., H_\theta(\mathbf{x})_T]$ 。注意：前面的语言模型的RNN在t时刻只能看到之前的时刻，因此记号是 $h_\theta(\mathbf{x}_{1:t-1})$ ；而BERT的Transformer(不同与用于语言模型的Transformer)可以同时看到整个句子的所有Token，因此记号是 $H_\theta(\mathbf{x})$ 。

这两个模型的优缺点分别为：

独立假设
- 注意等式(2)的约等号 $\approx$ ，它的意思是假设在给定 $\hat{\mathbf{x}}$ 的条件下被Mask的词是独立的(没有关系的)，这个显然并不成立，比如"New York is a city"，假设我们Mask住"New"和"York"两个词，那么给定"is a city"的条件下"New"和"York"并不独立，因为"New York"是一个实体，看到"New"则后面出现"York"的概率要比看到"Old"后面出现"York"概率要大得多。而公式(1)没有这样的独立性假设，它是严格的等号。
输入噪声
- BERT的在预训练时会出现特殊的[MASK]，但是它在下游的fine-tuning中不会出现，这就是出现了不匹配。而语言模型不会有这个问题。
双向上下文
- 语言模型只能参考一个方向的上下文，而BERT可以参考双向整个句子的上下文，因此这一点BERT更好一些。关于为什么RNN只能是单向的上下文而BERT可以参考整个句子的上线，读者可以参考ELMo和OpenAI GPT的问题。

排列(Permutation)语言模型

根据上面的讨论，语言模型和BERT各有优缺点，有什么办法能构建一个模型使得同时有它们的优点并且没有它们缺点呢？

借鉴NADE(不了解的读者可以忽略，这是一种生成模型)的思路，XLNet使用了排列语言模型，它同时有它们的优点。

给定长度为T的序列 $\mathbf{x}$ ，总共有 $T!$ 种排列方法，也就对应 $T!$ 种链式分解方法。比如假设 $\mathbf{x}=x_1x_2x_3$ ，那么总共用 $3! = 6$ 种分解方法：

$p(\mathbf{x})=p(x_1)p(x_2|x_1)p(x_3|x_1x_2) \Rightarrow 1 \rightarrow 2 \rightarrow 3 \\ p(\mathbf{x})=p(x_1)p(x_2|x_1x_3)p(x_3|x_1) \Rightarrow 1 \rightarrow 3 \rightarrow 2 \\ p(\mathbf{x})=p(x_1|x_2)p(x_2)p(x_3|x_1x_2) \Rightarrow 2 \rightarrow 1 \rightarrow 3 \\ p(\mathbf{x})=p(x_1|x_2x_3)p(x_2)p(x_3|x_2) \Rightarrow 2 \rightarrow 3 \rightarrow 1 \\ p(\mathbf{x})=p(x_1|x_3)p(x_2|x_1x_3)p(x_3) \Rightarrow 3 \rightarrow 1 \rightarrow 2$

注意 $p(x_2 \vert x_1x_3)$ 指的是第一个词是 $x_1$ 并且第三个词是 $x_3$ 的条件下第二个词是 $x_2$ 的概率，也就是说原来词的顺序是保持的。如果理解为第一个词是 $x_1$ 并且第二个词是 $x_3$ 的条件下第三个词是 $x_2$ ，那么就不对了。

如果我们的语言模型遍历 $T!$ 种分解方法，并且这个模型的参数是共享的，那么这个模型应该就能(必须)学习到各种上下文。普通的从左到右或者从右往左的语言模型只能学习一种方向的依赖关系，比如先"猜"一个词，然后根据第一个词"猜"第二个词，根据前两个词"猜"第三个词，……。而排列语言模型会学习各种顺序的猜测方法，比如上面的最后一个式子对应的顺序 $\rightarrow 1 \rightarrow 2$ ，它是先"猜"第三个词，然后根据第三个词猜测第一个词，最后根据第一个和第三个词猜测第二个词。

因此我们可以遍历 $T!$ 种路径，然后学习语言模型的参数，但是这个计算量非常大(10!=3628800,10个词的句子就有这么多种组合)。因此实际我们只能随机的采样 $T!$ 里的部分排列，为了用数学语言描述，我们引入几个记号。 $\mathcal{Z}_T$ 表示长度为T的序列的所有排列组成的集合，则 $\in \mathcal{Z}_T$ 是一种排列方法。我们用 $z_t$ 表示排列的第t个元素，而 $z_{<t}$ 表示z的第1到第t-1个元素。

举个例子，假设T=3，那么 $\mathcal{Z}_T$ 共有6个元素，我们假设其中之一 $z = [1, 3, 2]$ ，则 $z_3=2$ ，而 $z_{<3}=[1,3]$ 。

有了上面的记号，则排列语言模型的目标是调整模型参数使得下面的似然概率最大：

$\underset{\theta}{max} \mathbb{E}_{z \sim \mathcal{Z}_T}[\sum_{t=1}^Tlog p_\theta(x_{z_t}|\mathbf{x}_{z_{<t}})]$

上面的公式看起来有点复杂，细读起来其实很简单：从所有的排列中采样一种，然后根据这个排列来分解联合概率成条件概率的乘积，然后加起来。

注意：上面的模型只会遍历概率的分解顺序，并不会改变原始词的顺序。实现是通过Attention的Mask来对应不同的分解方法。比如 $p(x_1 \vert x_3)p(x_2 \vert x_1x_3)p(x_3)$ ，我们可以在用Transformer编码 $x_1$ 时候让它可以Attend to $x_3$ ，而把 $x_2$ Mask掉；编码 $x_3$ 的时候把 $x_1,x_2$ 都Mask掉。

图：排列语言模型在预测 $x_3$ 时不同排列的情况

比如图的左上，对应的分解方式是 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ ，因此预测 $x_3$ 是不能attend to任何其它词，只能根据之前的隐状态 $m e m$ 来预测。而对于左下， $x_3$ 可以attend to其它3个词。

Two-Stream Self-Attention for Target-Aware Representations

没有目标(target)位置信息的问题

上面的思想很简单，但是如果我们使用标准的Transformer来实现时会有问题。我们来看一个例子。

假设输入的句子是"I like New York"，并且一种排列为z=[1, 3, 4, 2]，假设我们需要预测 $z_3=4$ ，那么根据公式：

$p_\theta(X_{z_3}=x|x_{z_1z_2})=p_\theta(X_4=x|x_1x_3)=\frac{exp(e(x)^Th_\theta(x_1x_3))}{\sum_{x'}exp(e(x')^Th_\theta(x_1x_3))}$

注意，我们通常用大写的X表示随机变量，比如 $X_4$ ，而小写的x表示某一个具体取值，比如x，我们假设x是"York"，则 $p_\theta(X_4=x)$ 表示第4个词是York的概率。用自然语言描述：上面的概率是第一个词是I，第3个词是New的条件下第4个词是York的概率。

另外我们再假设一种排列为z’=[1,3,2,4]，我们需要预测 $z_3=2$ ，那么：

$p_\theta(X_{z_3}=x|x_{z_1z_2})=p_\theta(X_2=x|x_1x_3)=\frac{exp(e(x)^Th_\theta(x_1x_3))}{\sum_{x'}exp(e(x')^Th_\theta(x_1x_3))}$

则上面是表示是第一个词是I，第3个词是New的条件下第2个词是York的概率。我们仔细对比一下公式会发现这两个概率是相等的。但是根据经验，显然这两个概率是不同的，而且上面的那个概率大一些，因为York跟在New之后是一个城市，而"York New"是什么呢？

上面的问题的关键是模型并不知道要预测的那个词在原始序列中的位置。了解Transformer的读者可能会问：输入的位置编码在哪里呢？位置编码的信息不能起作用吗？注意：位置编码是和输入的Embedding加到一起作为输入的，因此 $p_\theta(X_4=x \vert x_1x_3)$ 里的 $x_1$ 和 $x_3$ 是带了位置信息的，模型(可能)知道(根据输入的向量猜测)I是第一个词，而New是第三个词，但是第四个词的向量显然这个是还不知道(知道了还要就不用预测了)，因此就不可能知道它要预测的词到底是哪个位置的词，因此我们必须"显式"的告诉模型我要预测哪个位置的词。

为了后面的描述，我们再把上面的两个公式写出更加一般的形式。给定排列z，我们需要计算 $p_\theta(X_{z_t} \vert \mathbf{x}_{z_{<t}}=x)$ ，如果我们使用普通的Transformer，那么计算公式为：

$p_\theta(X_{z_t}=x \vert \mathbf{x}_{z_{<t}})=\frac{exp(e(x)^Th_\theta(\mathbf{x}_{z_{<t}}))}{\sum_{x'}exp(e(x')^Th_\theta(\mathbf{x}_{z_{<t}}))}$

根据前面的讨论，我们知道问题的关键是模型并不知道要预测的到底是哪个位置的词，为了解决这个问题，我们把预测的位置 $z_t$ 放到模型里：

$p_\theta(X_{z_t}=x \vert \mathbf{x}_{z_{<t}})=\frac{exp(e(x)^Tg_\theta(\mathbf{x}_{z_{<t}}, z_t))}{\sum_{x'}exp(e(x')^Tg_\theta(\mathbf{x}_{z_{<t}}, z_t))}$

上式中 $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ 表示这是一个新的模型g，并且它的参数除了之前的词 $\mathbf{x}_{z_{<t}}$ ，还有要预测的词的位置 $z_t$ 。

Two-Stream Self-Attention

接下来的问题是用什么模型来表示 $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ 。当然有很多种可选的函数(模型)，我们这里通过位置 $z_t$ 来从context $\mathbf{x}_{z_{<t}}$ 里通过Attention机制提取需要的信息来预测这个位置的词。那么它需要满足如下两点要求：

为了预测 $\mathbf{x}_{z_t}$ ， $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ 只能使用位置信息 $z_t$ 而不能使用 $\mathbf{x}_{z_t}$ 。这是显然的：你预测一个词当然不能知道要预测的是什么词。
为了预测 $z_t$ 之后的词， $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ 必须编码了 $x_{z_t}$ 的信息(语义)。

但是上面两点要求对于普通的Transformer来说是矛盾的无法满足的。因为上面是理解为什么要搞出两个Stream的关键，所以我这里再啰嗦一点举一个例子。

假设输入的句子还是"I like New York"，并且一种排列为z=[1, 3, 4, 2]，假设t=2，我们现在是在计算 $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ ，也就是给定第一个位置的词为I预测第三个位置为New的概率，显然我们不能使用New本身的而只能根据第一个位置的I来预测。假设我们非常幸运的找到了一很好的函数g，它可以能够比较好的预测这个概率 $g_\theta(x_1, z_2)$ 。现在我们又需要计算t=3，也就是根据 $g_\theta(x_1, z_2)$ 和 $z_t$ 来预测York，显然知道第三个位置是New对于预测第四个位置是York会非常有帮助，但是 $g_\theta(x_1, z_2)$ 并没有New这个词的信息。读者可能会问：你不是说g可以比较好的根据第一个词I预测第三个词New的概率吗？这里有两点：I后面出现New的概率并不高；在预测York时我们是知道第三个位置是New的，只不过模型的限制我们没有重复利用这信息。

为了解决这个问题，论文引入了两个Stream，也就是两个隐状态：

内容隐状态 $h_\theta(\mathbf{x}_{z_{<t}})$ ，简写为 $h_{z_t}$ ，它就会标准的Transformer一样，既编码上下文(context)也编码 $x_{z_t}$ 的内容。
查询隐状态 $g_\theta(\mathbf{x}_{z_{<t}}, z_t)$ ，简写为 $g_{z_t}$ ，它只编码上下文和要预测的位置 $z_t$ ，但是不包含 $x_{z_t}$ 。

下面我们介绍一下计算过程。我们首先把查询隐状态 $g_i^{(0)}$ 初始化为一个变量w，把内容隐状态 $h_i^{(0)}$ 初始化为词的Embedding $e(x_i)$ 。这里的上标0表示第0层(不存在的层，用于计算第一层)。因为内容隐状态可以编码当前词，因此初始化为词的Embedding是比较合适的。

接着从m=1一直到第M层，我们逐层计算：
上面两个流分别使用自己的Query向量 $g_{z_t}$ 和 $h_{z_t}$ ；但是Key和Value向量都是用的h，因为h是内容。但是注意Query流不能访问 $z_t$ 的内容，因此KV是 $h_{z_{<t}}^{(m-1)}$ ，这里用的是小于号(<)表示不包括t时刻的content。而Content流的KV是 $h_{z_{\le t}}^{(m-1)}$ ，它包含 $x_{z_t}$ 。

上面的梯度更新和标准的self-attention是一样的。在fine-tuning的时候，我们可以丢弃掉Query流而只用Content流。最后在计算公式的时候我们可以用最上面一层的Query向量 $g_{z_t}^{(M)}$ 。

下面我们通过下图来直观的了解计算过程。

图：Two Stream排列模型的计算过程

图的左上是Content流Attention的计算，假设排列为 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ ，并且我们现在预测第1个位置的词的概率。根据排列，我们可以参考所有4个词的信息，因此 $KV=[h_1^{(0)},h_2^{(0)},h_3^{(0)},h_4^{(0)}]$ ，而 $Q=h_1^{(0)}$ 。

左下是Query流的计算，因为不能参考自己的内容，因此 $KV=[h_2^{(0)},h_3^{(0)},h_4^{(0)}]$ ，而 $Q=g_1^{(0)}$ 。

而图的右边是完整的计算过程，我们从下往上看，首先h和g分别被初始化为 $e(x_i)$ 和W，然后Content Mask和Query Mask计算第一层的输出 $h^{(1)}$ 和 $g^{(1)}$ ，然后计算第二层……。注意最右边的Content Mask和Query Mask，我们先看Content Mask。它的第一行全是红点，表示第一个词可以attend to所有的词(根据 $\rightarrow 2 \rightarrow 4 \rightarrow 1$ )，第二个词可以attend to它自己和第三个词，……。而Query Mask和Content Mask的区别就是不能attend to自己，因此对角线都是白点。

部分预测

虽然排列语言模型有很多有点，但是它的计算量很大(排列很多)，很难优化。因此我们只预测一个句子后面的一些词，为什么不预测前面的词呢？因为前面的词的上下文比较少，上下文信息相对较少。比如句子"I like New York"。预测I的时候没有任何上下文，因此可能的选择很多。而到最后一个词York的时候，如果New已经知道了，那么York的概率就非常大了。

因此我们把一个排列 $z$ 分成两个子序列 $z_{\le c}$ 和 $z_{>c}$ ，分别叫做non-target序列和target序列，其中c是切分点。我们会使用一个超参数K，表示1/K的Token会被预测，因此根据公式：

$\frac{|z|-c}{|z|}=\frac{1}{K}$

可以计算出 $\approx \frac{\vert z \vert -c}{\vert z \vert}$ ，约等于的原因是因为K是整数。前面c个不用预测的Token，我们不需要计算其Query流，从而可以节省计算时间。

融入Transformer-XL的优点

到此为止，XLNet的核心思想已经比较清楚了：还是使用语言模型，但是为了解决双向上下文的问题，引入了排列语言模型。排列语言模型在预测时需要target的位置信息，因此通过引入Two-Stream，Content流编码到当前时刻的所有内容，而Query流只能参考之前的历史以及当前要预测的位置。最后为了解决计算量过大的问题，对于一个句子，我们只预测后面的1/K的词。

接下来XLNet借鉴了Transformer-XL的优点，它对于很长的上下文的处理是要由于传统的Transformer的。我们这里只是简单的介绍Transformer-XL，有兴趣的读者可以参考Transformer-XL论文。

Transformer-XL思想简介

首先Transformer-XL是一个语言模型，也就是改进Transformer来根据历史的词预测下一个词。它不同于BERT的Mask语言模型问题，也不同于XLNet使用的排列语言模型。我们知道OpenAI GPT就是使用Transformer来进行语言模型的建模。因为Transformer要求输入是定长的词序列(不像RNN可以处理变成的输入序列)，太长的截断，不足的padding，这样我们把一个语料库的字符串序列切分成固定长度的segments。它有下面一些问题：

由于定长的要求，我们不可能让输入太长。因此虽然Self-Attention机制虽然不太受长度的约束，但是Transformer的语言模型实际能够考虑的上下文就是输入的长度。
因为我们在序列语言模型的时候通常很难准确的分句(或者有时候一个句子比最大长度还长)，所以一个Segment很可能不是一个完整的句子(甚至它是从某个句子的中间部分开始的)，这样前面的几个词就很难预测(给人一个没头没脑的句子也很难预测)，因为语言模型是自回归的，一步错步步错。这就是所谓的context fragmentation的问题。
预测的性能问题，假设我们要使用Transformer语言模型来计算一个句子的概率(而不是用于下游的任务)，那么我们首先要计算 $P(x_1)$ ，然后计算 $P(x_2 \vert x_1)$ ，……，一直计算到 $P(x_T \vert x_1, ..., x_{T-1})$ 。每个时刻都需要用Transformer计算一次，而不能像RNN那样之前的把历史都编码到一个context向量里。

图：普通的Transformer语言模型的训练和预测

上图做是普通的Transformer语言模型的训练过程。假设Segment的长度为4，如图中我标示的：根据红色的路径，虽然 $x_8$ 的最上层是受 $x_1$ 影响的，但是由于固定的segment，x_8无法利用 $x_1$ 的信息。而预测的时候的上下文也是固定的4，比如预测 $x_6$ 时我们需要根据 $x_2,x_3,x_4,x_5]$ 来计算，接着把预测的结果作为下一个时刻的输入。接着预测 $x_7$ 的时候需要根据 $x_3,x_4,x_5,x_6]$ 完全进行重新的计算。之前的计算结果一点也用不上。

而Transformer-XL如下图所示：

图：Transformer-XL的训练和预测

我们会把之前一个固定长度的词序列每一层的输出都放到一个cache里，比如把 $x_1,...,x_4$ 的计算结果都存起来，那么在训练第二个Segment $x_5,...,x_8]$ 的时候就可以让Self-Attention机制参考 $x_1,...,x_4]$ 的信息了。当然在反向计算梯度的时候，cache里的内容是不会参与梯度的计算的。而在预测的时候，比如右图我们在计算 $x_{12}$ 作为输入的时候，之前那些 $x_{11},x_{10},...]$ 都不需要重新计算。而普通的的Transformer是需要的，为什么呢？我们仔细看一下上图，在t=12的时候， $x_{11}$ 可以attend to $x_{11},...,x_{9}]$ (而 $x_8$ 被截掉了)，而在t=11的时候可以attend to $x_{11},...,x_{8}]$ ，因此这两个计算结果是不同的，需要重新计算。

Segment基本的状态重用

根据之前的思路，我们用cache缓存部分历史的状态。虽然计算梯度的时候只使用本segment的信息，但是在forward的时候其实是用到了之前的segment(甚至很久以前的segment，只有cache的空间足够大)的信息，因此它又有点类似于RNN。下面我们形式化的用数学语言来描述状态重用的过程。假设两个相邻的segment为 $s_\tau=[x_{\tau,1}, x_{\tau,2}, ..., x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1}, x_{\tau+1,2}, ..., x_{\tau+1,L}]$ 。假设segment $s_\tau$ 的第n层的隐状态序列为 $h_\tau^n \in R^{L \times d}$ ，那么计算segment $s_{\tau+1}$ 的隐状态的过程如下：

上式中 $SG(h_{\tau}^{n-1})$ 函数代表 $h_{\tau}^{n-1}$ 不参与梯度的计算。我们看到，计算Query的时候只是用本segment的信息 $h_{\tau+1}^{n-1}$ ，而计算Key和Value的时候同时使用了 $h_{\tau+1}^{n-1}$ 和 $h_{\tau}^{n-1}$ (实际用的是 $\tilde{h}_{\tau+1}^{n-1}$ )。

Transformer-XL的相对位置编码

Transformer-XL不能像BERT那样使用绝对位置编码，下面我们来分析一些为什么不行。

和前面一样，假设两个相邻的segment为 $s_\tau=[x_{\tau,1}, x_{\tau,2}, ..., x_{\tau,L}]$ 和 $s_{\tau+1}=[x_{\tau+1,1}, x_{\tau+1,2}, ..., x_{\tau+1,L}]$ 。假设segment $s_\tau$ 的第n层的隐状态序列为 $h_\tau^n \in R^{L \times d}$ ，那么计算公式如下：

上式中 $E_{s_{\tau}}$ 是segment的每一个词的Embedding的序列。我们发现 $E_{s_{\tau}}$ 和 $E_{s_{\tau+1}}$ 都是加了 $U_{1:L}$ ，因此模型无法通过向量判断它到底是当前segment的第i个位置还是前一个Segment的第i个位置。注：不熟悉位置编码的读者需要参考Transformer图解。它的基本思想就是给每一个绝对位置一个Embedding，因此模型可以通过这个Embedding猜测它在编码哪个位置的信息，也可以学到某个位置用什么向量来表示更好。

因此Transformer-XL必须使用相对位置编码，它使用了和原始的Transformer使用正弦函数不同的方法。原始的Transformer是把位置信息embedding进去直接加到输入里，而Transformer-XL是在Attention计算的时候利用当前Query和Key的相对位置。因为XLNet使用的是正弦函数的位置编码，所以这里就不介绍Transformer-XL的位置编码方法了，感兴趣的读者可以参考Transformer-XL论文。

在XLNet里融入Transformer-XL的思想

首先XLNet借鉴了Transoformer-XL的相对位置编码的思想，这个和它基本一样，因此这里不再介绍。另外一点就是cache前一个segment的隐状态。我们假设有两个从原始序列 $\mathbf{s}$ 里抽取的两个连续Segment， $\tilde{x}=s_{1:T}$ 和 $x=s_{T+1:2T}$ 。同时假设 $\tilde{z}$ 和 $z$ 分别是[1,…,T]和[T+1,…,2T]的一个排列。然后根据排列 $\tilde{z}$ 的概率分解我们首先计算第一个segment，并且把Content流的隐状态 $\tilde{h}^{(m)}$ cache下来，这里 $\tilde{h}^{(m)}$ 是第m层的Content流的隐状态。那么计算第二个Segment的Content流的方法如下：

$h_{z_t}^{(m)} \leftarrow \text{Attention} (Q=h_{z_t}^{(m-1)},KV=[\tilde{h}^{(m-1)},h_{z \le t}^{(m-1)}];\theta)$

上式用自然语言描述就是：为了计算 $z_t$ 第m层的隐状态，我们使用Attention机制，其中Query是上一次的隐状态 $h_{z_t}^{(m-1)}$ ，而Key和Value除了 $z_1,...,z_t$ 第m-1层的隐状态，也需要attend to cached上一个segment的所有第m-1层的隐状态。

在计算第二个segment时，我们只需要知道隐状态 $\tilde{h}^{(m)}$ 就可以了，而并不需要知道它是通过哪个排列 $\tilde{z}$ 计算出来的。这样我们在cache前一个segment时不用考虑它的排列。

建模多个segment

许多下游的任务会有多余一个输入序列，比如问答的输入是问题和包含答案的段落。下面我们讨论怎么在自回归框架下怎么预训练两个segment。和BERT一样，我们选择两个句子，它们有50%的概率是连续的句子(前后语义相关)，有50%的概率是不连续(无关)的句子。我们把这两个句子拼接后当成一个句子来学习排列语言模型。输入和BERT是类似的：[A, SEP, B, SEP, CLS]，这里SEP和CLS是特殊的两个Token，而A和B代表两个Segment。而BERT稍微不同，这里把CLS放到了最后。原因是因为对于BERT来说，Self-Attention唯一能够感知位置是因为我们把位置信息编码到输入向量了，Self-Attention的计算本身不考虑位置信息。而前面我们讨论过，为了减少计算量，这里的排列语言模型通常只预测最后1/K个Token。我们希望CLS编码所有两个Segment的语义，因此希望它是被预测的对象，因此放到最后肯定是会被预测的。

但是和BERT不同，我们并没有增加一个预测下一个句子的Task，原因是通过实验分析这个Task加进去后并不是总有帮助。【注：其实很多做法都是某些作者的经验，后面很多作者一看某个模型好，那么所有的Follow，其实也不见得就一定好。有的时候可能只是对某个数据集有效果，或者效果好是其它因素带来的，一篇文章修改了5个因素，其实可能只是某一两个因素是真正带来提高的地方，其它3个因素可能并不有用甚至还是有少量副作用。】

相对Segment编码

BERT使用的是绝对的Segment编码，也就是第一个句子对于的Segment id是0，而第二个句子是1。这样如果把两个句子换一下顺序，那么输出是不一样的。XLNet使用的是相对的Segment编码，它是在计算Attention的时候判断两个词是否属于同一个Segment，如果位置i和j的词属于同一个segment，那么使用一个可以学习的Embedding $s_{ij}=s_+$ ，否则 $s_{ij}=s_-$ 。也就是说，我们只关心它们是属于同一个Segment还是属于不同的Segment的。当我们从位置i attend to j的时候，我们会这样计算一个新的attention score： $a_{ij}=(q_i+b)^Ts_{ij}$ 。这里的 $q_i$ 是第i位置的Query向量，b是一个可以学习的bias。最后我们会把这个attention score加到原来计算的Attention score里，这样它就能学到当i和j都属于某个segment的特征和i和就属于不同segment的特征。

XLNet与BERT的对比

XLNet和BERT都是预测一个句子的部分词，但是背后的原因是不同的。BERT使用的是Mask语言模型，因此只能预测部分词(总不能把所有词都Mask了然后预测?)。而XLNet预测部分词是出于性能考虑，而BERT是随机的选择一些词来预测。

除此之外，它们最大的区别其实就是BERT是约等号，也就是条件独立的假设——那些被MASK的词在给定非MASK的词的条件下是独立的。但是我们前面分析过，这个假设并不(总是)成立。下面我们通过一个例子来说明(其实前面已经说过了，理解的读者跳过本节即可)。

假设输入是[New, York, is, a, city]，并且假设恰巧XLNet和BERT都选择使用[is, a, city]来预测New和York。同时我们假设XLNet的排列顺序为[is, a, city, New, York]。那么它们优化的目标函数分别为：

从上面可以发现，XLNet可以在预测York的使用利用New的信息，因此它能学到"New York"经常出现在一起而且它们出现在一起的语义和单独出现是完全不同的。

XLNet与语言模型的对比

和语言模型相比，XLNet最大的优势就是通过输入序列的各种排列，同时学习到上下文的信息。

实验

Pretraining和实现

和BERT一样，XLNet使用了BooksCorpus和英文的维基百科作为训练数据，这两者总共13GB的文本。此外，XLNet还增加了Giga5(16GB)、ClueWeb 2012-B和Common Crawl的数据来进行Pretraining。对于ClueWeb 2012-B和Common Crawl的内容使用了启发式的规则进行了预处理，最终各自保留了19GB和78GB的文本。使用SentencePiece工具后分别得到2.78B, 1.09B, 4.75B, 4.30B和19.97B Token(subword unit)，总计32.89B。

最大的模型XLNet-Large采样了和BERT-large一样的超参数，从而得到类似大小的模型。序列长度和cache分别设置为512和384。训练XLNet-Large是在512核心(不是512个)的TPU v3芯片上进行，使用Adam优化器迭代了500K次。使用了线性的Learning rate decay，batch大小是2048，最终训练了2.5天。我们发现模型仍然是欠拟合(underfitting)的，如果继续训练的话在训练数据上的loss还能下降。但是对于下游的任务并没有太大帮助。因此我们判断是因为数据太大了，默认没有能力完全拟合数据。为了与BERT对比，我们也训练了XLNet-Base模型，它只使用了BooksCorpus和维基百科的数据。

因为引入了递归(recurrence)的机制，我们使用双向的输入pipeline，也就是把一个batch的一半样本正常顺序输入而另一半反向输入。对于XLNet-Large，我们设置K为6，也就是预测1/6的Token。Fine-tuning过程基本是follow BERT。此外我们采样了span-based预测，也就是我们首先采样一个长度L， $\in [1, ..., 5]$ ，也就是最少一个Token(1-gram)，最多连续5个Token(5-gram)。然后使用长度为KL的上下文来预测这个n-gram。后面的代码分析我们会看到这一点。

RACE数据集

RACE数据集，它包含大概100K个问题。它是中国12岁到18岁的学生在初中和高中的英语阅读理解问题。下图是其中一个样例，我们在中学经常做的阅读理解题。

图：RACE阅读理解题示例

下图是实验结果，我们可以看到XLNet比最好的BERT模型要提升很多。

图：RACE数据集的结果对比

SQuAD数据集

SQuAD是一个大规模的阅读理解任务的数据集。和前面的选择题不同，SQuAD可以看成问答题，也就是需要从阅读的文章找答案。如下图所示：

图：SQuAD数据示例

SQuAD1.1假设答案是原文的一个连续的一个或者多个词，并且答案是一定存在的。而SQuAD2.0可能会问没有答案的问题。因此为了fine-tuning SQuAD2.0，我们使用了Multi-Task Learning：其中一个损失函数是一个二分类的logistic regression损失函数，它判断有没有答案；而另一个就是标标准的span抽取的损失函数(感兴趣的读者可以参考BERT的论文)。因为v1.1的问题是包含在v2.0里的，因此在打榜的时候我们直接使用v2.0的模型去做v1.1的题目，只是把判断有没有答案的部分去掉(因为v1.1肯定有答案)。另外因为很多参赛者会使用额外的数据，我们也增加了NewsQA的数据作为训练数据。如下表所示，我们的单一的模型(很多好成绩都是好的模型的Ensembling)取得了SOTA的成绩。

图：SQuAD数据集结果对比

文本分类

我们在IMDB,Yelp-2,Yelp-5,DBpedia,AG,Amazon-2和Amazon-5等文本分类数据集上做了对比实验，结果如下：

图：常见文本分类数据集结果对比

GLUE数据集

GLUE数据集上的实验如下：

图：GLUE数据集结果对比

ClueWeb09-B

ClueWeb09-B是一个文档排序的数据集。它主要用于搜索引擎：给定一个Query，然后给相关的网页排序。下面是实验结果：

图：ClueWeb09-B数据集结果对比

Ablation对比实验

因为XLNet引入了很多改进点，包括实验排列语言模型，使用Transformer-XL里的改进，而且还使用了不同的Pretraining数据，为了发现哪些改进是有效的，下面做了Ablation实验，对比的主要是BERT-base和XLNet-base，因为它们的训练数据都是BooksCorpus和Wiki。

图：Ablation对比实验

从上面的对比实验发现：加上预测下一个句子这个Multi-Task任务在XLNet里并无作用。而去掉memory、span-based的预测和双向的数据时效果都是有所下降的，因此它们都是有用的。

代码

请参考下一篇XLNet代码分析。

你可能感兴趣的:(AI,人工智能)

waitpid使用 jax不摆烂 linux 算法 linux
waitpid是Unix/Linux系统中用于等待子进程状态变化的系统调用。它允许父进程挂起执行，直到指定的子进程终止或者发生了其他指定的状态变化。waitpid的语法pid_twaitpid(pid_tpid,int*status,intoptions);pid:要等待的子进程的进程ID，特殊值如下：pid>0:等待进程ID为pid的特定子进程。pid==0:等待任何属于与调用进程相同进程组的子
**LLM Gateway：您的智能对话门户** 芮奕滢Kirby
LLMGateway：您的智能对话门户llm-gatewayGatewayforsecure&reliablecommunicationswithOpenAIandotherLLMproviders项目地址:https://gitcode.com/gh_mirrors/ll/llm-gateway在人工智能和自然语言处理的浪潮中，LLMGateway以其卓越的设计与功能脱颖而出，为开发者和用户提供
python 中serial.read用法详解之serial.read(inwaiting or 1) huiyuanzhenduo python
在Python中，serial.read(inwaitingor1)是pyserial库中用于从串口读取数据的代码片段，下面是详细解释：read()serial类的方法，用于从串口缓冲区读取指定数量的字节数据。格式为read(size)，size为读取的字节数。inwaiting是serial类的属性，返回串口输入缓冲区中等待读取的字节数。如ser.inwaiting()可获取当前缓冲区字节数。i
探秘 TCP TLP：从背景到实现 dog250 tcp/ip 网络网络协议
回家的路上还讨论了个关于TCPTLP的问题，闲着无事缕一缕。本文内容参考自TailLossProbe(TLP):AnAlgorithmforFastRecoveryofTailLosses以及Linux内核源码。TLP，先说缘由。自TCP引入Fastretrans机制就是为了尽力避免RTO，但如果sender发送的一系列数据包中尾包被丢弃，就没有触发dupack，sack的可能，于是就有了TLP，
webview_flutter_wkwebview 3.17.0使用指南 LuiChun flutter
文档一lib\inserted_web_seven\tell_to_ai\my_summary\webview_flutter_wkwebview_3.17.0_guide.txtwebview_flutter_wkwebview3.17.0使用指南日期：2025年1月26日==================================================一、核心作用======
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
VScode开发STM32 predestination836 vscode stm32 单片机
由于keil5的界面太差（太丑），而VScode的界面，代码提醒等基本完杀keil5，所以VScode负责写代码，keil5负责代码的下载和调试VScode的下载和安装官网地址：https://code.visualstudio.com/但官网下载太慢，这里附上某盘的连接：链接：https://pan.baidu.com/s/10hL0aqUOlbe10fuSSDFS4w?pwd=3ouk提取码：
报错解决记录：Annotation-specified bean name ‘xxx‘ for bean class [xxx]conflicts with existing... hamster2021 spring cloud
问题：对代码做修改后启动服务，爆出了如下错误：2024-11-1321:43:25,564ERROR[main][SpringApplication.java:837]-Applicationrunfailedorg.springframework.context.annotation.ConflictingBeanDefinitionException:Annotation-specifiedb
基于Blackwell架构的GPU，用七十二个GPU拼接成性能强大的计算集群，其性能比上一代提升三倍，GPU已成为AI时代的基础设施，可实现各种大模型的训练百态老人架构人工智能
英伟达在2024年3月发布了基于Blackwell架构的GPU，这一新一代GPU在性能上相比上一代Hopper架构有显著提升。具体来说，Blackwell架构的GPU拥有2080亿个晶体管，采用台积电4纳米工艺制造，其AI性能达到了20petaflops，是前代H100GPU的五倍。Blackwell架构通过多芯片封装技术（MCM），将两个GPU集成在一起，从而解决了内存局部性和缓存问题，提高了计
2025（第十五届）中国互联网产业年会/AI重新定义互联网东锋1.3 互联网人工智能
近日，2025（第十五届）中国互联网产业年会在北京举办，中国工程院院士、中国工程院原副院长邬贺铨在会上作了题为《以AI重新定义互联网》的主旨报告。邬贺铨院士表示，互联网在过去几十年经历了巨大变革。展望未来，互联网将继续在数字化、智能化方向上深入发展，推动更广泛的社会变革。未来十年，我们将进入“数智（新质）互联网”阶段，其核心特征是基础协议采用IPv6+，人机接口将以自然语言为主，不再依赖于点击AP
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
微信小程序web-view嵌入h5页面，分享当前页木本心声微信小程序微信小程序
①index.wxml为web-view标签添加bindload事件web-viewbindload|微信开放文档②index.js页面加载成功时会触发bindload事件绑定的方法此方法可以获取当前页面的地址getCurUrl(e){varshareUrl=e.detail.src;this.setData({shareUrl:shareUrl,})},③index.js把地址赋值给变量shar
探索 Laravel DDD 的新境界：一个实用的实现框架曹俐莉
探索LaravelDDD的新境界：一个实用的实现框架去发现同类优质开源项目:https://gitcode.com/在这个快速发展的软件开发领域中，保持代码的清晰性和可维护性至关重要。这就是为什么Domain-DrivenDesign（DDD）和CleanArchitecture等设计原则变得越来越受欢迎的原因。今天，我们向您推荐一款基于Laravel10的优秀开源项目——一个全新的领域驱动设计实
使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
使用PyTorch实现逻辑回归：从训练到模型保存与加载 Luzem0319 pytorch 逻辑回归人工智能
1.引入必要的库首先，需要引入必要的库。PyTorch用于构建和训练模型，pandas和numpy用于数据处理，matplotlib用于结果的可视化。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,TensorDatasetimportpandasaspdimport
AI如何帮助解决生活中的琐碎难题？ HUIBUR科技人工智能
引言：AI已经融入我们的日常生活你有没有遇到过这样的情况——早上匆忙出门却忘了带钥匙，到了公司才想起昨天的会议资料没有打印，或者下班回家还在纠结晚饭吃什么？这些看似微不足道的小事，往往让人疲惫不堪。而如今，人工智能（AI）的出现，正在悄然改变这一切。从语音助手到智能家居，从健康管理到购物推荐，AI正在帮助人们处理生活中的琐碎事务，让每一天变得更高效、更轻松。只需要动动嘴或者点一点手机，就能完成过去
DeepSeek是由杭州深度求索人工智能基础技术研究有限公司（简称“深度求索”）发布的一系列人工智能模型大霸王龙人工智能
DeepSeek是由杭州深度求索人工智能基础技术研究有限公司（简称“深度求索”）发布的一系列人工智能模型，其在知识类任务上展现出了卓越的性能。以下是对DeepSeek的详细介绍，内容虽无法达到10000字，但会尽可能全面且深入地解析其各个方面。一、公司背景与核心理念DeepSeek的母公司深度求索由幻方量化在2023年4月创立。幻方量化是国内量化私募领域的巨头之一，管理规模庞大。DeepSeek的
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
华为云 oracle rac 稳定性,Oracle 11g RAC之HAIP相关问题总结安幕华为云 oracle rac 稳定性
1文档概要环境：RHEL6.4+GI11.2.0.4+Oracle11.2.0.4对有关HAIP相关问题的总结，包括禁用／启用HAIP，修改ASM资源的依赖关系，修改cluster_interconnects参数等。2禁用／启用HAIP2.1禁用／启用HAIP资源禁用HAIP资源：root用户执行@allnodes#/opt/app/11.2.0/grid/bin/crsctlmodifyreso
算法刷题Day1 SchrodingerSDOG 看能坚持多久系列算法 python
BM47寻找第k大第一天就随便记录吧，万事开头难，我好不容易开的头，就别难为自己，去追求高质量了。嘿嘿嘿题目传送门解题思路一：维护一个大小为k的最小堆。最后返回堆顶元素。代码：##代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方法规定的值即可###@paramaint整型一维数组#@paramnint整型#@paramKint整型#@returnint整型#fromheapqimport
探索前端的未来：深度使用 SolidJS 构建高性能用户界面桂月二二前端 ui
SolidJS是近年来前端开发领域的一颗新星，它结合了React的思维模式和Vue的性能优势，提供了一种高效且轻量的框架解决方案。本文将带你深入了解SolidJS的实际使用，并探索如何利用其核心特性构建现代化的高性能应用。为什么选择SolidJS？相比于其他框架，SolidJS有以下独特优势：超高性能：基于fine-grainedreactivity（细粒度反应性）机制，仅更新必要的DOM节点。零
LangGraph系列-1：用LangGraph构建简单聊天机器人梦想画家机器学习 LangGraph LangChain
在快速发展的人工智能和大型语言模型（llm）世界中，开发人员不断寻求创建更灵活、更强大、更直观的人工智能代理的方法。虽然LangChain已经改变了这个领域的游戏规则，允许创建复杂的链和代理，但对代理运行时的更复杂控制的需求也在不断增长。LangGraph是建立在LangChain之上的重要模块，它将彻底改变我们设计和实施人工智能工作流的方式。在这篇博客中，我们提供了一个关于构建聊天机器人和彻底改
探索Bunshi：轻量级状态管理的新选择虞旋律
探索Bunshi：轻量级状态管理的新选择bunshiMoleculepatternforjotai,valtio,zustand,nanostores,xstate,reactandvue项目地址:https://gitcode.com/gh_mirrors/bu/bunshi项目介绍Bunshi（原名jotai-molecules）是一款轻量级、快速且无依赖的状态管理库，体积仅为3KB。它允许开
java爬虫jsoup_Java爬虫框架Jsoup学习记录 weixin_33638349
Jsoup的作用当你想获得某网页的内容，可以使用此框架做个爬虫程序，爬某图片网站的图片(先获得图片地址，之后再借助其他工具下载图片)或者是小说网站的小说内容我使用Jsoup写出的一款小说下载器，小说下载器Jsoup导入1.使用gradle导入compile'org.jsoup:jsoup:1.11.1'2.第三方包导入Jsoup使用1.获得Document本地html文件或者使用javaIO流，则
Python with语句 Stephen102 Python python
8##With语句是什么？Python’swithstatementprovidesaveryconvenientwayofdealingwiththesituationwhereyouhavetodoasetupandteardowntomakesomethinghappen.Averygoodexampleforthisisthesituationwhereyouwanttogainahand
Spring Boot 打包报错Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0 旭东怪 Spring Boot spring boot apache maven
问题描述：[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-resources-plugin:3.2.0:resources(default-resources)onprojecthelloworld:Inputlength=1->[Help1]问题分析：1、plugins标签里面缺少maven-resources-plugin依赖。
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
ChatGPT：OpenAI SDK 是什么？ XRT_knives #知识图谱 chatgpt openai
ChatGPT：OpenAISDK是什么？OpenAISDK是OpenAI提供的软件开发工具包（SoftwareDevelopmentKit），用于简化与OpenAIAPI的交互。SDK提供了高层次的接口，使得开发者可以更容易地在应用程序中集成OpenAI的语言模型和其他功能。具体来说，OpenAISDK主要有以下几个作用：简化API调用：SDK封装了底层的API调用细节，提供了更简洁、易用的接口
2178: 【递归】n个数的全排列 (❁´◡`❁)Jimmy(❁´◡`❁) #oj题解算法数据结构
题目描述从键盘读入n个整数（每个数都是1~9之间的数），输出这n个整数的全排列（数字不能重复）。输入第1行输入一个整数n（1#include#includeusingnamespacestd;intarr[12]={0};signedmain(){intn;cin>>n;for(inti=0;i>arr[i];sort(arr,arr+n);//求出最小排列do{for(inti=0;i
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite