JasonLiu1919

文献阅读笔记：XLNet: Generalized Autoregressive Pretraining for Language Understanding

0.背景

机构：谷歌大脑、CMU
作者：Zhilin Yang、Zihang Dai
发布地方：arxiv
面向任务：Language Understanding
论文地址：https://arxiv.org/abs/1904.09482
论文代码：https://github.com/zihangdai/xlnet

0-1. 摘要

由于上下文双向建模的表达能力更强，降噪自编码类型中的典型代表BERT能够比自回归语言模型取得更好的结果。即，上下文建模获得双向的信息在Language Understanding中是很重要的。但是BERT存在以下不足：
(1)在输入端依赖mask的掩模的方式，遮蔽部分的输入信息
(2)忽略了被mask位置之间的依赖性
这两点在预训练-微调两个阶段存在不符。即，上述2个方面在预训练和微调这2个阶段之间都是有差异的。
在正视了上述优缺点之后，本文提出一种通用（或者广义，英语原文是generalized）的自回归预训练方法：XLNet。XLNet的贡献在于
(1)新的双向上下文学习方法：分解输入的顺序，对其进行排列组合，并遍历所有的排列组合，获得最大似然期望。
(2)克服BERT自回归中的缺陷
XLNet在预训练中融合Transformer-XL和state-of-the-art自回归模型的优点。实验结果：XLNet在20个任务中超出了BERT，且很多是碾压式地超越。XLNet在其中18个任务中取得了目前最优结果，包括问答、自然语言推理、情感分析和文档排序。

1. 介绍

预训练+微调的NLP处理方案日渐成为主流，其中预训练阶段根据预训练目标的不同可以分为2种：自回归的语言模型（autoregressive,AR）和自动编码（autoencoding，AE）模型。
AR语言模型就是我们常见的语言模型，采用自回归模型估计一个文本语料的概率分布。其中包括从左到右的文本序列的条件概率和从右往左的序列条件概率。由此可以看出AR模型对于文本都是进行单向编码的，要么是从左往右，要么从右往左，这不能有效地对深层双向上下文进行建模。而下游的language understanding 任务常常需要双向的上下文信息。

基于AE的预训练方法没有进行明确的密度估计，而是致力于从corrupted input中重建出原始的输入数据。其中一个显著的代表是BERT，BERT采用特定标识符[MASK]将输入的token序列进行特定的遮蔽操作。再训练模型从被遮蔽的输入序列(corrupted data)中恢复出原始的tokens。由于其目标不是进行密度估计，所以BERT可以利用文本的双向上下文信息进行输入的重建。这就弥补了上述AR语言建模中的双向信息鸿沟。从而提升结果性能指标。但是在BERT的预训练阶段中人为设定符号[MASK]，会使其与真实场景中的微调数据存在出入。导致预训练-微调的不一致。此外，由于预测的token是输入中被masked的token，BERT不能够像AR语言模型中使用点乘的联合概率。换一句话说，BERT假设待预测的tokens之间是相互独立的，这被过于简化为自然语言中普遍存在的高阶、长程依赖关系。

本文提出的XLNet是一种通用的自回归方法，该方法充分利用了AR语言建模和AE的优点，同时避免了它们的局限性。

不再如传统AR模型中那般使用前向或者反向的固定次序作为输入，XLNet最大化输入序列的全部排序组合的似然期望。由于采用排序组合的方式，每个位置的上下文可以由来自左边和右边的token组成。在期望中，每个位置都要学会利用来自所有位置的上下文信息，即，捕获双向上下文信息。
作为一个通用的AR语言模型，XLNet不再使用data corruption,即不再使用特定标识符号[MASK]。因此也就不存在BERT中的预训练和微调的不一致性。同时，自回归在分解预测tokens的联合概率时候天然地使用乘法法则，这消除了BERT中的独立性假设。

除了提出一个新的预训练目标，XLNet还改善了预训练的框架设计：

受AR语言模型的最新进展启发，XLNet在预训练中借鉴了Transformer-XL中的segment recurrence机制和的相对编码方案。其性能提升在长文本序列上尤为显著。
在基于排列组合的语言建模中单纯地使用Transformer-XL框架是无法工作的，这是由于分解后次序是任意的，而target是不明确的。所以，本文提出采用重置Transformer-XL网络（reparameterize the Transformer(-XL) network）以消除上述的不确定性。

相关工作：
排序组合的自回归模型先哲们已经提出[32,11]，本文所不同的在以下几点：
(1)此前的模型是无序的，但是XLNet本质上是有序的，因为其带有位置编码信息。这对于语言理解是至关重要的，否则无序模型直接退化为词袋模型，从而缺乏基本的表达能力。
(2)动机不同。之前的模型致力于通过在模型中引入“无序”诱导偏差来改进密度估计。但是XLNet的动机是使得自回归语言模型能够习得双向的上下文信息。

2. 方法

2.1 背景

先对比传统的自回归语言模型和BERT。对于给定的文本序列 $x=[x_1,...,x_T]$ ，AR语言模型：
$\max_{\theta} \log p_{\theta}(\mathbf{x})=\sum_{t=1}^{T}\log p_{\theta}(x_{t} | \mathbf{x}_{<t}) =\sum_{t=1}^{T} \log \frac{\exp (h_{\theta}(\mathbf{x}_{1 : t-1})^{\top} e(x_{t}))}{\sum_{x^{\prime}} \exp (h_{\theta}(\mathbf{x}_{1 : t-1})^{\top} e(x^{\prime}))} \tag{1}$
其中 $h$ 是神经网络模型所产生的上下文表征，如RNN或者Transformers。 $e (x)$ 表示 $x$ 的词嵌入。
BERT是基于降噪自编码，对于一个输入 $x$ ，先在一定位置（比如15%）随机地用特定符号[MASK]替代原始tokens，从而得到corrupted version的输入 $\hat{x}$ 。被遮蔽掉的tokens记为 $\overline{x}$ ，训练的目标是从 $\hat{x}$ 重建出 $\overline{x}$ ：
$\max _{\theta} \log p_{\theta}(\overline{\mathbf{x}} | \hat{\mathbf{x}}) \approx \sum_{t=1}^{T} m_{t} \log p_{\theta}(x_{t} | \hat{\mathbf{x}})=\sum_{t=1}^{T} m_{t} \log \frac{\exp(H_{\theta}(\hat{\mathbf{x}})_{t}^{\top} e(x_{t}))}{\sum_{x^{\prime}}\exp(H_{\theta}(\hat{\mathbf{x}})_{t}^{\top} e(x^{\prime}))} \tag{2}$

其中 $m_t=1$ 表示 $x_t$ 被masked， $H_\theta$ 表示将长度为T的文本序列通过Transformer映射为特征向量： $H_{\theta}(\mathbf{x})=\left[H_{\theta}(\mathbf{x})_{1}, H_{\theta}(\mathbf{x})_{2}, \cdots, H_{\theta}(\mathbf{x})_{T}\right]$ 。上述两种预训练目标的优缺点对比如下：

独立性假设：注意上述方程(2)中采用的是约等号。BERT假设所有被masked tokens之间是独立的，可以分别独立地重建，据此将条件概率 $p(\overline{x}|\hat{x})$ 进行分解。自回归语言模型的目标分解 $p_\theta(x)$ 则是采用乘法法则。这在没有独立假设的情况下普遍成立。
输入干扰：BERT的输入包含人为设定的符号如[MASK]，而这些符号在真实的下游任务中是不会出现的。这就使得预训练与微调这两个阶段存在不一致。BERT的原始论文也没有解决该问题，原始的tokens只会以一个很小的概率被使用到，否则方程(2)的优化将微不足道。相比较而言，自回归语言模型不依赖于任何输入上的corruption，自然也就不存在预训练和微调不一致的问题。
上下文依赖：自回归模型对于t位置的预测仅仅依赖于t-1位置之前的资讯(从左到右)。但是BERT可以从双向获得表征信息。所以，BERT可以使得模在预训练阶段型捕获到双向的上下文信息。

2.2 目标：排列组合语言模型

对比上述的2种预训练目标，那么是否存在一种预训练目标包含上述二者的优点，且能够避免其不足？受无序NADE[32]的想法的启发，本文提出一个排列组合语言模型，该模型能够保留自回归模型的优点，同时能够捕获双向的上下文信息。一个长度为T的序列，其排序组合为T!直观上，如果所有排列组合次序的参数共享，那么模型应该会从左右两个方向的所有位置收集到信息。

假设 $Z_T$ 表示长度为T序列的所有可能的排序组合。本文提出的排列组合语言模型的目标是：
$\max _{\theta} \quad \mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_{T}}\left[\sum_{t=1}^{T} \log p_{\theta}\left(x_{z_{t}} | \mathbf{x}_{\mathbf{z}_{<t}}\right)\right] \tag{3}$
如此 $x_t$ 可以看到其他所有位置的信息，即可以捕获双向的上下文信息。在自回归模型中引入该目标，则可以避免独立性假设和预训练-微调不一致问题。

Remark on Permutation：
所提出的目标仅仅排列分解的次序，而不是序列的顺序。换一句话说，我们依然保持序列的原始顺序不变，而采用与原始序列对应的位置编码，再在Transformer中采用一个attention mask以获得分解次序（factorization order）的排列组合。注意：这个选择是必要的，因为模型只会在finetuning过程中遇到具有自然顺序的文本序列。

Figure1为一个例子，其中token $x_3$ 是待预测的，对于输入序列x的不同排列组合：

第1种，3->2->4->1。3的前面是mem。
第2种，2->4->3->1。3的前面是2和4，此外还有mem。所以只需要对这些进行attention即可。其他的排序组合同理。
如果将1，2，3，4打乱为3->2->4->1，再采用自回归模型的话，则优化的似然函数为：
$P(x)=P(x_1|x_3,x_2,x_4) \times P(x_4|x_3,x_2) \times P(x_2|x_3) \times P(x_3)$
由于是多种排序组合的模型参数共享，所以模型最终可以学习到所有位置的信息。

2.3 架构：基于双流自注意力机制的Target-Aware Representations

由于排序组合语言模型目标有其期望的性质，如果单纯地使用标准Transformer进行参数化可能是无法工作的。假设参数化下一个token的分布为 $p_{\theta}\left(X_{z_{t}} | \mathbf{x}_{\mathbf{z}_{<t}}\right)$ ，当使用标准softmax的话，则结果为： $p_{\theta}(X_{z_{t}}=x | \mathbf{x}_{\mathbf{z}<t} )=\frac{\exp \left(e(x)^{\top} h_{\theta}\left(\mathbf{x}_{z}<t\right)\right)}{\sum_{x^{\prime}} \exp \left(e\left(x^{\prime}\right)^{\top} h_{\theta}\left(\mathbf{x}_{z}<t\right)\right)}$ ，其中 $h_{\theta}\left(\mathbf{x}_{\mathbf{z}<t}\right)$ 表示 $\mathbf{X}_{\mathbf{Z}<t}$ 的隐含表征，该隐含表征是共享的Transformer网络在使用合适的masking之后生成的。注意： $h_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}\right)$ 并不依赖于位置信息，即 $z_{t}$ 。因此，无视target的位置信息，对于相同的分布进行预测是难以学习到有用的表征的(具体参考附录A中的实例)。为避免这个问题，本文提出一个考虑target位置信息的重置参数的next token分布：
$p_{\theta}\left(X_{z_{t}}=x | \mathbf{x}_{z_{<t}}\right)=\frac{\exp \left(e(x)^{\top} g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)\right)}{\sum_{x^{\prime}} \exp \left(e\left(x^{\prime}\right)^{\top} g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)\right)} \tag{4}$
其中 $g_{\theta}\left(\mathbf{x}_{\mathbf{z}<t}, z_{t}\right)$ 表示新的参数化形式，可以看出该参数化形式考虑进了位置信息 $z_t$ 。

这里进一步解释下。比如上面打乱顺序后有一个很大的问题，比如将1，2，3，4打乱为3->2->4->1。就是在预测第三个x的时候模型预测的是 $P(x_4|x_3,x_2)$ ，如果把排列方式换成3->2->1->4，则应该预测 $P(x_1|x_3,x_2)$ ，但模型不知道当前要预测的是哪一个。所以说要加入位置信息，即 $P(x_4|x_3,x_2,4)$ 和 $P(x_1|x_3,x_2,1)$ ，让模型知道目前是预测哪个位置的token。具体的例子可以参考附录A。

双流注意力：
那下一个问题又来了，传统的attention只带有token编码，位置信息都在编码里了，而自回归目标是不允许模型看到当前token编码的，因此要把position embedding拆出来。怎么拆呢？本文就提出了Two-Stream Self-Attention。

虽然上述的target-ware representations可以弥补target预测时候的不确定，但是如何构造 $g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)$ 仍然是一个问题。本文提出固定target位置 $z_t$ ，并通过attention收集位置 $z_t$ 的上下文 $\mathbf{X}_{\mathbf{z}_{<t}}$ 信息。为了使得上述的参数化可以工作，标准 Transformer架构存在两个互相矛盾地方：
(1)预测 token $x_{z_t}$ 时， $g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)$ 应该仅使用位置 $z_t$ 而不是内容 $x_{z_t}$ ，不然该目标函数就变得不重要了。
(2)为了预测另一个 token $x_{z_j}$ ，其中 j>t， $g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)$ 应该编码内容 $x_{z<t}$ ，以提供完整的上下文信息。为了解决这一矛盾，本文提出使用两个隐藏表征，而不是只用其中一个，即双流注意力机制。

content representation(内容表征) $g_{\theta}\left(\mathbf{x}_{\mathbf{z}_{<t}}, z_{t}\right)$ ，或者简写为 $h_{z_t}$ ，该表征与标准的Transformer是一致的。该内容表征同时编码了上下文和 $x_{z_t}$ 本身。
query representation(查询表征) $g_{\theta}(x_{z<t},z_t)$ ，简写为 $g_{z_t}$ 。该表征仅仅接收上下文信息 $x_{z<t}$ 和位置信息 $z_t$ ，并不直接访问位置 $z_t$ 对应的内容信息 $x_{z_t}$ 。

从计算上来讲，第一层的query stream以一个可训练的向量来初始化，即 $g_{i}^{(0)}=w$ ；content stream则是被初始化为word embedding，即 $h_{i}^{(0)}=e(x_i)$ 。对每个自注意力层 $m = 1, . . ., M$ ，这两个stream表征按照以下的方式进行更新：

Query stream：只能看到当前的位置信息，不能看到当前token的编码 $x_{z_t}$
$g_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=g_{z_{t}}^{(m-1)}, \mathrm{KV}=\mathrm{h}_{z_{<t}}^{(m-1)} ; \theta\right)$
Content stream(内容流自注意力)：传统self-attention，像GPT一样对当前token进行编码。同时可以看到位置 $z_t$ 和编码内容 $x_{z_t}$
$h_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=h_{z_{t}}^{(m-1)}, \mathrm{KV}=\mathrm{h}_{z \leq t}^{(m-1)} ; \theta\right)$

其中的Q,K,V分别表示query,key和value。上述Content stream更新规则与标准的self-attention是相同的。预训练阶段最终预测只使用query stream，因为content stream已经见过当前token了。在微调阶段丢弃query steam，仅仅使用content stream(此时就是常规的Transformer-XL)，又回到了传统的self-attention结构。

Figure 2 的 a、b子图分别展示上述两种表征即Content表征 $h_{z_t}$ 和 Query 表征 $g_{z_t}$ 的学习。其中Content表征与Transformer的隐藏状态类似，它将同时编码输入本身的内容及上下文信息。Query 表征仅能获取上下文信息及当前的位置，它并不能获取当前位置的Content。

图 2:(a) 内容流注意力，与标准自注意力相同；(b)Query 流注意力，没有获取内容 $x_{z_t}$ 的信息；©利用双流注意力的排列语言建模概览图。

部分预测：
虽然排列组合的自然语言目标有上述的优点，但是其排序组合所带来更具挑战的优化问题，实验收敛缓慢。因此本文提出了partial prediction进行简化，即只预测后面1/K个token，其中K是超参数。在形式上，将 $z$ 分割成none-target子序列 $z_{<=c}$ 和target子序列 $z_{>c}$ ，其中 $c$ 是切割点。其目标是最大化条件概率 $log(p_\theta(x_{z>c}|x_{z<=c}))$ ，即在none-target子序列下target子序列的最大log似然函数：
$\max _{\theta} \mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_{T}}\left[\log p_{\theta}\left(\mathbf{x}_{\mathbf{z}_{>c}} | \mathbf{x}_{\mathbf{z}_{ \leq c}}\right)\right]=\mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_{T}}\left[\sum_{t=c+1}^{|\mathbf{z}|} \log p_{\theta}\left(x_{z_{t}} | \mathbf{x}_{\mathbf{z}_{<t}}\right)\right] \tag{5}$
其中 $\mathbf{z}_>c$ 表示target，由于其在当前的排列组合 $\mathbf z$ 的序列中拥有最长的上下文。用超参数 $K$ 设置被预测的token个数为 $1 / K$ ，即 $|\mathbf{z}| /(|\mathbf{z}|-c) \approx K$ 。对于没有被选中的额tokens，其query 表征就不需要计算了，同时节约了计算时间和内存空间。

2.4 Transformer-XL中的启发

到此，本文的目标函数可以和自回归框架相适应，那么本文进一步引入先进的自回归模型Transformer-XL（该工作也是作者此前的做出的）到预训练框架中。主要是为了学习到更长距离的信息。本文主要引入Transformer-XL中的2个技术：
(1)相对位置编码。这就是之前讨论的基于原始前向序列的。
(2)segment recurrence mechanism(段循环机制？？这样翻译吗？)。那么是如何将其引入排列组合模型，并使其能够复用历史片段的隐含状态。为了不失一般性，假设来自一个长序列 $s$ 的两个segments： $\widetilde{x}=s_{1:T}$ ， $x=s_{T+1 : 2T}$ 。让 $\widetilde{z}$ 和 $z$ 分别表示 $[1, . . ., T]$ 和 $[T + 1, . . ., 2 T]$ 的排列组合结果。基于 $\widetilde{z}$ 的排序组合，我们可以处理第一个segment，再对于每一层m，缓存所获得的content 表征 $\widetilde{h}^{(m)}$ 。对于下一个segment $x$ ，带有memory的attention可以通过以下进行更新：
$h_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=h_{z_{t}}^{(m-1)}, \mathrm{KV}=\left[\tilde{\mathbf{h}}^{(m-1)}, \mathbf{h}_{\mathbf{z}_{ \leq t}}^{(m-1)}\right] ; \theta\right)$
其中 $[. ., . .]$ 表示沿着序列方向的拼接。注意：位置编码仅仅依赖于原始序列中的真实位置。因此，上述的attention 更新，只要计算出 $\widetilde{h}^{(m)}$ ，则与 $\widetilde{z}$ 无关。这使得缓存并复用memory，而无需知晓先前segment的分解次序。我们所期望的是，该模型能够学习如何利用上一个segment的所有分解次序的memory。query stream也能够通过类似的方法计算得到。

2.5 Modeling Multiple Segments

上文一直阐述XLNet如何处理一个输入序列，但是下游任务可能存在多个输入segments，比如问答中的问题和上下文段落。这里主要讨论在自回归框架中如何预训练XLNet以处理多个segments的输入。与BERT类似，在预训练阶段，我们随机地采样2个segments(可以来自同一个content也可以不同)，并将2者拼接为一个序列，输入到排序组合语言模型中。我们只复用属于同一个上下文context的memory。排列组合模型的输入与BERT类似：[A，SEP，B，SEP，CLS]。其中SEP与CLS是人为预设的特殊字符，A和B表示2个segments。本文采用类似BERT的双segments的形式作为输入，那么XLNet是否也可以引入BERT中的下一句预测的优化目标呢？在BERT还有一个Next Sentence Prediction的优化目标，有助于finetune阶段直接适应各种类型的下游任务。XLNet也可以使用这种结构，只不过最后的消融研究结论是下一句预测任务对XLNet没什么帮助。

Relative Segment Encoding：
不同于BERT中采用的绝对segment编码方式，本文的XLNet提出了Relative Segment Encoding。BERT是在将每个位置的绝对segment编码加到word embedding中；A、B句，每个句子有个segment embedding。XLNet借鉴了Transformer-XL中的relative position的思想，并将其引入到segment encoding中。对于序列，给定其中的位置i和位置j，如果i和j来自于同一个segment，则使segment encoding $s_{ij}=s_+$ ，否则 $s_{ij}=s_-$ ，其中 $s_+和s_-$ 都是需要针对每个之前的attention训练而得到的参数。换一句说，只判断两个token是否在一个segment中，而不是判断他们各自属于哪个segment。当i需要注意到j时，则利用segment encoding $s_{ij}$ 计算attention 权重 $a_{i j}=\left(\mathbf{q}_{i}+\mathbf{b}\right)^{\top} \mathbf{s}_{i j}$ ，其中 $q_i$ 是标准attention操作中的query vector， $b$ 是待学习的head-specific bias vector。最后，将 $a_{ij}$ 加到常规的attention 权重。简单说，是在计算attention weight的时候，给query额外操作一波，算出一个额外的权重加到原本的权重上去，跟relative positional encoding差不多。
这样做有2点好处，其一是相对位置的encoding能够提升归纳偏置的通用性；其二是为处理下游任务有多个输入segments的场景提供了解决方案，而这在使用绝对segment encoding是做不到的。BERT中的方案最多只能处理两个segments。

2.6 讨论和分析

2.6.1 与BERT的对比

对比方程（2）和方程（5）可以看出BERT和XLNet都进行部分预测，即仅仅预测序列中的部分子集，这也是为了降低优化难度。但是，。对于BERT来说，独立性假设使其不能够在targets之间的依存关系上建模。
以[New, York, is, a, city]为例来说，假设BERT和XLNet都选择2个token:[New, York]作为待预测的tokens，并最大化 $\log p(\text { New York } | \text { is a city })$ 。同时假设XLNet采样的分解次序是 $[i s, a, c i t y, N e w, Y o r k]$ ，BERT和XLNet的目标分别如下：
$\begin{array}{c}{\mathcal{J}_{\mathrm{BERT}}=\log p(\mathrm{New} | \text { is a city })+\log p(\text { York } | \text { is a city })} \\ {\mathcal{J}_{\text { XLNet }}=\log p(\mathrm{New} | \text { is a city })+\log p(\text { York } | \mathrm{New}, \text { is a city })}\end{array}$
可以注意到XLNet是可以捕捉到 $(N e w, Y o r k)$ 对之间的依赖关系，这在BERT中是被忽略的。尽管BERT也是由学校部分依赖关系，如 $(N e w, c i t y)$ 和 $(Y o r k ， c i t y)$ ，但是显然在给定相同target和XLNet学得的依赖关系对更多,也就包含更多更密集的有效训练信息。

2.6.2 对比语言模型

标准的自回归语言模型如GPT只能够覆盖一部分依赖关系如(x=York,u=New)，其中u表示上下文；而无法覆盖到（x=New,u=York）；而XLNet是可以的，不仅可以，还可以覆盖到所有的排列组合。由此可见自回归模型的短板明显。比如问答任务中的上下文内容是“Thom Yorke is the singer of Radiohead”，问题是“Who is the singer of Radiohead”，对其进行span预测来作为答案。在自回归语言模型中“Thom Yorke”并不依赖于“Radiohead”，因此在标准语言模型中“Thom Yorke”并不会被选为答案。标准的语言模型一般是使用将所有token的representations输入到softmax中。

ELMo则是简单将前向和反向的语言模型拼接，这仅仅浅层的特征拼接，缺乏双向的深度互动建模。
XLNet与其他语言模型的对比结果如下：

3.实验结果

结果确实提升很大，具体参考原文，这里就不细说了。

4.结论

XLNet提出了一个通用的自回归预训练方法，该方法综合了自回归方法和自编码器方法提出了一种排列组合语言模型目标。XLNet的网络框架可以无缝地在自回归目标上工作，包括集成的Transformer-XL和双流注意力机制。XLNet在多个task上取得了实质性进展，并刷新多项记录。

5.附录：基于双向流自注意力的Target-Aware Representation

5.1 标准语言模型参数化为何会失败的实例

举例说明在排列组合目标下，标准语言模型参数化为何会失败。假设有2个排列组合 $\mathbf{z}^{(1)}$ 和 $\mathbf{z}^{(2)}$ ，二者满足以下关系：
$\mathbf{z}_{<t}^{(1)}=\mathbf{z}_{<t}^{(2)}=\mathbf{z}_{<t} \quad \text { but } \quad z_{t}^{(1)}=i \neq j=z_{t}^{(2)}$
可以看出，在 $t$ 位置之前的子序列是相同的，但是在 $i$ 和 $j$ 位置不同。
用这2种组合分别替代原始的参数。可以得到：
$\underbrace{p_{\theta}\left(X_{i}=x | \mathbf{x}_{\mathbf{z}_{<} t}\right)}_{z_{t}^{(1)}=i, \mathbf{z}_{<t}^{(1)}=\mathbf{z}_{<t}}=\underbrace{p_{\theta}\left(X_{j}=x | \mathbf{x}_{\mathbf{z}_{<t}}\right)}_{\boldsymbol{z}_{t}^{(1)}=j, \mathbf{z}_{<t}^{(2)}=\mathbf{z}_{<t}}=\frac{\exp \left(e(x)^{\top} h\left(\mathbf{x}_{\mathbf{z}_{<t}}\right)\right)}{\sum_{x^{\prime}} \exp \left(e\left(x^{\prime}\right)^{\top} h\left(\mathbf{x}_{\mathbf{z}_{<t}}\right)\right)}$
实际上，不同的target位置 $i$ 和 $j$ 完全共享共享的预测，但是这2个位置的真实分布应该是不同的。

5.2 双流注意力

这里提供Transformer-XL中双流注意力的细节。初始化representation：
$\forall t=1, \ldots, T : \quad h_{t}=e\left(x_{t}\right) \quad \text { and } \quad g_{t}=w$
从历史segment缓存得到第m层 content representation(memory)： $\tilde{\mathbf{h}}(m)$ 。
对于Transformer-XL中的每一层 $m = 1, . ., M$ ，相对位置的encoding和position-wise feed-forward相继用以更新representations：
$\forall t=1, \ldots, T :$
$\begin{array}{l}{\hat{h}_{z_{t}}^{(m)}=\text { LayerNorm }\left(h_{z_{t}}^{(m-1)}+\operatorname{RelAtn}\left(h_{z_{t}}^{(m-1)},\left[\tilde{\mathbf{h}}^{(m-1)}, \mathbf{h}_{\mathbf{z} \leq t}^{(m-1)}\right]\right)\right)} \\ {h_{z_{t}}^{(m)}=\text { LayerNorm }\left(\hat{h}_{z_{t}}^{(m)}+\operatorname{PosFF}\left(\hat{h}_{z_{t}}^{(m)}\right)\right)} \\ {\hat{g}_{z_{t}}^{(m)}=\text { LayerNorm }\left(g_{z_{t}}^{(m-1)}+\operatorname{RelAtn}\left(g_{z_{t}}^{(m-1)},\left[\tilde{\mathbf{h}}^{(m-1)}, \mathbf{h}_{z_{ \leq t}}^{(m-1)}\right]\right)\right)} \\ {g_{z_{t}}^{(m)}=\text { LayerNorm }\left(\hat{g}_{z_{t}}^{(m)}+\operatorname{PosFF}\left(\hat{g}_{z_{t}}^{(m)}\right)\right)}\end{array}$
Target-aware预测分布：
$p_{\theta}\left(X_{z_{t}}=x | \mathbf{x}_{z_{<t}}\right)=\frac{\exp \left(e(x)^{\top} g_{z_{t}}^{(M)}\right)}{\sum_{x^{\prime}} \exp \left(e\left(x^{\prime}\right)^{\top} g_{z_{t}}^{(M)}\right)}$

5.3 超参数

略

5.4 memory和排列组合的图文说明

这里以图文形式进一步介绍排列组合语言模型的建模目标，包括memory复用机制(即，recurrence mechanism)、如何在排列组合的分解序列中使用attention masks以及两种attention streams。具体如Figure3和4所示：
对于给定当前位置 $z_t$ ；其attention mask是由其排列组合结果 $\mathbf z$ 决定的，attention mask是用以决定只有在 $z_t$ 之前组合序列才会被attented到，即 $z_i，i<t$ 。这也是自回归语言模型的操作。对比Figure 3和4，可以看到在给定一个排列组合后，利用attention masks，query stream和 content stream的不同工作过程。主要的不同在于：query stream不能够进行self-attention，也不能够看自己的位置的编码内容，而仅仅有位置信息；但是content stream却是多可以，即content stream是正常的self-attention。
下面2图，可以好好详细地多看几遍：
Content stream：

Query stream：

你可能感兴趣的:(深度学习,deep-learning,NLP,语言模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
【有啥问啥】刷爆各大榜单的Reflection 70B模型背后的错误自我纠正（Reflection-Tuning）技术解析：一种革新AI模型的方法 Chauvin912 大模型行业调研人工智能算法
刷爆各大榜单的Reflection70B模型背后的错误自我纠正（Reflection-Tuning）技术解析：一种革新AI模型的方法在快速发展的AI领域，尤其是大型语言模型（LLM）的竞争中，错误自我纠正技术（Reflection-Tuning）正逐步成为提升模型性能的关键突破。该技术通过赋予模型自我检测和纠正错误的能力，显著提高了输出的准确性和可靠性。本文将深入解析Reflection-Tunn
HALTT4LLM：大型语言模型的幻觉检测指标谢忻含Norma
HALTT4LLM：大型语言模型的幻觉检测指标haltt4llmThisprojectisanattempttocreateacommonmetrictotestLLM'sforprogressineliminatinghallucinationswhichisthemostseriouscurrentprobleminwidespreadadoptionofLLM'sformanyrealpur
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用You.com API进行LLM输出的事实性增强 aehrutktrjk python 开发语言
使用You.comAPI进行LLM输出的事实性增强引言大型语言模型(LLM)在生成人类可读的文本方面表现出色,但它们可能会产生过时或不准确的信息。You.comAPI是一套工具,旨在帮助开发者将LLM的输出与最新、最准确、最相关的信息相结合,这些信息可能不包含在LLM的训练数据集中。本文将介绍如何使用You.comAPI来增强LLM的输出,提高其事实性和时效性。You.comAPI的设置和使用安装
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，