zenRRan

【工大SCIR笔记】浅谈Transformer模型中的位置表示

作者：哈工大SCIR 徐啸

0. 何为位置信息

首先简单谈一下位置信息。一般将位置信息简单分为绝对位置信息和相对位置信息，并且前者对句子语义的影响不大，更为重要的是后者。

以情感分析 (Sentiment Analysis) 为例：

I like that you don’t have a lot of money. [Positive]
I don’t like you because you have a lot of money. [Negative]

don’t 与 like 的相对位置不同（包括相对距离不同和方向不同），决定了这两句话的情感取向是一正一负的，可见单词的相对位置对语义有关键性影响。不过，在传统词袋（Bag-Of-Words, BOW）模型中，这两句话得到的句子表征却是一致的。

再以命名实体识别 (Named Entity Recognition, NER) 为例[4]：

图1 命名实体识别示例

一般而言，在 Inc. 之前的单词为ORG ，而在 in 之后为 TIME 或 LOC 。但是同为 Louis Vuitton ，与 Inc. 相距较远的为PER，指的是创立者这一实体，而相距较近的为ORG，指的是组织（公司）这一实体。可见，单词之间的相对位置在 NER 任务中是十分重要（敏感）的。

需要注意的是，相对位置是具有方向性的，即 Inc. 与 in 的相对距离为 -1，1854 与 in 的相对距离为 1

那么，如何对位置信息进行表示呢？

下文结合 Transformer 的位置表示、RPR、Transformer-XL 以及 Complex Embeddings，试解释位置信息的表示问题。

1. Transformer 的位置表示

原始 Transformer[1] 中使用 Positional Encoding 生成固定的位置表示。

其中，pos 指的是 token 的位置。设句子长度为L，那么。i 是维词向量的某一维，例如时，。因此，借助上述正余弦公式，我们可以为每个位置生成维的位置向量。

图2以为例，横坐标为位置表示的维数，纵坐标为位置 pos 。不难发现，当维数逐渐从 0 变为 127，周期相应的从 2π 变为 2π*10000，不同位置之间的差异性变得越来越模糊。

图2 正弦位置编码可视化[10]

为什么会选择如上公式呢？作者表示：

We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset k, can be represented as a linear function of

已知三角函数公式如下：

结合公式 (1) (2) 可得

由于相对距离 k 为常数，那么和均为常数，分别简写为

u, v 可得下式：

因此，可以将可以表示为的线性表示。作者希望借助上述绝对位置的编码公式，让模型能够学习到相对位置信息。

接着我们来看，两个不同位置的位置嵌入之间的点积。推导可得，其点积虽然能够反映相对距离，但它缺乏方向性，并且这种特性（相对距离）会被原始 Transformer 的注意力机制破坏[4]：

基于公式(1) ，pos 位置的位置嵌入可以表示为：

其中，d 表示位置嵌入的维度，表示由 i 决定的常量，由可推得：

因此，对于给定的位置 pos 和偏移量 k 而言，只取决于偏移量 k，内积会随着相对位置的递增而减小。因此两者的点积可以反映相对距离 k。如图3所示，点积的结果是对称的，并且随 |k| 增加而减少（但并不单调）。

图3 TENER[4] 中对点积结果的可视化

此外，由于点积结果只依赖于 k，那么令，可以由公式 (3) 可得：

那么，对于给定的位置 pos 和偏移量 k 而言：

也即两者的点积无法反映方向性。

如图4所示，两者点积的结果是对称的，并且随着位置的增大而减小。

图4 Sinusoidal position encoding 点积可视化[10]

但是在 Transformer 中，由于需要经过映射，即两者间的点积实际是并可以视为，然而如图5所示，此时并没有看到相对距离 k 的清晰模式。

图5 TENER[4] 中对包括映射矩阵后的点积结果的可视化

另外，Transformer 之前的 ConvSeq[5] 以及之后的 BERT[6] 都没有选择使用 Positional Encoding 的方式生成位置表示，而是采取了所谓的 learned and fixed 的可学习的 Position embedding。也就是去训练一个位置嵌入矩阵，大小为，这里暂且按下不表。

2. 相对位置表示

Relative Position Representations[2]（下文简称为 RPR）一文中认为，RNN 通常依靠其循环机制，结合 t 时刻的输入和前一时刻的隐层状态计算出，直接通过其顺序结构沿时间维度捕获相对和绝对位置。而非 RNN 模型不需要顺序处理输入，则需要显式编码才能引入位置信息。

Transformer 中的 Self-attention 机制如下，输入，输出：

RPR 不在输入时将位置表示与 token 表示相加，而是选择对 self-attention 进行改动：

这里的(不是) 的计算方式如下：

因此，模型学习相对位置表示(同理)，同一层的attention heads之间共享，但是在不同层之间是不同的。

此处公式有些晦涩，故此举一实例[7]加以解释：

当 k=4 时，，那么WK的每一行则分别对应的是位置 i 与位置之间的相对位置表示。以输入“I think therefore I am”为例：

如图6所示，“I” 使用的是，“think” 使用的是，因为 “think” 在第一个 “I” 的右边第一个，对应的是 i+1的情况。也即，Query 为 “I”，Key 为“think”时，有 i=0, j=1 ，由公式 (4) 可知，，那么此时。

图6 RPR 示例 1

如图7所示，“I” 使用的是，“think” 使用的是(因为 “think” 在第二个 “I” 的左边第二个，对应的 i-2 的情况)。

图7 RPR 示例 2

另外，作者认为精确的相对位置信息在超出了一定距离之后是没有必要的，并且截断后会使得模型的泛化效果好，即可以更好的泛化到没有在训练阶段出现过的序列长度上。

这里试举一例帮助理解。当输入句子长度为 12 且 k = 4 时, RPR 的嵌入矩阵如图8所示：

图 8：RPR 嵌入矩阵

不过，论文在对机器翻译任务进行消融实验（表1所示）时发现，可能并不是必要的。第3节中的 Transformer-XL 也略去了这一项。

表1 RPR 消融实验结果

此外，RPR 一文并未开源代码，这里给出Github 上 TensorFlow (https://github.com/THUNLP-MT/THUMT/blob/d4cb62c215d846093e5357aa17b286506b2df1af/thumt/layers/attention.py)和 PyTorch (https://github.com/MjolnirX/relative-position-pytorch/blob/master/relative_position.py)两个版本的实现。

3. Transformer-XL

Transformer-XL一文并没有采用 RPR 中的相对位置表示方式，而是开创性的在片段循环机制下提出了 Relative Positional Encodings，实现仅在隐藏状态中对相对位置信息进行编码。

尽管 Al-Rfou et al. (2018)[8] 成功地在字符级语言建模中训练了深度(64 层) Transformer 网络，效果超越了 LSTM，但是其输入为分离的、固定长度(几百个字符)的片段，并且没有跨片段的信息传递。由于固定的上下文长度，模型无法捕获超出预定义的上下文长度的任何长期依赖。另外，固定长度的片段是通过选择连续的字符块而创建的，并未考虑句子边界或任何其他语义边界。因此，该模型缺乏必要的上下文信息来较好地预测最初的几个字符，这会导致无效的优化和较差的性能。

作者将此问题称为上下文碎片(context fragmentation)。如果给定无限的存储和计算能力，一个简单的解决方案就是使用无条件的 Transformer 解码器来处理整个上下文序列，类似于前馈神经网络。然而在实践中由于资源有限，通常是不可行的。为了解决这一问题，作者提出了片段循环机制(segment-level recurrence) 和新的相对位置嵌入(Relative Positional Encodings)。

首先深入探究 Al-Rfou 等人的做法，下文将其称为原始模型。如图 9.a 所示，原始模型将整个语料库拆分为长度受限的片段，并且只在每个片段内训练模型，忽略了来自先前片段的所有上下文信息。这使得训练过程中（图 10），信息不会在 forward 或 backward 过程中跨片段流动，而且这使得最大依赖长度受到了片段长度的限制(这本是 Self-attention 的优势)。其次，虽然可以通过 padding 来考虑句子边界或任何其他语义边界，但是在实践中直接简单分块已成为提高效率的标准做法。这也就是作者说的上下文碎片问题。

图9 原始模型训练与评估流程可视化（片段长度为 4）

图10 动态演示: vanilla model 的训练过程[9]

在评估过程中（图11），原始模型也在每一步中消耗与训练中相同长度片段，但仅在最后一个位置进行预测。然后，在下一步仅将片段向右移动一个位置，并且重新进行计算。如图 9.b 所示，如此可确保每一步预测都能利用训练期间暴露的最长可能上下文，并且还缓解了训练中遇到的上下文碎片问题。但是，这种评估过程太过昂贵。

图11 动态演示: vanilla model 的评估过程[9]

这里我们先来看 Transformer-XL 中的片段循环机制。引入循环机制，在训练过程中，前一片段中的隐藏状态序列(每一层都)会被固定并缓存，以便在处理下一片段时使用其作为「扩展上下文」。如图 12.a 所示，绿色部分表示当前片段使用的扩展上下文。对于每一层而言，输入为前一片段以及当前片段的前一层的输出，从而可以保证对长期依赖的建模能力并避免了上下文碎片问题（图 13）。

图12 Transformer-XL 模型训练与评估流程可视化（片段长度为 4）

图13 动态演示: Transformer-XL 的训练过程[9]

下面用公式表达上述过程。第 ???? 与 ????+1 个长度为 L 的连续片段表示为，由生成的第 n 层隐藏状态序列称为，那么的计算过程如下：

其中，表示 stop-gradient 函数，表示沿长度维度将两个隐层状态序列进行连接，W 表示模型参数。第一行公式得到包含扩展上下文的作为新的输入，第二行与 vanilla Transformer 中类似，只是 key 和 value 均使用。

借助片段循环机制，可以使隐藏状态做到片段级循环，这实际上使得有效的上下文可以远远超过两个片段。注意，这里的之间的循环依赖是每段向下移动一层的，这与 RNN-LM 中的同一层循环是不同的。因此，最大可能依赖长度是关于层数和片段长度线性增长的（例如），如图 12.b 中的阴影区域所示。

采用片段循环机制，不仅可以获得更长的上下文从而解决上下文碎片问题，而且可以加快评估速度。在评估过程中，XL 可以重复使用先前片段中的表示，不需要像 vanilla model 那样重新计算（图14）。最后，理论上讲，可以在 GPU内存允许的范围内缓存尽可能多的片段作为扩展的上下文，并将可能跨越了多个片段的旧隐藏状态称为 Memory 。在论文的实验中，M 在训练时设置为片段长度，评估过程中则会增加。

图14 动态演示: Transformer-XL 的评估过程[9]

在借助上述文字充分理解片段循环机制后，再来看为了在 Transformer 中实现这一机制而提出的 Relative Positional Encodings。

在片段循环机制中，有一个重要问题没有得到解决：如何保证在循环时，位置信息的连贯性？具体而言，vanilla Transformer 中使用 positional encodings 获得，其第 i 行表示的是片段内的绝对位置 i ，则规定了建模的最大长度。之后将单词嵌入和位置编码逐元素相加，如果直接在片段循环机制中使用如上位置表示方式，那么隐藏状态序列的计算过程如下：

其中，是序列的词嵌入表示，f 表示变换函数。此时，无论是还是都使用同样的位置编码。因此，对于任意，模型没有任何信息能用来区分和之间的位置差异，从而导致了性能损失。

为了避免上述问题的出现，论文提出了仅在隐藏状态中对相对位置信息进行编码。

Conceptually, the positional encoding gives the model a temporal clue or “bias” about how information should be gathered, i.e., where to attend.

从概念上讲，位置编码为模型提供了关于如何理解信息(关注哪里)的时间线索或时间偏差/倾向。为此，可以在每一层的 attention score 中引入相同的信息，而不是将 “bias” 静态放入初始嵌入中。更重要的是，以相对方式定义的时间偏差是更为直观和可概括的。例如，查询向量和键向量运算时，并不需要知道每个键向量的绝对位置来分辨其时间顺序，只要知道每个和之间的相对距离即可，即 i-j。

因此，可以创建一组相对位置编码，表示的是相对距离为 i 时的情况。将相对距离动态引入至 attention score 中，使查询向量可以分辨和之间的位置差异，从而使片段循环机制有效。另外，作者认为这样不会损失任何时间信息，因为可以从相对位置递归地得到绝对位置。

为了理解如何动态引入相对位置信息，我们首先将同一片段内的与之间的注意力得分(即 RPR 中的)分解为：

Transformer-XL基于仅依赖相对位置信息的思想，提出如下改动：

下面对改动进行一一解释。

首先将 (b), (d) 中用于计算键向量的绝对位置编码替换为相对位置编码。注意这里的 R 不是可学习的，而是和 vanilla Transformer 中类似的正弦编码矩阵，只要将其公式中的 pos 替换为 i-j 即可。(这里的，因为模型是自回归的)
接着引入可训练参数来代替 (c) 中原来的，这使得所有查询位置 i 的查询向量都是相同的，所以不管查询位置是什么，对不同单词的注意偏差都是相同的。类似的，引入来代替 (d) 中的。
最后，将原来的分为两个权重矩阵，分别生成基于内容的和基于位置的键向量。

Transformer-XL 认为此时的公式中的每一项都尤其直观含义：

(a) 表示基于内容的处理（content-based addressing）
(b) 表示基于内容的位置偏差（content-dependent positional bias）
(c) 表示整体内容偏差（global content bias）
(d) 表示整体位置偏差（global positional bias）

与 RPR 相比，RPR 仅仅只有 (a) 与 (b) 两项，并且将合并为可训练的矩阵，这放弃了 vanilla Transformer 中的正弦位置编码中内置的归纳偏置。相反，Transformer-XL的 R 很好地保留了归纳偏置，并且获得了能够将基于定长 memory 训练的模型在评估时自动泛化至更长的 memory 的好处。

结合上述两种机制，就得到了 Transformer-XL 的体系结构。对于一个单注意力头的 N 层 Transformer-XL 而言，对于：

其中，初始化为词嵌入序列。

这里需要补充的是，Transformer-XL 所采用的相对距离表示方法是不具有方向性的，即，做的是自回归的语言建模任务；而 RPR 中采用的相对距离是具有方向性的，做的机器翻译任务。不过其实由于，(i-j) 的定义域变为例如时，其实是可以为 attention score 带来方向信息的[4]。

4. Complex Embeddings

上述两篇工作都是从 Attention 计算的角度出发，尝试在计算点积时融入相对位置信息。而 Encoding word order in complex embeddings[11] 一文则从单词嵌入和位置嵌入相结合的角度出发，设计了关于位置变量的连续函数，并扩展到了复数域，获得了更丰富的表示。

Complex Embbdeeings 一文认为，当前的神经网络使用位置嵌入来对单词位置进行建模，问题在于位置嵌入捕获单个单词的位置，而不捕获单词位置之间的有序关系（例如相邻或前序）。例如 ConvSeq 中的位置嵌入假设单个单词位置是独立的，并且不考虑相邻单词位置之间的关系。作者认为，单词的全局绝对位置及其内部顺序和相邻关系在语言上都是至关重要的。这一点也在 RPR 和 Transformer-XL 两篇文章中有提及，展示了对序列元素之间的距离进行建模的重要性，并明确使用额外的相对位置编码来捕获单词的相对距离关系。文中提出的解决方案，将以前定义为独立向量的词嵌入，推广为关于位置变量的连续函数。位置变量的连续函数的好处是单词表示会随着位置的增加而平滑地移动。因此，处于不同位置的单词表示可以以连续函数彼此相关。为了更丰富的表示，这些函数的通用解决方案扩展到了复数值域。

首先，词嵌入 WE 通常定义为一个将离散的词索引映射到一个 D 维实值向量的映射函数。

类似的，位置嵌入 PE 定义了另一个将一个离散的位置索引映射到一个向量的映射函数。单词（给定词表中的第 j 个词）在一个句子的 pos-th 位置时的最终嵌入通常通过求和来构建：

由于单词嵌入映射和位置嵌入映射仅将整数值用作单词索引或位置索引，单个单词或位置的嵌入矢量是单独训练的。每个单词向量的独立训练是合理的，因为单词索引基于给定任意词汇的顺序，并且不捕获与其相邻单词的任何特定顺序关系。

但是，位置索引捕获了一个有序的关系，例如相邻关系或前序关系，现在的做法导致在各个位置上位置嵌入是相互独立的。位置之间的有序关系未建模。作者将此称为位置独立性问题 (position independence problem)。

在位置不敏感的神经网络中使用位置嵌入时，此问题变得尤为重要，例如FastText，ConvSeq和Transformer，因为它对于具有原始位置嵌入的对位置不敏感的神经网络而言，很难推断出位置pos的接近位置pos+1的，或者在之前（即之前提到相邻或前序）；相反，只能推断和位于不同的位置，而它们之间的相对距离几乎是未知的。因此，原始位置嵌入无法完全捕捉语言的顺序方面。

在等式 (5) 里的通用定义中，每个维度的位置嵌入是基于离散位置索引 {0, 1, 2, …, pos, …} 获得的。这使得很难建模位置之间的有序关系。该问题的一种解决方案是在位置索引上构建连续函数，以表示特定单词的单个维度。形式上，我们将通用嵌入定义为：

其中是的缩写，表示关于位置索引 pos 的 D 个函数，而是从单词索引到 D 个函数的映射。那么 pos 位置的单词的D维向量表示可以扩展写为：

其中是位置索引 pos 在复数域上的函数（下文在不混淆的情况下会将简写为 g ）。此时要将单词从当前位置 pos 移动到另一个 pos’，只需将变量 pos 替换为 pos’，而无需更改。

上述函数应当满足以下属性：

位置无关的偏移转换 (Position-free offset transformation) ：
对于所有的，存在函数满足。也就是说同一单词在不同位置的表示，可以通过一个只和相对距离 n 有关的变换函数进行转换。
有界性 (Boundedness) ：
关于位置变量的函数应有界，即

为了降低难度，作者假设变换函数是线性变换。随后证明了在复数域上，函数是有界并且线性证明的位置无关的偏移转换，当且仅当（推导参见原文）。

那么对于任意，结合欧拉公式，我们可以写成，这里的 i 是虚数单位。因此我们有：

在实现中，上述 g 的定义将会带来一个关于限制的优化问题。

一个自然且简单的避免这一问题的方法是固定。

因此可以简化形式写为，并且可以将 g 视为以固定周期在半径为 r 的复数圆上逆时针嵌入位置（ r 是振幅项，θ 是初始相位项，是频率，是周期）。

那么现在我们可以定义复数域词嵌入 g 是从词索引 j 和词位置索引 pos 到的映射。对于在位置 pos 的单词，通用复数域嵌入被定义为的 D维向量，代入公式 7 扩展为：

振幅周期和初相都是维度 d 的可学习参数。

在图15中，每个维度都表示为一个波，该波由振幅，周期/频率和初始相位参数化。嵌入的可训练参数是振幅向量，周期或频率相关的权重和初相向量。

图15 (单个单词在不同位置的 3维复数嵌入。三个波函数（将初始相位设置为零）显示了嵌入的实部；虚部具有π/2的相位差，并显示与实值对应的相同曲线。x 轴表示单词的绝对位置，y 轴表示单词向量中每个元素的值。颜色标记了嵌入的不同维度。函数和每条垂直线之间的三个交叉点（对应于特定位置pos）表示该单词在第pos个位置的嵌入。) 本图用三维复数值嵌入说明了这种类型的单词表示，其中振幅{r1, r2, r3}表示对应于经典单词向量的语义方面，而周期{p1, p2, p3}表示这个词对位置信息有多敏感。

我们可以观察到：

所有位置上的的平均值与振幅嵌入线性相关。并且振幅嵌入只依赖于单词（和维度 d ），而不是单词的位置，那么我们可以将向量视为“纯”位置嵌入。因此，我们的复数嵌入可以被视为单词嵌入与位置嵌入之间的逐元素乘法：
周期/频率确定单词对位置的敏感程度：在极长的周期内（即非常小），对于所有可能的 pos 值，复数值嵌入近似恒定，因此近似于标准词嵌入。相反，如果周期短，则嵌入将对位置参数高度敏感。

那么可以认为，不同于以往对位置嵌入进行的加性操作，作者将单词嵌入和位置嵌入通过逐元素乘法在某种程度上解耦，因此频率/周期项（与有关）可以自适应地调整每个单词和每个单词的语义和位置信息之间的重要性尺寸。

此外，原文中还描述了降低参数量的技巧，以及如何在 CNN、RNN 和 Transformer 中使用 Complex Embeddings。在附录中，还介绍了与原始 Transformer 位置嵌入的关系。

5. 小结与展望

本文主要对原始 Transformer[1]、RPR[2]、 Transformer-XL[3] 以及 Complex Embeddings[11]中使用的位置表示方法，进行了较为详细的介绍。从最初的绝对位置编码与单词嵌入相加作为第一层的输入，再到 RPR 提出直接在注意力分数的计算中引入相对位置信息，并学习相对距离的表示矩阵(长度固定)，再到 Transformer-XL 中引入偏置信息，并重新使用 Transformer 中的编码公式生成相对距离的表示矩阵，使长度可泛化，最后到 Complex Embeddings 中通过复数域的连续函数来编码词在不同位置的表示。

我们可以将 BERT 中使用的 Learned Positional Embedding(LPE)，Sinusoidal Position Encoding(SPE)，RPR 以及 Complex Embeddings(CE) 进行对比：

从可解释性/可理解性上来说，我认为后三者基于公式构造的方式是优于 LPE 的，尤其是 CE 通过优美的数学证明为我们提供了表示能力更好的复数域表示，并且语义信息和位置信息的重要性尺寸是自适应学习的。
CE 还在附录中证明了其特定情况与Transformer 使用的位置编码之间存在直接的联系。
从可扩展性上来说，后三者的可扩展性优于 LPE，因为 LPE 受限于最大序列长度，一旦需要扩展到更长的序列上，就必须重新训练。
从参数量上来说，LPE 的参数量与其设置的最大序列长度线性相关，SPE 与 RPR不会引入额外的参数，而 CE 在不进行参数优化时的参数量是原 Word Embedding 的三倍。
从实验效果上来说，在 SPE 提出后，Transformer 原文表示 LPE 和 SPE 的效果并无明显差别，而后续工作也基本是结果导向的。
CE 则通过在文本分类，机器翻译和语言建模上的的实验，证明其相较于先前的工作有着明显的提升。
实际使用中，大家可以尝试相关的实验。

那么未来，我们还需要对位置表示做怎样的工作呢？比如目前位置信息的定义仅限于绝对位置与相对位置，而类似句法信息这样细粒度、结构化的依存句法信息和语义依存信息，是作为外部知识引入的，并且已经有很多工作通过设计 Probe 任务，证明了 ELMo、BERT 等模型学习得到的表示，隐式建模了句法信息等信息。有没有可能在位置信息中直接引入类似的先验信息，帮助模型在对这些先验信息敏感的任务上取得更好的结果呢？

让我们拭目以待~

参考文献

[1] Vaswani, Ashish et al. “Attention is All you Need.” NIPS (2017). https://arxiv.org/abs/1706.03762

[2] Shaw, Peter et al. “Self-Attention with Relative Position Representations.” NAACL-HLT (2018). https://arxiv.org/abs/1803.02155

[3] Dai, Zihang et al. “Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.” ACL (2019). https://arxiv.org/abs/1901.02860

[4] Yan, Hang et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” ArXiv abs/1911.04474 (2019): n. pag. https://arxiv.org/abs/1911.04474

[5] Gehring, Jonas et al. “Convolutional Sequence to Sequence Learning.” ArXiv abs/1705.03122 (2017): n. pag. https://arxiv.org/abs/1705.03122

[6] Devlin, Jacob et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” ArXiv abs/1810.04805 (2019): n. pag. https://arxiv.org/abs/1810.04805

[7] How self-attention with relative position representations works https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-28173b8c245a

[8] Al-Rfou, Rami et al. “Character-Level Language Modeling with Deeper Self-Attention.” AAAI (2019). https://arxiv.org/abs/1808.04444

[9] Google AI Blog https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential-of.html

[10] Transformer Architecture: The Positional Encoding https://kazemnejad.com/blog/transformer_architecture_positional_encoding/#what-is-positional-encoding-and-why-do-we-need-it-in-the-first-place

[11] Wang, Benyou et al. “Encoding word order in complex embeddings.” ArXiv abs/1912.12333 (2019): n. pag. https://openreview.net/forum?id=Hke-WTVtwr

本期责任编辑：丁效

本期编辑：顾宇轩

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

让更多的人知道你“在看”

你可能感兴趣的:(【工大SCIR笔记】浅谈Transformer模型中的位置表示)

符凤生桓宇8722
符凤生11/13总结，今天公司发生这些事情，我的体验是，平静，失落的，毕竟通过这次改版的成果，让我感受到接下来公司需要提升的太多了，好比严谨不够，课程改版助教老师没有激情，担心学员没有收获，去到一个有标准的位置，没有站高一线的选择相信，选择严谨，就区分什么是严谨都有些分不清，感觉到无力支持而失落，有力没地方去使，发现自己的是，没有注重细节，然而这次发现自己的是，焦点都在自己，好比发现自己太飘了，说
沈阳10家正规亲子鉴定中心地址一览(附2024年8月鉴定地址汇总）国医基因吴主任
在沈阳什么地方可以做亲子鉴定呢？沈阳市和平区南京北街155号的国医基因可以做亲子鉴定。在沈阳做一次亲子鉴定要花费多少钱？大概是要花费2000-4500元左右。在沈阳亲子鉴定是一种现代科技手段，为家庭关系提供了明确的答案。在复杂的社会关系中，它不仅帮助确认血缘关系，更在法律、医学和心理层面发挥着重要作用。本文将深入探讨亲子鉴定的科学原理、操作流程及其在现实生活中的应用和影响。沈阳亲子鉴定正规咨询机构
工具链漏洞预警：全球活跃利用中的SharePoint新型零日RCE攻击链 FreeBuf- sharepoint
图片来源：CODEWHITEGmbH2025年7月18日晚间，EyeSecurity安全团队发现一起大规模利用新型MicrosoftSharePoint远程代码执行（RCE）漏洞链的攻击活动，该漏洞链被命名为ToolShell。攻击者通过组合利用CVE-2025-49704和CVE-2025-49706两个漏洞，可在无需认证的情况下完全控制本地部署的SharePoint服务器。"这并非凭证泄露问题
《即兴的智慧》读书笔记（五）（86-102页）河南张俊红
第七个练习面对事实“面对现实”意味着我们要慢慢品味他人提供的食物吸收，并加上自己的见解。面对现实是必要的元素，他对日常生活也有指导作用。即兴演员不会去纠结那些不切实际的想法，他们会面对现实，然后努力将崎岖变成坦途，把坏事变成好事。希望他人改变，也是逃避事实的一种方式，我们会期待他人做出改变，必须接受人与人之间的差异，即兴演员懂得与不同风格的人合作的价值，并能够控制改变他人的冲动。第八个练习别忘了目
【漫谈C语言和嵌入式002】嵌入式中的大小端 Seraphina_Lily 漫谈C语言和嵌入式 c语言开发语言
在计算机科学中，"端序"（Endianness）是指多字节数据类型（如整数或浮点数）在内存中的存储方式。主要分为两种：大端模式（Big-Endian）和小端模式（Little-Endian）。大端模式(Big-Endian)在大端模式中，多字节数据类型的最高有效字节（MSB）被存储在最低的内存地址上，而最低有效字节（LSB）则被存储在最高的内存地址上。这种存储方式与人类通常读数的方式一致，因此有时
540. 有序数组中的单一元素含泪若笑
这道题用二分查找的话需要注意间隔，因为有相同的元素在一起，还有就是要判断好单个的元素在哪里。第一种我看了官方的，觉得比较容易理解和想到，就实现了一下：思路就是判断中间元素是和前一个相等还是后面的相等，1如果和后面的相等，后面的元素以middle为分界点还是偶数个的话，那就说明单个元素在后面，因为我们需要去掉middle的下一个元素去考虑；2如果和前面的相等，后面的元素以middle为分界点还是偶数
el-amap-bezier-curve运用及线弧度设置 ·零落· Vue日常研发问题总结 vue.js javascript ecmascript
文章目录简介示例线弧度属性主要弧度相关属性其他相关样式属性完整示例链接简介‌el-amap-bezier-curve是Vue-Amap组件库中的一个组件，用于在高德地图上绘制贝塞尔曲线。‌基本用法属性path定义曲线的路径，可以是多个弧线段的组合。stroke-weight线条的宽度。stroke-color线条的颜色。stroke-style线条的样式。stroke-opacity线条的透明度。
阿里云2核4G配置的云服务器多少钱？如何购买更优惠？阿里云最新优惠和活动汇总
阿里云服务器2核4G配置是阿里云服务器中的一个热门配置，是个人用户普通企业用户搭建网站时比较喜欢购买的配置，下面给大家详细说下这个配置的价格、性能及如何选择。一、阿里云2核4G配置多少钱？这里说的2核是指云服务器的cpu核数为2核，4G表示的是云服务器内存为4G，CPU内存比1:2，这个配比是一个黄金配比，一般不会照成cpu或内存资源的浪费，用来搭建个人博客、论坛社区、小型电商网站、企业官网都是可
雷微静：仰望，是一种美大头爸爸的号
一百个仰望天空的人有着一百个仰望天空的理由。而我，便是其中的一个。不知从何时起，仰望已成为我戒不掉的瘾。我曾试图摆脱它罂粟般的蛊惑人心，到头来却发现自己所做的一切都只是无谓的挣扎。这个瘾啊，实在是太诱人，太魅惑了。它仿佛蜘蛛结网捕捉猎物般牢牢地将我的心困住，越是挣扎，越是深陷，一点一点地侵蚀我的理智，操纵着我残存的肉身。屈服，是我唯一的选择。有人说，喜欢仰望的人有着别人无法料想的野心。也有人说，喜
2023-03-21呼建荣，中原焦点团队，网络中级第33期，坚持分享525天。呼建荣
阅读书籍《社会工作综合能力》第四章社会工作理论的应用。第六节人本主义和存在主义理论在社会工作中的应用。一、人本主义理论。1.人本主义理论的主要观点。人本主义相信人的理性，认为具有理性的人可以自主的选择行动，人本观点是即是人本取向社会工作的逻辑出发点，也是社会工作专业的重要价值基础。人本主义原则是温暖、尊重和接纳，诚实和真诚，同理。①真诚友谊，②积极聆听，③准确同理。2.人本主义理论在社会工作中的应
Qt 3D模块加载复杂模型
使用Qt渲染复杂的3D模型该怎么做呢？1.使用Qt3D模块示例如下：#include#include#include#include#include#include//创建基础3D场景Qt3DExtras::Qt3DWindowview;//创建根实体Qt3DCore::QEntity*rootEntity=newQt3DCore::QEntity;//添加相机Qt3DRender::QCamer
《正常人》听书笔记童心麻麻
一、同侪压力。1、康奈尔校园明星，很多朋友，太在意别人怎么看自己，行为被同侪压力左右，玛丽安不太意别人怎么看自己，也不为任何人改变自己，最招人恨的反派，没有朋友。他们俩都很聪明，谈话默契。2、社交生活中，康奈尔维持自己校园明星的地位，私底下，他与玛丽安灵肉合一。但是在毕业舞会选择舞伴上，伤害了玛丽安。二、心理问题。1、玛丽安是没有金钱概念的富家女，康奈尔家境贫寒，玛丽安和康奈尔有社会阶层差异，他们
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
架构解密-从分布式到微服务资源文件介绍
架构解密-从分布式到微服务资源文件介绍去发现同类优质开源项目:https://gitcode.com/分布式架构向微服务的演变，是现代IT架构发展的重要趋势。《架构解密-从分布式到微服务》资源文件，涵盖了这一转型过程中的核心功能与场景，旨在帮助架构师和开发者深入掌握分布式架构与微服务技术。项目介绍《架构解密-从分布式到微服务》是一本集成了大量实践经验和前沿技术的专业书籍。本书以分布式架构和微服务为
板子 5.29--7.19
板子5.29–7.19目录1.树状数组2.KMP3.矩阵快速幂4.数位DP5.状压枚举子集6.快速幂（新版7.priority_queue8.dijkstra9.单调栈10.debug内容1.树状数组//树状数组快速求前缀和/前缀最大值//维护位置数量(离散化)...//(区间加区间求和)维护差分数组初始化add(i,a[i]-a[i-1])//tr1：维护d[i]的区间和。tr2：维护i⋅d[i
2024中秋节月饼送什么牌子的好？中秋节送什么礼物比较好高省张导师
月饼，这一承载着中秋团圆寓意的传统美食，如今已不仅仅局限于家庭的餐桌，更成为了市场上品牌竞争的焦点。每逢中秋前夕，各大月饼品牌纷纷亮剑，从口味、包装到营销策略，无不体现着品牌的匠心与创新。今天，我们就来一场月饼界的“华山论剑”，看看这十大月饼品牌，谁才是你心中的“饼中之王”。一、元朗荣华：白莲蓉月饼的典范元朗荣华，源于元朗荣华酒家，是香港广式月饼的代表。自创立以来，元朗荣华便以白莲蓉月饼著称，深受
【数据中心】网络设计框架 flyair_China 架构
第一章：总体架构设计叶脊架构（Leaf-Spine）全互联无阻塞设计：Leaf与Spine全连接，跨层带宽≥100G，单集群支持10万+服务器（腾讯星脉网络）。分层扩展模型：采用POD（性能优化模块）化设计，单POD支持5000节点，通过超级核心层互联多POD（阿里云实践）。冗余与高可用设备级：双电源/双引擎；链路级：M-LAG多活聚合；协议级：BGPEVPN替代STP，故障切换<50ms（华为C
HLA仿真程序设计实战：FoodFight_MFC案例剖析
本文还有配套的精品资源，点击获取简介：HLA仿真程序设计利用高级语言抽象构建集成分布式仿真系统，促进仿真组件之间的互操作性。以”FoodFight_MFC”为例，该案例基于MicrosoftFoundationClass(MFC)库，介绍HLA编程基础概念和实践。通过学习HLA接口、MFC应用框架、对象模型设计、数据同步机制、联邦管理和性能优化，学习者能掌握分布式仿真系统的构建和运行。1.HLA仿
2月23日，十二星座，星座运势葫芦姐姐聊星座
白羊座：试图让事情能处在自己的掌控之中，但是不要去强求什么，宁可顺其自然地去引导，也别强行干涉，免得引起本可避免的麻烦事；感情上平复内心的焦躁感，同理心有待增强，你需要更好地谅解彼此的难处，以利于化解积怨。金牛座：活跃度提升，你能成为团队中的引领者，在不少事情上都做出恰当的表率，既不会显得自己太来事，也能取得一定的好成果；感情上展示自身温和大度的样子，增进彼此的了解度，不要总是被激情和新鲜感蒙蔽视
《三十岁，一切刚刚开始》读书笔记Day02/25 设绘喵爱读书April
第一章：三十岁轨迹1-2三十岁，真正的人生才刚刚开始•人和人不能用生理年龄来区分，更不能十年、十年地来划分。•见过很多二十多岁却从不学习的年轻人，也见过六十多岁还在路上奔波的长者，前者已经老了，后者依旧年轻。所以，人到底什么时候才算变老了呢？答案是，不学习的时候，不进步的时候。•有两种方式可以让人减缓衰老：第一，寻找一个伟大的目标，用一生完成。第二，做一件持续升值的事情，直到永远。•这两种减缓衰老
【no vue no bug】 npm : 无法加载文件 D:\software\nodeJS\node22\npm.ps1 源码方舟 BUG vue.js bug npm
【Bug问题】在vscode中打开项目目录运行npm相关的命令时报下面错误，但是ctrl+r打开控制台输入npm命令又是可以运行的。npm:无法加载文件D:\software\nodeJS\node22\npm.ps1，因为在此系统上禁止运行脚本。有关详细信息，请参阅https:/go.microsoft.com/fwlink/?LinkID=135170中的about_Execution_Pol
蜿蜒曲折的山路梦瓶子
其实没有踩着麦子哦玩，是孩子的天性。随着电子产品的普及，玩手机、游戏、看各种视频成了孩子们生活中的不可缺少的一部分。春节带着孩子回乡下老家。孩子们好像到了人间天堂一样，乐不可支。什么手机都成了浮云，甚至还监管了爸爸妈妈的手机。首要的娱乐就是转路，每天中午吃了饭都要拽着爷爷去转路。爷爷也乐在其中，就带上水果瓜子领着大家出发了。村子位于大巴山深处。大巴山，山牵着山，山靠着山，一层一层、一圈一圈地跌宕开
《老婆生娃要白月光陪产》(白月光殷晴晴)最新章节在线阅读~殷晴晴的脸上一阵青一阵白嘴巴张半天，想狡辩却半晌说不出话认识这么多年，还是头回见她吃瘪的囧样，心里别提多畅快完整版全集小说
《老婆生娃要白月光陪产》(白月光殷晴晴)最新章节在线阅读~殷晴晴的脸上一阵青一阵白嘴巴张半天，想狡辩却半晌说不出话认识这么多年，还是头回见她吃瘪的囧样，心里别提多畅快主角配角：白月光殷晴晴简介：把黎灵依送回家，我满脸愧疚向她表示抱歉没想到她却笑嘻嘻说道：“嘴上说抱歉有什么用？你得用行动证明”那月牙般的眼睛，透着羞怯和不安，双脚也不自在的挪动着“我努力一下”“努力什么？”“努力让你喜欢我，然后正式交
想象篇盗墓笔记 zy呵呵呵
（2）克凌来到穿越门面前，穿越门对克凌说：“这位男士，请问你想去哪儿？”“我要到一百年以前，去盗墓！”“呵呵，去盗墓啊！提醒你，那里非常危险哦！”“没事，我不怕！”“好的，现在开始穿越之旅，坐稳点！”一眨眼，就来到1918年，克凌看了看周围，自己在街上，非常吵闹。克凌来到一家饭店，要了盘瓜子，在吃起来，听着其他人谈话。“听说要来个人，要开拍卖会。”“真的吗？”“听说那是个财主！”“那东西是恶龙的蛋
阅读记录（54）｜拆书稿拟定主题方式初十一
阅读目的/碎片出处碎片出处：阅读分享三十九：《拆书稿的经典结构，如何拟定一个主题点？》-笔记内链：阅读目的：了解拆书稿的提炼主题的方式，在读书时应用提炼知识点，总结成个人思想读后收获/感受要点一：干货类书籍拆书结构：话题引入+书的名字+作者观点+提出问题+作者解决办法+总结收尾开头用相关热点或者是生活痛点进行引入，读书化做已用，要先思考哪些点能解决自己的哪方面的问题自然而然地引出书的名字，表明这本
stable diffusion-系统课程：0基础系统性学习AI绘画，小白也能轻松上手顺心网创
本课程是AI绘画工具stablediffusion的系统课程，内容通俗且细致，让小白也能上手。课程大纲基础部分1.前置要求+整合包安装+启动器使用2.纯净原版安装+使用介绍3.文生图精讲4.图生图精讲5.涂鸦、局部重绘、涂鸦重绘6.上传蒙版、批量处理7.模型精讲8.提示词精讲9.插件的认识与安装10.脚本的安装及使用11controlnet基础讲解12.cn-线性控制类型13.cn-深度和法线进阶
【用unity实现100个游戏之34】使用环状（车轮）碰撞器（Wheel Collider）从零实现一个汽车车辆物理控制系统，实现一个赛车游戏向宇it 【制作100个Unity游戏】unity 游戏汽车游戏引擎 3d 材质
最终效果unity赛车效果文章目录最终效果前言一、WheelCollider参数介绍1、基础参数2、SuspensionSpring：悬挂弹簧2.1spring支撑悬挂的弹力2.3damper减震2.4targetposition：表示车轮静止时处于的悬挂上的位置3、forwardfriction前向摩檫力和sidewaysfriction侧向摩檫力二、准备工作1、下载素材2、给车辆添加Rigid
别人发来的消息，你会及时回吗？雨果的天空
现在是信息爆炸的时代，每天接触的信息太多了，朋友的消息、️群里的互动、朋友圈的动态铺天盖地，纷纷扰扰好不热闹。面对别人发来的消息，你会及时回复吗？我觉得首先要看对象是谁？如果是重要的领导、挚爱的亲人或自己在意的人，我都会及时回复。其实冷静下来细思量，给你发消息的也有三六九等，对方在你心里的位置，会决定你对TA的态度。我始终认为，回信息也是人起码的礼貌。学着换位思考一下，万一自己的消息发给特别在意的
国庆套优惠券怎么获得？国庆节购物优惠卷的获取技巧高省APP珊珊
国庆套优惠券的获取方式及国庆节购物优惠券的获取技巧，主要依赖于具体的商品或服务类型以及对应的商家促销活动。以下是一些通用的获取技巧和建议：国庆套优惠券获取方式（以游戏为例）以游戏（如DNF）中的国庆套优惠券为例，通常有以下几种获取方式：购买前置礼包：部分游戏会设置前置礼包，玩家在购买这些礼包后，可以获得国庆套优惠券作为额外奖励。例如，在DNF中，购买夏日海上礼包就可能获得国庆套优惠券。参与游戏内活
【gateway网关】叫我李老板 gateway 学习 php
网关的核心功能网关（Gateway）作为网络架构中的关键组件，主要承担不同协议或网络之间的数据转换与路由功能。以下是其核心功能的详细说明：协议转换与适配网关能够连接使用不同通信协议的网络或系统，实现数据格式的转换。例如将HTTP请求转换为gRPC协议，或处理SOAP与RESTfulAPI之间的互操作。这种能力在混合云环境或遗留系统集成中尤为重要。流量路由与负载均衡基于请求内容（如URL路径、HTT
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，