tyhj_sf

【经典论文翻译与解析】Attention is all you need

本文目录

0 论文摘要
1 Introduction（简介）
2 Background（背景）
3 Model Architecture（模型架构）
- 3.1 Encoder and Decoder Stacks（编码器堆叠和解码器堆叠）
- 3.2 Attention（注意力机制）
- - 3.2.1 Scaled Dot-Product Attention（缩放的点积注意力机制）
  - 3.2.2 Multi-Head Attention（多头注意力机制）
  - 3.2.3 Applications of Attention in our Model（注意力机制在我们模型中的应用）
- 3.3 Position-wise Feed-Forward Networks（基于位置的前馈神经网络）
- 3.4 Embeddings and Softmax （词嵌入和 softmax）
- 3.5 Positional Encoding（位置编码）
4 Why Self-Attention（为什么选择selt-attention）
5 Training(训练)
- 5.1 Training Data and Batching（训练数据和batch）
- 5.2 Hardware and Schedule(硬件和时间)
- 5.3 Optimizer（优化器）
- 5.4 Regularization（正则化）
6 Results（结果）
- 6.1 Machine Translation（机器翻译）
- 6.2 Model Variations（模型变体）
- 6.3 English Constituency Parsing（英文选区分析）
7 Conclusion（结论）
参考资料

该论文提出的Transformer网络架构已经基本上独霸AI江湖，以此为基础诞生一批广为人知的经典模型：Bert, ViT, GPT系列等，后续我们分几篇文章单独解析。
关于Attention机制不太熟悉的可以参考以前的文章：注意力（Attention）机制的数学建模_总结

0 论文摘要

主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络，且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。我们提出了一个新的、简单的网络架构，Transformer。它只基于单独的attention机制，完全避免使用循环和卷积。在两个翻译任务上表明，我们的模型在质量上更好，同时具有更高的并行性，且训练所需要的时间更少。我们的模型在 WMT2014 英语-德语的翻译任务上取得了28.4的BLEU评分。在现有的表现最好模型的基础上，包括整合模型，提高了2个BLEU评分。在WMT2014英语-德语的翻译任务上,我们的模型在8个GPU上训练了3.5天（这个时间只是目前文献中记载的最好的模型训练成本的一小部分），创造了单模型的SOTA结果，BLEU分数为41.8，通过在大量和少量训练数据上所做的英语选区分析工作的成功，表明Transformer能很好的适应于其它任务。

1 Introduction（简介）

RNN,LSTM,GRU,Gated Recurrent Neural Networks 在序列建模和转换任务上，比如语言模型和机器翻译，已经是大家公认的取得SOTA结果的方法。自此，无数的努力继续推动递归语言模型和encoder-decoder体系结构的界限。

递归模型通常沿输入和输出序列的符号位置进行因子计算。在计算时将位置与步骤对齐，它们生成一系列隐藏状态 $h_t$ ， $t$ 位置的 $h_t$ 使用它的前驱 $h_{t-1}$ 和当前的输入生成。这种内部的固有顺阻碍了训练样本的并行化，在序列较长时，这个问题变得更加严重，因为内存的限制限制了样本之间的批处理。最近的工作通过因子分解技巧[21]和条件计算[32]在计算效率方面取得了显著的提高，同时也提高了后者的模型性能。然而，顺序计算的基本约束仍然存在。

在各种各样的任务中，注意力机制已经成为各种引人注目的序列模型和转换模型中的不可或缺的组成部分，它允许对依赖关系建模，而不需要考虑它们在输入或输出序列中的距离。然而，在除少数情况外的所有情况下[27]，这种注意机制都与一个递归网络结合使用。

在这项工作中，我们首次提出了Transformer，这是一种避免使用循环的模型架构，完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许更显著的并行化，使用8个P100 gpu只训练了12小时，在翻译质量上就可以达到一个新的SOTA。

2 Background（背景）

减少序列计算的目标也成就了 Extended Neural GPU [16],ByteNet[18],和ConvS2S[9]的基础,它们都使用了卷积神经网络作为基础模块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，将来自两个任意输入或输出位置的信号关联起来所需的操作数，随位置间的距离而增长，ConvS2S为线性增长，ByteNet为对数增长。这使得学习远距离位置之间的依赖性变得更加困难[12]. 在Transformer中，这种情况被减少到了常数次操作，虽然代价是由于平均注意力加权位置信息降低了有效分辨率，如第3.2节所述，我们用多头注意力抵消这种影响。

self-attention,有时也叫做内部注意力，是一种注意力机制，它将一个序列的不同位置联系起来，以计算序列的表示。self-attention 已经成功的运用到了很多任务上，包括阅读理解、抽象摘要、语篇蕴涵和学习任务无关的句子表征等。

已经被证明，端到端的记忆网络使用循环attention机制替代序列对齐的循环，在简单的语言问答和语言建模任务中表现良好。

然而，据我们所知，Transformer是第一个完全依赖于self-attetion来计算其输入和输出表示而不使用序列对齐的RNN或卷积的转换模型，在下面的章节中，我们将描述Transformer,motivate ,self-attention，并讨论它相对于[17,18]和[9]等模型的优势。

3 Model Architecture（模型架构）

大多数有竞争力的序列转换模型都有encoder-decoder结构。这里，encoder将符号表示的输入序列 $x_1,...,x_n)$ 映射成一个连续表示的序列 $z = (z_1,...,z_n)$ 。给定 $z$ ，解码器以一次生成一个字符的方式生成输出序列 $y_1,...,y_m)$ 。在每一步，模型都是自回归的[10]，在生成下一个字符时，将先前生成的符号作为附加输入。

Transformer遵循这个总体架构，使用堆叠的self-attention层、pointwise和全连接层，分别用于encoder和decoder，如Figure1的左半部分和右半部分所示。

译者注：

与pointwise对应的还有pairwise、listwise，不单独介绍，可以参考：【推荐】pairwise、pointwise 、 listwise算法是什么?怎么理解？主要区别是什么？

3.1 Encoder and Decoder Stacks（编码器堆叠和解码器堆叠）

Encoder：encoder由N(N=6)个完全相同的layer堆叠而成.每层有两个子层。第一层是multi-head self-attention机制，第二层是一个简单的、位置全连接的前馈神经网络。我们在两个子层的每一层后采用残差连接[11]，接着进行layer normalization[1]。也就是说，每个子层的输出是 $L a yer N or m (x + S u b l a yer (x))$ ，其中 $S u b l a yer (x)$ 是由子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及embedding层产生的输出维度都为 $d_{model} = 512$ 。

Decoder：decoder也由N(N=6)个完全相同的layer堆叠而成。除了每个编码器层中的两个子层之外，解码器还插入第三个子层，该子层对编码器堆栈的输出执行multi-head attention操作，与encoder相似，我们在每个子层的后面使用了残差连接，之后采用了layer normalization。我们也修改了decoder堆叠中的 self-attention 子层，以防止当前位置信息中被添加进后续的位置信息。这种掩码与偏移一个位置的输出embedding相结合，确保对第 $i$ 个位置的预测只能依赖小于 $i$ 的已知输出。

3.2 Attention（注意力机制）

Attention机制可以描述为将一个query和一组key-value对映射到一个输出，其中query，keys，values和输出均是向量。输出是values的加权求和，其中每个value的权重通过query与相应key的兼容函数来计算。

Figure 2 (left) Scaled Dot-Product Attention. (right) Multi-Head Attention

3.2.1 Scaled Dot-Product Attention（缩放的点积注意力机制）

我们称我们的特殊attention为Scaled Dot-Product Attention(Figure 2)。输入由query、 $d_k$ 的key和 $d_v$ 的value组成。我们计算query和所有key的点积，再除以 $\sqrt{d_k}$ ,然后再通过softmax函数来获取values的权重。

在实际应用中，我们把一组query转换成一个矩阵Q，同时应用attention函数。key和valuue也同样被转换成矩阵K和矩阵V。我们按照如下方式计算输出矩阵：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

additive attention和dot-product(multi-plicative) attention是最常用的两个attention函数。dot-product attention除了没有使用缩放因子 $\frac{1}{\sqrt{d_k}}$ 外，与我们的算法相同。Additive attention使用一个具有单隐层的前馈神经网络来计算兼容性函数。尽管在理论上两者的复杂度相似，但是在实践中dot-product attention要快得多，而且空间效率更高，这是因为它可以使用高度优化的矩阵乘法代码来实现。

当 $d_k$ 的值较小时，这两种方法性能表现的相近，当 $d_k$ 比较大时，addtitive attention表现优于 dot-product attention。我们认为对于大的 $d_k$ ，点积在数量级上增长的幅度大，将softmax函数推向具有极小梯度的区域（为了说明为什么点积在数量级上变大，假设q和k的分量是均值为0，方差为1的独立随机变量。然后它们的点积 $=\sum ^{d_k}_{i=1} q_i k_i$ ，均值为0，方差为 $d_k$ 。）。为了抵消这种影响，我们对点积扩展 $\frac{1}{\sqrt{d_k}}$ 倍。

3.2.2 Multi-Head Attention（多头注意力机制）

相比于使 $d_{model}$ 维度的queries，keys，values执行一个attention函数，我们发现使用不同的学习到的线性映射把queries，keys 和 values线性映射到 $d_k$ , $d_k$ 和 $d_v$ 维度h次是有益的。在queries,keys和values的每个映射版本上，我们并行的执行attention函数，生成 $d_v$ 维输出值。它们被拼接起来再次映射，生成一个最终值，如 Figure 2 中所示。

Multi-head attention允许模型把不同位置子序列的表示都整合到一个信息中。如果只有一个attention head，它的平均值会削弱这个信息。
$MultiHead(Q,K,V) = Concat(head_1, ..., head_h)W^o$
$head_i=Attention(QW^Q_i,KW^K_i,VW^V_i)$
其中，映射为参数矩阵 $W_i^Q ∈ ℝ^{d_{model}×d_k}$ , $W_i^K ∈ ℝ^{d_{model}×d_k}$ , $W_i^V ∈ ℝ^{d_{model}×d_v}$ 及 $W^O ∈ ℝ^{hd_v×d_{model}}$ 。

在这项工作中，我们采用 $h = 8$ 个并行attention层或head。对每个head，我们使用 $d_k = d_v = d_{model}/h = 64$ 。由于每个head尺寸上的减小，总的计算成本与具有全部维度的单个head attention相似。

译者注：

（1）原文中有部分数学符号没说明含义，这里解释下以免忘记，其中 $h$ 为注意力头的数量， $d_{model}$ 为输入和输出的Embedding层的维度， $d_k，d_v$ 分别为key,value的权重向量的维数。
（2）Transformer模型在输入时采用的是固定长度序列输入，且Transformer模型的时间复杂度和序列长度的平方成正比，因此一般序列长度都限制在最大512，因为太大的长度，模型训练的时间消耗太大。
（3）正是基于（2）的设计，用Transformer训练语言模型时，不同的序列之间是没有联系的，因此这样的Transformer对长距离依赖的捕获能力是不够的。所以在处理超过序列长度限制的长文本的时候，只能是将文本分割为多个固定长度的片段，对于连续的文本，这无异于将文本的整体性破坏了，导致了文本的碎片化，这也是后续Transformer-XL被提出的原因。

3.2.3 Applications of Attention in our Model（注意力机制在我们模型中的应用）

multi-head attention在Transformer中有三种不同的使用方式：

在encoder-decoder attention层中，queries来自前面的decoder层，而keys和values来自encoder的输出。这使得decoder中的每个位置都能关注到输入序列中的所有位置。这是模仿序列到序列模型中典型的encoder-decoder的attention机制，例如[38, 2, 9]。
encoder包含self-attention层。在self-attention层中，所有的key、value和query来自同一个地方，在这里是encoder中前一层的输出。encoder中的每个位置都可以关注到encoder上一层的所有位置。
类似地，decoder中的self-attention层允许decoder中的每个位置都关注decoder层中当前位置之前的所有位置（包括当前位置）。为了保持解码器的自回归特性，需要防止解码器中的信息向左流动。我们在scaled dot-product attention的内部，通过屏蔽softmax输入中所有的非法连接值（设置为 −∞）实现了这一点。

译者注：

Transformer中使用了两种mask：padding mask，sequence mask。
encoder中的Multi-Head Attention和decoder中的Masked Multi-Head Attention以及Multi-Head Attention中都有padding mask，sequence mask只出现在decoder的Masked Multi-Head Attention中。
(1) padding mask：每次批次输入序列的长度是不一样的，需要对序列进行对齐操作，具体做法以seq_length为标准，对大于seq_length的序列进行截断，对小于seq_length序列进行填充，但填充部分我们又不希望其被注意，因此填充部分为0，可以在填充位置加上一个负无穷大的数，这样经过softmax后便趋向于0；
(2) sequence mask：sequence mask是为了使得decoder不能看到未来的解码信息，因为在transformer中，输出序列是训练的时候是全部一下子全部传入网络中的，不似RNN那种递归的形式，因此对于一个序列来说，在t时刻我们解码输出只应该依赖于t时刻之前的输出，而不应该看到t时刻之后的输出，如果看到了那就不需要解码了，因此我们需要将传入的decoder数据进行sequence mask操作。具体操作是产生一个矩阵，矩阵的上三角全为1，对角线以及下三角全为0，再将该矩阵作用在query、key产生的矩阵上便达到了对后续序列mask。

3.3 Position-wise Feed-Forward Networks（基于位置的前馈神经网络）

除了encoder子层之外，我们的encder和decoder中的每个层还包含一个全连接的前馈网络，该网络分别单独应用于每一个位置。它包括两个线性转换，中间有一个ReLU激活函数。
$FFN(x)=\max (0, xW_1 + b_1)W_2 + b_2$

尽管线性变换在不同位置上是相同的，但它们在层与层之间使用不同的参数。它的另一种描述方式是两个卷积核大小为1的卷积。输入和输出的维度为 $d_{model}= 512$ ，内部层的维度为 $d_{ff}= 2048$ 。

3.4 Embeddings and Softmax （词嵌入和 softmax）

与其他序列转换模型类似，我们使用学习到的Embedding词向量将输入字符和输出字符转换为维度为 $d_{model}$ 的向量。我们还使用普通的线性变换和softmax函数将decoder输出转换为预测的下一个词符的概率。在我们的模型中，两个嵌入层（即模型架构图中的Input Embedding、Output Embedding）和softmax前的线性变换共享相同的权重矩阵，类似于[30]。在嵌入层中，我们将这些权重乘以 $\sqrt{d_{model}}$ 。

译者注：

共享权重的设计涉及到3个知识点：
（1）Embedding的本质和作用，引用苏剑林老师的话说：“Embedding的数学本质，就是以one-hot为输入的单层全连接。也就是说，世界上本没什么Embedding，有的只是one-hot。”
（2）输入和输出字符的Embedding层之所以能共享权重是因为论文中是机器翻译任务，源语言和目标语言是不一样的，但它们可以共用一张大词表（见下文5.1节有说），对于两种语言中共同出现的词（比如：数字，标点等等）可以得到更好的表示，同时共享权重可以减少参数量，加快模型收敛。共用词表会使得词表数量增大，增加softmax的计算时间，并且像中英这样相差较大的语系，语义共享作用可能不会很大，因此实际使用中是否共享可能要根据情况权衡。
（3）输出字符的Embedding层之所以能与softmax前的线性变换共享相同的权重矩阵，在于依据第（1）个知识点，输出字符的Embedding层是由one-hot编码产生出嵌入向量，softmax层是由从嵌入向量产生one-hot编码，两者作用相反，将权重共享后，两者的权重矩阵是互为转置的。当然目的也是减少参数量，加快模型收敛。

3.5 Positional Encoding（位置编码）

由于我们的模型不包含循环或卷积，为了让模型利用序列的顺序信息，我们必须加入序列中关于字符相对或者绝对位置的一些信息。为此，我们在encoder和decoder堆栈底部的输入嵌入中添加“位置编码”。位置编码和嵌入的维度 $d_{model}$ 相同，所以它们两个可以相加。有多种位置编码可以选择，例如通过学习得到的位置编码和固定的位置编码[9]。

译者注：

数学上，位置编码与输入字符的Embedding直接向量相加的运算做特征融合与concat方式是等价的。还有一种解释是空间维度很高，模型总能分开向量内的各个组分。数学推导可以参考这个解释：为什么 Bert 的三个 Embedding 可以进行相加？ - 铁心核桃的回答

Table1:Maximum path lengths, per-layer complexity and minimum number of sequential operations for different layer types. n is the sequence length, d is the representation dimension, k is the kernel size of convolutions and r the size of the neighborhood in restricted self-attention.

在这项工作中，我们使用不同频率的正弦和余弦函数:

$PE_{(pos,2i)} = sin(\frac{pos}{10000^{2i/d_{model}}})\\ PE_{(pos,2i+1)} = cos(\frac{pos}{10000^{2i/d_{model}}})$
其中pos 是位置，2i 是偶数维度，2i+1是奇数维度。也就是说，位置编码的每个维度对应于一个正弦曲线。波长形成了从2π到10000·2π的几何数列。我们之所以选择这个函数，是因为我们假设它可以让模型很容易地通过相对位置来学习,因为对任意确定的偏移k, $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。

我们还尝试使用预先学习的positional embeddings[9]来代替正弦曲线，发现这两个版本产生了几乎相同的结果 (见Table 3 row (E))。我们之所以选择正弦曲线，是因为它允许模型扩展到比训练中遇到的序列长度更长的序列。

译者注：

为何可以使用三角函数表示位置向量呢？
由三角函数的两个特性决定：
（1）由于三角函数的性质： $s in (a + b) = s in (a) cos (b) + cos (a) s in (b)$ ， $cos (a + b) = cos (a) cos (b) - s in (a) s in (b)$ ，于是，对于位置 pos+k 处的信息，可以由 pos 位置计算得到，作者认为这样可以让模型更容易地学习到位置信息。
（2）由做作者给出的位置编码计算公式可知：每一维 $i$ 都对应不同周期的正余弦曲线，第偶数维是周期为 $2\pi$ 的 $\sin$ 函数，第奇数维是周期 $T_i$ 为 $2\pi$ 的 $\cos$ 函数；对于不同的两个位置pos1和pos2，若他们在某一维度 $i$ 上有相同的编码值，则说明在维度 $i$ 上的差值等于该维度所在曲线的周期的整数倍，而此时在其他任意维度 $j（j\neq i）$ 上，由于 $i, j$ 位置上的三角函数的周期 $T_i \neq T_j$ ，因此在维度 $j（j\neq i）$ 上的位置编码值必然不相等。
以上两点共同保证了不同位置向量的所有对应维度上不会被编码成完全一样的值，保证了每个位置的编码向量都是独一无二的。

以下Pytorch代码实现帮助理解：

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout, max_len=5000):
        super(PositionalEncoding, self).__init__()
 
        self.dropout = nn.Dropout(p=dropout)  
        pe = torch.zeros(max_len, d_model)  # max_len代表句子中最多有几个词
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))  # d_model即公式中的d
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)  # 它的作用是将pe 变量注册到模型的 buffers() 属性中，这代表该变量对应的是一个“持久态”，不会有梯度传播给它，但是能被模型的 state_dict 记录下来。
 
    def forward(self, x):
        x = x + self.pe[:, :x.size(1)]  # 原向量加上计算出的位置信息才是最终的embedding
        return self.dropout(x)

4 Why Self-Attention（为什么选择selt-attention）

在这一节中，我们将self-attention layers与常用的recurrent layers和convolutional layers进行各方面的比较，比较的方式是将一个可变长度的符号表示序列 $x_1, ..., x_n)$ 映射到另一个等长序列 $z_1, ..., z_n)$ ，用 $x_i,z_i ∈ ℝ^d$ ，比如在典型的序列转换的encoder或decoder中的隐藏层。我们考虑三个方面，最后促使我们使用self-attention。

一是每层的总计算复杂度。
另一个是可以并行化的计算量，以所需的最小序列操作数衡量。
第三个是网络中长距离依赖关系之间的路径长度。在许多序列转换任务中，学习长距离依赖性是一个关键的挑战。影响学习这种依赖关系能力的一个关键因素是网络中向前和向后信号必须经过的路径的长度。输入和输出序列中任意位置组合之间的这些路径越短，越容易学习长距离依赖。因此，我们还比较了在由different layer types组成的网络中的任意两个输入和输出位置之间的最大的路径长度。

如表1所示，self-attention layer用常数次 $O (1)$ 的操作连接所有位置，而recurrent layer需要 $O (n)$ 顺序操作。在计算复杂度方面，当序列长度N小于表示维度D时，self-attention layers比recurrent layers更快，这是使用最先进的机器翻译模型表示句子时的常见情况，例如word-piece [38] 和byte-pair [31] 表示。为了提高包含很长序列的任务的计算性能，可以仅在以输出位置为中心，半径为r的的领域内使用self-attention。这将使最大路径长度增长到 $O (n / r)$ 。我们计划在今后的工作中进一步研究这种方法。

核宽度为 $k < n$ 的单层卷积不会连接每一对输入和输出的位置。要这么做，在相邻的内核情况下，需要一个n个卷积层的堆栈，在扩展卷积的情况下需要 $O(log_k(n))$ 层[18]，它们增加了网络中任意两个位置之间的最长路径的长度。卷积层通常比循环层代价更昂贵，这与因子k有关。然而，可分卷积[6]大幅减少复杂度到 $O(k ⋅n⋅d + n⋅d^2)$ 。然而，即使 $k = n$ ，可分离卷积的复杂度等于self-attention layer和point-wise feed-forward layer的组合，这是我们在模型中采用的方法。

译者注：

这段话翻译之后可能较难理解，简单地说就是一个卷积核一次不能关注到较远位置的信息，需要加多层卷积层才能覆盖到远距离的信息，但是多加卷积层会使计算复杂度增加，使得即使在最小复杂度情况下才与self-attention相当，因此选择self-attention。

一个随之而来的好处是，self-attention可以产生更多可解释的模型。我们从我们的模型中研究attention的分布，并在附录中展示和讨论示例。每个attention head不仅清楚地学习到执行不同的任务，还表现出了许多和句子的句法和语义结构相关的行为。

5 Training(训练)

本节介绍我们的模型训练方法。

5.1 Training Data and Batching（训练数据和batch）

我们在标准的WMT 2014英语-德语数据集上进行了训练，其中包含约450万个句子对。这些句子使用byte-pair编码[3]进行编码，源语句和目标语句共享大约37000个词符的词汇表。对于英语-法语翻译，我们使用大得多的WMT 2014英法数据集，它包含3600万个句子，并将词符分成32000个word-piece词汇表[38]。序列长度相近的句子一起进行批处理。每个训练批次的句子对包含大约25000个源词符和25000个目标词符。

5.2 Hardware and Schedule(硬件和时间)

我们在一台具有8个 NVIDIA P100 gpu的机器上训练我们的模型。对于paper中描述的使用超参数的基础模型，每个训练步骤大约需要0.4秒。我们对基础模型进行了总共100000步或12小时的训练。对于我们的大型模型（见表3的底线），步进时间为1.0秒。大模型使用了30万步（3.5天）的训练。

5.3 Optimizer（优化器）

我们使用Adam优化器[20]，其中 $β 1 = 0.9, β 2 = 0.98$ 及 $ϵ= 10^{-9}$ 。我们根据以下公式在训练过程中改变学习率：

$d_{model}^{-0.5} \cdot \min (step\_num^{-0.5},step\_num \cdot warmup\_steps^{−1.5})$

这对应于在第一次warmup_steps 步骤中线性地增加学习速率，并且随后将其与步骤数的平方根成比例地减小。我们使用 $warmup\_steps = 4000$ 。

5.4 Regularization（正则化）

训练中我们采用三种正则化：

Residual Dropout 我们在对每个子层的输出上执行dropout操作,这个操作在additive操作（子层的输出加上子层的输入）和normalized操作之前。此外，在编码器和解码器堆栈中，我们将丢弃应用到嵌入和位置编码的和。对于基础模型，我们使用 $P_{drop}= 0.1$ 丢弃率。

Label Smoothing 在训练过程中，我们采用了值 $ε_{ls} = 0.1$ [36]的标签平滑。这会影响ppl,因为模型学习到了更多的不确定性，但提高了准确率和BLEU评分。

6 Results（结果）

6.1 Machine Translation（机器翻译）

在WMT 2014英语-德语翻译任务中，大型Transformer模型（表2中的Transformer (big)）比以前报道的最佳模型（包括整合模型）高出2个以上的BLEU评分，以28.4分建立了一个全新的SOTA BLEU分数。该模型的配置列在表3的底部。在8 个P100 GPU上花费3.5 天进行训练。即使我们的基础模型也超过了以前发布的所有模型和整合模型，且训练成本只是这些模型的一小部分。

我们的模型在 WMT2014 英语-德语的翻译任务上取得了28.4的BLEU评分。在现有的表现最好模型的基础上，包括整合模型，提高了2个BLEU评分。

在WMT 2014英语-法语翻译任务中，我们的大型模型的BLEU得分为41.0，超过了之前发布的所有单一模型，训练成本低于先前最先进模型的1 ∕ 4 。英语-法语的Transformer (big) 模型使用 $P_{drop} = 0.1$ ，而不是0.3。

对于基础模型，我们使用的单个模型来自最后5个checkpoints的平均值，这些checkpoints每10分钟保存一次。对于大型模型，我们对最后20个checkpoints进行了平均。我们使用beam search，beam大小为4 ，长度惩罚 $α = 0.6$ [38]。这些超参数是在开发集上进行实验后选定的。在推断时，我们设置最大输出长度为输入长度+50，但在条件允许时会尽早终止[38]。

表2总结了我们的结果，并将我们的翻译质量和训练成本与文献中的其他模型体系结构进行了比较。我们通过将训练时间、所使用的GPU的数量以及每个GPU的持续单精度浮点能力的估计相乘来估计用于训练模型的浮点运算的数量(我们分别对K80、K40、M40和P100使用2.8、3.7、6.0和9.5 TFLOPS。)。

6.2 Model Variations（模型变体）

为了评估Transformer不同组件的重要性，我们以不同的方式改变我们的基础模型，观测在开发集newstest2013上英文-德文翻译的性能变化。我们使用前一节所述的beam search，但没有平均checkpoint。我们在表3中列出这些结果.

在表3的行（A）中，我们改变attention head的数量和attention key和value的维度，保持计算量不变，如3.2.2节所述。虽然只有一个head attention比最佳设置差0.9 BLEU，但质量也随着head太多而下降。

在表3行（B）中，我们观察到减小key的大小 $d_k$ 会有损模型质量。这表明确定兼容性并不容易，并且比点积更复杂的兼容性函数可能更有用。我们在行（C）和（D）中进一步观察到，如预期的那样，更大的模型更好，并且dropout对避免过度拟合非常有帮助。在行（E）中，我们用学习到的positional encoding[9]来替换我们的正弦位置编码，并观察到与基本模型几乎相同的结果。

6.3 English Constituency Parsing（英文选区分析）

为了评估Transformer是否可以扩展到其他任务，我们进行了英语选区解析的实验。这项任务提出特别的挑战：输出受到很强的结构性约束，并且比输入要长很多。此外，RNN序列到序列模型还没有能够在小数据[37]中获得最好的结果。

我们用 $d_{model}= 1024$ 在Penn Treebank[25]的Wall Street Journal（WSJ）部分训练了一个4层的transformer，约40K个训练句子。我们还使用更大的高置信度和BerkleyParser语料库，在半监督环境中对其进行了训练，大约17M个句子[37]。我们使用了一个16K词符的词汇表作为WSJ唯一设置，和一个32K词符的词汇表用于半监督设置。

我们只在开发集的Section 22 上进行了少量的实验来选择dropout、attention 和residual（第5.4节）、learning rates和beam size，所有其他参数从英语到德语的基础翻译模型保持不变。在推断过程中，我们将最大输出长度增加到输入长度+300。对于WSJ和半监督设置，我们都使用beam size = 21 和α = 0.3 。

表4中我们的结果表明，尽管缺少特定任务的调优，我们的模型表现得非常好，得到的结果比之前报告的Recurrent Neural Network Grammar [8]之外的所有模型都好。

与RNN序列到序列模型[37]相比，即使仅在WSJ训练40K句子组训练时，Transformer也胜过BerkeleyParser [29]。

7 Conclusion（结论）

在这项工作中，我们提出了Transformer，第一个完全基于attention的序列转换模型，用multi-headed self-attention取代了encoder-decoder架构中最常用的recurrent layers。

对于翻译任务，Transformer比基于循环或卷积层的体系结构训练更快。在WMT 2014英语-德语和WMT 2014英语-法语翻译任务中，我们取得了最好的结果。在前面的任务中，我们最好的模型甚至胜过以前报道过的所有整合模型。

我们对基于attention的模型的未来感到兴奋，并计划将它们应用于其他任务。我们计划将Transformer扩展到除文本之外的涉及输入和输出模式的问题，并研究局部的、受限的attention机制，以有效地处理图像、音频和视频等大型输入和输出。让生成具有更少的顺序性是我们的另一个研究目标。

我们用于训练和评估模型的代码可以在https://github.com/tensorflow/tensor2tensor找到。

我们十分感谢Nal Kalchbrenner和Stephan Gouws卓有成效的评论、修正和灵感。

参考资料

[1].Attention is all you need, 2017

你可能感兴趣的:(ML理论系列,论文研读笔记,深度学习,自然语言处理,transformer)

知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
稳定运行的以PostgreSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 postgresql 开发语言数据库性能优化 etl
在使用PostgreSQL作为数据源和目标的ETL（Extract,Transform,Load）过程中，当ETL性能变差时，可以通过一系列方法来诊断问题并提高性能。提高PostgreSQL数据库ETL性能的核心思想是从数据库配置、查询优化、硬件资源、并行处理等多个方面入手。通过上述方法逐步优化，可以大幅提升ETL过程的效率。下面是提高PostgreSQL数据库ETL性能的一些常用方法和步骤：1.
kubernetes高级实战云原生的爱好者 kubernetes 容器云原生
一、模拟企业环境进行一个实战部署[root@masternode]#kubectlapply-fpod-tomcat.yamlpod/tomcat-testcreated[root@masternode]#kubectlgetpodsNAMEREADYSTATUSRESTARTSAGEtomcat-test2/2Running02s[root@masternode]#kubectlgetpods-
netdxf 用法_vb.net 保存成dxf文件 weixin_39913807 netdxf 用法
为按钮添加代码PrivateSubButton1_Click(ByValsenderAsSystem.Object,ByValeAsSystem.EventArgs)HandlesButton1.ClickDimdocAsNewDXFLibrary.Document()DimtablesAsNewDXFLibrary.Tables()doc.SetTables(tables)DimlayersAs
嵌入式笔记 | 正点原子STM32F103ZET6 3 | 时钟系统 J鸟笔记 stm32 单片机嵌入式硬件
1.RCC（复位和时钟控制）RCC（ResetandClockControl）是STM32的时钟系统控制模块，负责管理整个芯片的时钟信号。在使用任何外设之前，必须先使能其时钟。2.时钟系统框图解析时钟源（5种）HSI（高速内部时钟）由内部RC振荡器产生，默认8MHz精度较低，适用于对时钟精度要求不高的应用可作为系统时钟源HSE（高速外部时钟）由外部晶振（石英/陶瓷谐振器或外部时钟）产生，频率范围4
Bell-1量子计算机分析：开启量子计算2.0时代的创新引擎 Allen_Lyb 行业智库分析与报告量子计算与量子学习量子计算
Bell-1量子计算机：开启量子计算2.0时代的创新引擎一、引言1.1研究背景在当今科技飞速发展的时代，量子计算作为前沿领域，正深刻地改变着科技格局，引领新一轮科技革命与产业变革。自20世纪80年代量子计算概念被提出以来，历经多年的理论探索与技术攻坚，已取得了众多突破性进展。从最初理论设想的提出，到逐步构建出量子计算机，每一次进展都吸引着全球科学界和产业界的高度关注，其发展历程见证了人类对计算能力
AI编程系列之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！知识大胖 NVIDIA GPU和大语言模型开发教程 AI编程信息可视化 claude
简介“编程并不是让你成为一个成功人士的必要条件。”Nvidia首席执行官黄仁勋。正如JensenHuang所说，LLM的最新特点让我们意识到了解编码可能并不像我们想象的那么重要。你知道吗，你可以在2分钟内创建一款贪吃蛇或俄罗斯方块游戏？在本文中，我们将探索Claude3.5Sonnet，你将明白为什么最近每个人都在谈论它。推荐文章《AnythingLLM教程系列之05AnythingLLM允许您创
C语言：setjmp和longjmp函数使用详解 houxiaoni01 C语言 setjmp longjmp
转载自：https://www.runoob.com/cprogramming/c-standard-library-setjmp-h.htmlhttps://blog.csdn.net/chenyiming_1990/article/details/86834131、C标准库-简介setjmp.h头文件定义了宏setjmp()、函数longjmp()和变量类型jmp_buf，该变量类型会绕过正常
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
SM系列密码算法在网络空间安全中的体系化应用研究安全
一、算法架构与技术特性解析1.1SM2椭圆曲线公钥算法基于Fp-256r1椭圆曲线构建，采用Weierstrass方程形式：y²≡x³+ax+b(modp)，其核心安全参数满足：素数模p：256位大素数基域Fp上椭圆曲线阶n满足n>2^191抗MOV约化攻击特性支持高效标量乘运算优化密钥协商协议采用改进的ECMQV机制，通过两步验证实现前向安全性，计算流程包含：临时密钥对生成：(d_A,P_A)←
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
25年申报工商年报前先看这篇笔记，帮你避坑，少走弯路！搬砖小杨聊资质笔记
又到工商年报申报的时候了（25年截止日期6月30日）,今年年报申报与去年有点区别，我特意整理出来与大家分享，帮助大家避坑。笔记不长，5分钟时间让你事半功倍，你就是老板眼中最靓的仔！！1、今年国家企业信用信息公示系统做了个更新，未完成年报填写或有多家公司需要申报的，一定要点击退出登录，不要直接关闭网页。否则当你想要继续填写年报或申报其他公司的，需要等待系统【自动退出登录】，时间2-3个小时，会大大影
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
基于FPGA的DDS连续FFT 仿真验证 toonyhe FPGA开发 fpga开发 DDS FFT IFFT
基于FPGA的DDS连续FFT仿真验证1摘要本文聚焦AMDLogiCOREIPFastFourierTransform(FFT)核心，深入剖析其在FPGA设计中的应用。该FFT核心基于Cooley-Tukey算法，具备丰富特性，如支持多种数据精度、算术类型及灵活的运行时配置。文中详细介绍了其架构选项、端口设计、理论运算原理，以及在不同场景下的动态范围特性。同时，结合VivadoDesignSuit
《Operating System Concepts》阅读笔记：p449-p459 操作系统
《OperatingSystemConcepts》学习第35天，p449-p459总结，总计11页。一、技术总结1.NVM&SSDFlash-memory-basedNVMisfrequentlyusedinadisk-drive-likecontainer,inwhichcaseitiscalledasolid-statedisk(SSD)(Figure11.3)。2.HDDScheduling
Claude 3.7 Sonnet 根据UI设计稿生成前端html页面徐同保前端 ui html
UI设计稿：提示词：你是一个前端代码工程师，根据UI设计稿，编写对应html页面，样式写在标签里，类名都以"m-"开头AI回答的结果：根据提供的UI设计稿，我将编写对应的HTML页面，所有类名都以"m-"开头，样式写在标签里。```html账单明细/*重置样式*/*{margin:0;padding:0;box-sizing:border-box;}body{font-family:-apple-
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
重建容器操作：对基于 docker-compose-project.yaml 配置文件的容器进行重启和更新操作 momopeng～ docker 容器运维
先停止当前运行的容器，然后删除这些停止的容器，最后重新创建并启动容器。需重建容器但配置不变的具体步骤：（1）修改调整docker-compose-project.yaml文件后保存（2）查看配置文件的容器运行状态：快速查看由docker-compose-project.yaml文件定义的所有容器的运行状态docker-compose-fdocker-compose-project.yamlps（3
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
【typescript进阶篇】(第四章) webpack编译ts及第三方库声明文件蒜香拿铁 typescript系列 typescript webpack javascript
使用webpack打包TS文件安装依赖安装webpack环境npmiwebpackwebpack-cliwebpack-dev-server-D安装TypeScriptnpminstalltypescript-D编译TSnpminstallts-loader-D热更新服务npminstallwebpack-dev-server-DHTML模板npminstallhtml-webpack-plugi
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力 AI小怪兽 YOLOv12魔术师 YOLO transformer 深度学习人工智能 python
提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；亮点包括：1.提出了一种新的基于Transformer的盲点网络（TBSN）架构；2.引入了知识蒸馏策略来提高计算效率；3.在
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
Webpack4从入门到精通以及和webpack5对比_webpack现在用的是哪个版本 2501_90253044 webpack 前端 node.js
'css-loader',//less-loader：将less文件编译成css文件，需要下载less-loader和less'less-loader'],},{test:/\.css$/,//使用多个loader用use,使用一个loader用loaderuse:['style-loader','css-loader'],},{//url-loader：处理图片资源，问题：默认处理不了html中
30岁了，零基础想转行网安从头开始现实吗？白帽子凯哥哥 tcp/ip 安全 web安全学习网络
这篇文章没有什么套路。就是一套自学理论和方向，具体的需要配合网络黑白去学习。毕竟是有网络才会有黑白！有自学也有培训！1.打死也不要相信什么分分钟钟教你成为大黑阔的，各种包教包会的教程,就算打不死也不要去购买那些所谓的盗号软件之类的东西。2，我之前让你们在没有目的的时候学习linux,在学习LINUX的同时你第一个遇到的问题就是命令。作为一个黑客入门着来说你必须要懂什么是命令化系统,什么是图形化系统
云原生大佬重生，记忆逐步复苏（九：systemd进程）子恒2005 云原生大佬重生记忆逐步复苏云原生 linux
目录1：什么是systemd守护进程2：Systemd参与的系统的初始化是怎么样的？3：systemd的单元类型4：具体的单元配置文件解析1：什么是systemd守护进程systemd是现代Linux系统中的一个系统和服务管理器，用于初始化系统、管理系统服务、维护系统状态、控制系统资源，并提供一系列其他功能来简化系统管理。systemd的主要作用和功能-系统初始化：systemd是Linux系统的
【存储中间件】Redis核心技术与实战（六）：Redis的设计与实现（缓存淘汰算法、过期策略与惰性删除）道友老李 #Redis核心技术与实战架构师进阶-存储中间件缓存中间件 redis
文章目录Redis的设计与实现缓存淘汰算法maxmemoryNoevictionvolatile-lruvolatile-ttlvolatile-randomallkeys-lruallkeys-randomLRU算法近似LRU算法LFU算法为什么Redis要缓存系统时间戳过期策略和惰性删除过期惰性删除lazyfree个人主页：道友老李欢迎加入社区：道友老李的学习社区Redis的设计与实现缓存淘汰
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro