zenRRan

【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用

嘉宾 | 于恒

来源 | AI科技大本营在线公开课

编辑 | Jane

于恒：直播间的朋友大家好！欢迎大家来到本次AI科技大本营公开课，我是本次讲师于恒。

在讲课开始之前先简短的做个自我介绍，我是博士毕业于中国科学院计算技术研究所，方向是机器翻译的方向，目前在阿里巴巴翻译平台担任翻译模型组负责人，主要是为阿里巴巴的跨境电商贸易提供丰富的语言支持，让跨境贸易没有语言障碍。

今天非常高兴受到CSDN AI科技大本营的邀请，给大家分享自己在机器翻译方面的研究和工作。大家可以看到我PPT下面的几个 LOGO，我们翻译团队是属于阿里巴巴机器智能技术实验室，中间是阿里翻译的 Logo和我们的口号“Translate and Beyond”。

这次分享的题目是“Transformer新型神经网络在机器翻译中的应用”。

关注AI的同学最近应该会看到，机器翻译是一个比较活跃的领域，很多大公司都争先推出了自己的机器翻译服务，包括还有一些机器翻译的硬件已经在市场上投放，比如翻译笔。

产业的兴旺离不开背后技术的巨大进步，从今天的课程当中，我会给大家介绍背后技术的神秘面纱，然后对Transformer这个神经网络做深入的解析。

神经网络机器翻翻译是目前比较主流的机器翻译方法，它是“Sequence to Sequence”model，也就是端到端的翻译框架。如左图所示，我们输入一个待翻译的句子，通过神经网络编码器，去把这个句子的信息编码成中间状态，就是这个图中红色的部分，它用数值的隐层来表示。经过中间状态、经过神经网络解码器去生成对应的翻译，是编码、解码的过程。翻译的知识和参数都是由神经网络自动进行学习的，它省去了之前传统方法之前的人工干预模块，使整个翻译过程统一化，并且简洁。

随着深度学习发展带来的红利，这个翻译模型的性能有显著提升。如右图所示，这是谷歌翻译当时Release的数据，传统的是基于短语的翻译系统，翻译的性能远低于基于神经网络的翻译，就是那根绿色的线。并且神经网络的翻译在某些语项上是接近人类的水平。我们还可以注意到，在“英语到西语”、“英语到法语”，同样是拉丁语系的翻译上，神经网络的翻译和human的gap比较小，在“英语到汉语”这两者语言差异比较大的、翻译难度大的语种上gap比较大，所以神经网络仍然有比较大的进步空间。这是目前神经网络目前翻译的总体质量情况。

它背后的技术是怎样呢？从这个图可以大概看出来传统的基于RNN的“Sequece to Sequence”model是怎么运行的，这个例子是一个“英文到中文”的翻译，英文“Economicgrowth has slowed down in recent years”通过这个循环的RNN神经网络去逐词读入源端的句子，最终把它编码成红色那个点隐层的信息，根据这个隐层的信息输入到另外一个目标端的循环神经网络，然后逐词生成中文的翻译“近几年经济发展变慢了。”这里的是一个句子结束符的表示，生成的过程在句子末尾添加这样一个标志表示翻译过程结束了。

传统的RNN神经网络结构是可以处理任意长度的输入，它非常适合于自然语言的建模，所以它在一段时间内占据了整个神经网络中的主流。随着学术的发展，我们也会看到RNN有些不足，它的缺点主要有两点：第一点，RNN序列的特性导致其非常难以并行化，从上图可以看出，如果把RNN展开来是一个序列型的网络，比如我要得到X4的结果时，必须先计算出X0-X3的结果，这样的串行关系使它的并行度非常低。举一个例子，谷歌的GNMT的神经网络系统，它是需要96块GPU卡训练一周的时间才能完成一个模型的训练。96块GPU卡对于一个研究机构或者小公司来说是个巨大的开销，基本是负担不起的，并且还要训练一周的时间，所以RNN特性使整体模型训练速度非常慢、成本非常高。

另外在RNN训练中，RNN的网络结构对于长距离和层级化的依赖关系难以建立，比如句法信息、指代信息的关系，由于它只是一个单一的序列，所以它很难对这些关系进行建模。举个例子，“The dog didn’t cross street because it wastoo tired”，当我们看到“tired”的时候知道这个it指dog 。如果把最后一个词换了，“The dog didn’t cross street because it was too wide”，这时候如果是人看了这句话就很容易发现it 指的是street，因为street because it was wide，不可能是dog too wide。对于人来说很简单，但是机器要分清楚指代关系是非常难的。如果将这个句子翻译成法文或者德文的话，法文、德文对于dog和street翻译所用的格是不一样的。所以在GNMT或者传统的翻译处理中，这些case时基本是做不对的，如果做对了可能也是蒙的，这是RNN一个比较显著的局限性。

基于以上RNN的缺陷，我们肯定希望有更好的神经网络去代替它。我们期望是这样的：第一，它是可以高度并行化的网络。RNN的特点导致我们要抛弃RNN的结构，实现速度成倍的提升。并且我们需要能够捕捉层次化的信息，就需要建立一个很深层的神经网络，而不是单层的一个序列的LSTM的网络。并且我们需要能够对指代信息丰富的上下文进行建模，这需要Self-Attention、Multi-head Attention这样的技术。左边这个演示的是Transformer整体的训练过程，在Encoding的部分简单可以看到，每个词是很并行化处理的过程。在Encoding之后Decoding是根据深层神经网络当中的输入不断逐词解码，最终生成翻译。

这引出我们今天讲座的主题，将会分四个部分对Transformer进行解析：

第一，对网络结构进行解析；
第二，对在机器翻译中的应用进行介绍；
第三，因为我是从阿里翻译过来的，所以我会从工业实践的角度对Transformer进行介绍。我们最近参加了WMT2018全球机器翻译评测，拿到了比较好的结果。
最后，从评测的结果对Transformer的表现进行分析。

▌一、对网络结构进行解析

Transformer这个网络命名，Transformer在英文翻译过来有变形金刚的意思，我想当时作者也是希望借助强大的变形金刚赋予这个网络更强的力量。

如果我们用放大镜高维度解析这个网络，拆开之后它仍然是“Sequence to Sequence”框架进行的，它分Encoder和Decoder两部分。我们再进一步细化的话，这个图包含很多信息。首先，我们看到Encoder有6层，Decoder也有6层，为什么要有多个层？从Encoder的角度，低层的Encoder是表层的词法信息，逐步向上进行抽象之后，在上层将表示抽象语义信息。Encoder部分还在最上层连了几条线到每个Encoder的部分，这就是刚才谈到Attention的部分，Decoder的网络中和Encoder也有信息传递和交互的。最后一个特点是Decoder和Encoder画的大小是一样的，因为它们层的维度大小是一样的。这个图表达了以上这些信息。

多层的神经网络结构能够对句子层级化信息进行建模，如果我们更精细的去看每一层的结构，就会发现这样的情况：Encode分两个子网络部分，第一个是Self-Attention，第二个部分是Feed Forward，大家比较熟悉，就是传统的前馈神经网络，我们摒弃了传统的并行化比较低，而且比较简单且高度并行化的前馈神经网络。

Self-Attention是自注意力机制层，表征句子当中不同位置词之间的关系，是我们前面提到的it和street 或dog之间的依赖关系。Decoder层比Encoder层多一个子网络，就是Encoder-Decoder Attention，它是源端到目标端的注意力机制，对源端词到目标端的助理机制，不是源端到目标端词的依赖关系，用到翻译里是说这个源端待翻译的词和源端生成翻译词之间的依赖关系。

我们如果进一步对Encoder部分进行细化，它长成这样。我们输入代翻译词是“Thinking Machines”，先会去查找这两个词分别表示成词向量的形式，再经过Self-Attention层得到Attention的输出，再经过Feed Forward自动生成Encoder1的输出，Encoder1的输出作为Encoder2的输入，这样以此类推，6层一直拼到上面去。在整个Encoder网络中，Feed Forward是大家比较熟悉的部分，但应该大多数观众的情况并不太了解Attention，因为它是神经网络机器翻译中提出的概念，在其他的网络这种概念并不常见。

下面我们对Attention这个概念给大家进行进一步剖析，什么是Attention？从语言学的角度，它是表示词与词之间的关联关系，像下图所示，这是一个Self-Attention的示意，它这个it会和其他位置的词发生关系，颜色越深的是说关系越紧密，从中图中看到它很正确的关联到了animal它实际指代的一个词。

从机器学习的角度，这个Attention是神经网络隐层之间一个相似度的表示，什么是Self-Attention？就是表示句子内部词与词之间的关联关系，就像这里的it到animal，可以用于指代消解等问题。什么是“Encoder-DecoderAttention”？就是编码序列和解码中词与词的关联关系，以机器翻译为例，它是表征翻译中源端到目标端可能互译词之间的对应关系。这个也比较好理解，比如你在翻译一个词的时候，源端每个词的贡献度是不一样的，它表示这种不同的注意力的关系。传统的Attention，就是RNN、LSTM网络中也是有Attention的，但是Attention的计算方式是相对简单的，蓝色是编码器的序列，红色是解码器的序列，当解码器序列当中的一个隐层是Attention的时候，它会这个层与Encoder每个层之间的相似度，然后通过这个相似度作为位置对Encoder每一层进行加权，生成Ct，Ct就是整个Attention的输入。这是一个比较简单的Attention计算，但是它的表现能力是非常有限的。

我们在Transformer中提出一种扩展性更高、并行度更高的Attention计算方式，它把Attention看作一个基于内容的查询的过程，content based query，它会设置3个vector：QueryVector、Key Vector、Value Vector。并且每一个Vector都是通过它的input embedding和权重的矩阵相乘得到的。我们利用这个Q、K、V进行各种数值的计算，最终得到Attentionscore。这个计算过程是相对复杂的。

我们用一个例子来给大家演示一下具体的Attention是怎么计算的。如果我们计算“Thinking”这个词，用Self-Attention的话，首先会用它的Query Vector乘以K的向量，如果计算和第二个位置的attention是乘以T2的矩阵得到一个score，这个score再去和它维度的平根根进行相除，这个相除有数学上的含义，能够使它回传的梯度更加稳定，除完后得到一个数值进行softmax，所有Attention都是正数并且相加之和等于1，这是从数学正确上考虑，并且最终得到概率这个值是去定义每一个词在当前位置的表现力。Softmax之后，我们会用softmax得到的乘以它Value的矩阵，这样实际得到Attention的值，最后会把不同位置得到Attention的score加到一起，形成当前位置Attention的Vector，就是Z1，加上逐词计算的话就得到所有位置的Attention。

刚才说到的是一个基于向量之间的运算，但是根据提到Transformer系统是一个高度并行化的系统，所以我们有一个很好的并行策略，就是基于将Vector计算变成基于矩阵的运算，因为我们在Encoder时所有的词都是并行计算，我们把所有词的词响亮拼在一起形成矩阵，用这个矩阵和它的Q、K、V的权重矩阵进行相乘，方便得到Q、K、V矩阵，Q、K、V矩阵用一个公式表示数值操作，就得到Attention的矩阵，这是一个高度并行化的操作，可以通过一步运算直接完成的，这个在GPU上很容易、速度很快。

这是Attention的一种计算方法，我们对计算方法进行了拓展，提出了“Multi-head Attention”的方式，就是“多头”Attention，我们设置多个Q、K、V矩阵和它实际值的矩阵。它这样设计是有两种好处，第一种好处是它的可训练参数更多，能提升模型能力，去考虑到不同位置的Attention，另一个好处是对于这个Attention赋予了多个子空间。这个从机器学习的角度来说，首先参数变多了，拟合数据的能力变强了。从语言学是这样的，不同的子空间可以表示不一样的关联关系，比如一个子空间是表示指代的Attention，另一个子空间可以表示依存的Attention，另一个子空间表示其他句法信息的Attention，它能够综合表示各种各样的位置之间的关联关系，这样极大的提升了Attention的表现能力，这是传统的RNN、LSTM系统当中所不具备的，也是最终实验时会对性能有巨大影响的一个工作。

举个例子，比如我们有8个“Multi-headAttention”，输入一个“X”会计算出8个权重Attention输出的矩阵。那这8个矩阵怎么用呢？我们还需要把8个矩阵拼起来，然后用一个降维矩阵对它进行矩阵操作，把它压缩到一个我们能够相对接受的大小，对于信息进行压缩，这样可以避免后面矩阵操作维度过大导致整个开销比较大。所以它最终会压缩到一个比较小的维度。

以上就是Transformer当中Attention机制的计算，从Big picture来看，它分几个部分：第一个部分是我们找到输入的句子，第二个部分去生成它的词向量的表示，并把它拼在一起，拼成matrices，这个matrices去和Q、K、V的权重矩阵进行数值运算，得到Q、K、V三个矩阵的数值，三个矩阵的数值通过之前的公式得到Multi-head Attention的值，Multi-head Attention拼在一起，通过一个降维矩阵，最终压缩到我们觉得比较合适的一个维度，来作为Attention子网络的输出。

以上是Attention的主要内容，当然，Transformer还有其他的网络，也可以给大家介绍一下。“Positional Encoding”是对于这个序列中每一个位置进行建模。

刚刚提到完全并行的矩阵操作时，大家可能会有一个疑问：这个不是一种指代模型吗？之间位置不考虑了，但不同位置在翻译中是很重要的关系，就是哪个词在哪个词前面，前后关系有非常大的意义。我们通过这个“Positional Encoding”去对位置进行建模。具体的时间、方法，我们对每一个词的embedding会加一个基于位置的embedding，S1会加一个T1，这个T1是和它的位置相关，位置就是编码第0个位置、第1个位置，依次打下去。这个T是根据这个公式计算的，这个公式是数学上选择比较好的一个公式，并且它和实际的Position是相关的。举个例子，如图所示，这个三个词的句子，每个位置的positionEncoding的数值大概是这样的，它通过这个数值加到原始的embedding上面，使这个embedding天然具有了它的位置的信息，在后面建模过程中我们会考虑每个词位置的信息。

另外一个是直连层网络“Residual connection”，了解的同学知道“Residual connection”是对于较为深层的神经网络有比较好的作用，比如网络层很深时，数值的传播随着weight不断的减弱，“Residual connection”是从输入的部分，就是图中虚线的部分，实际连到它输出层的部分，把输入的信息原封不动copy到输出的部分，减少信息的损失。“layer-normalization”这种归一化层是为了防止在某些层中由于某些位置过大或者过小导致数值过大或过小，对神经网络梯度回传时有训练的问题，保证训练的稳定性，这是神经网络设计当中两个比较常用的case，基本在每个子网络后面都要加上“layer-normalization”、加上“Residual connection”，加上这两个部分能够使深层神经网络训练更加顺利。这是另一个主要的细节。

小结一下，刚才对神经网络做了比较详细的解释，它如下图所示，图里面画了两层的Encoder和Decoder，曾底层的词的输入到embedding的输入，X1、X2，加上“Positional Encoding”的输入，输入到第一个Encoder当中，经过self-Attention层，直连的“Residual connection”和归一化层，得到的输出再去输入到前馈神经网络中，前馈神经网络出来之后再经过直连层和归一化层，这样就完成了一个Encoder部分，再以这个输入到第二个Encoder之后，它会把第二个Encoder的输出作为第一个Decoder的输入，也是依次进行上面的过程。

这个图中有一个细节需要大家注意，目标端的Attention注意力机制是一个masked注意力机制，为什么？比如在机器翻译当中，在源端能够看到所有的词，但如果你目标端生成翻译时是自左上右，生成翻译时能够看到前面已经生成词的信息，看不到后面层的，这是目标端Attention和源端Attention比较大的区别，所以在目标端所有的Attention都是加Masked的，这个Masked相当于把后面不该看到的信息屏蔽掉，这是Transformer network的小结。

▌二、基于Transformer的机器翻译系统

Transformer的网络是怎么用到机器翻译里的？Encoder端是源端的法语句子，目标端是英语的句子，随着时序的不断进行，每次生成一个词的翻译，最终它会生成一个的符号，这个符号表示整个解码过程结束了。

它是怎么生成每一个词的翻译呢？因为我们知道Decoder最上层的输入也是一个隐层，是2048或者1024的隐层。那么这个隐层是怎么对应到输出的那个词呢？后面的网络是这样的。首先，我们对每种语言会有一个固定的词表，比如这个语言到底有多少个词，比如中文里有2万词、3万词、5万词。对网络隐层会先过一个线性的投射层，去把它投射到一个词表大小的向量维度，形成一个词表大小向量，我们在这个向量基础上做softmax，把它转成概率。譬如是3万的词，去选取里面概率最大的那个词作为我们实际的输出，这里面第五位是最大的，它会输出一个am，这样就达到了通过Encoder输出隐层来去实际生成一个词翻译的效果。

另外一个部分是神经网络优化目标，在神经网络训练的过程中是需要平行语料的，所谓平行语料是源端和目标端都需要有。我们训练的目标是使神经网络生成这个翻译的概率分布尽量去贴合实际参考答案的概率分布。右边这个图我们希望它生成的概率分布，对于那个句子在第一个Position的时候希望i的概率是最大的，第二个希望am是最大的，以此类推。但这是训练好的，一开始训练时是随机处理化的概率分布，经过几千万句子的不断训练，会得到这样一个比较好的分布。

它的训练优化目标是概率的交叉熵cross entropy，以crossentropy作为梯度更新的优化目标。（上图）左边这个图优化目标的loss相当于它训练的轮数，因为是entropy，所以是稳定下降的过程。相应的，翻译的评价目标Bleu值是匹配度加权的分数，Bleu值越高越好，它随着训练过程的进行会有一个逐步向上升的过程。训练的优化目标就是这样的，通过交叉熵的优化来达到Bleu，就能翻译效果优化的过程。

我们看看Transformer的结果是什么样的，回到最开始的例子，用Trans网络对于句子的Attention进行了分析。得到了比较有意思的结果，（下图）左边这个句子，当最后一个词是too tired的时候，it所对应到的注意力机制最多的部分是animal，这是它对应到正确的部分，如果最后一个词是wide的时候它对到street是最多的。这样就非常有意思，Attention其实确实能够建模到比较难的指代消解问题，这也是比较好的，超越之前RNN和STLM的，就是Attention表示能力更强。

（上图）右边这个表是列出谷歌公布的数据，基于RNN的GNMT和Transformer的比较，在bleu值上Transformer有比较明显的提升，并且它在训练的时间上面只需要8块GPU卡，训练4.5天就可以达到一个比较好的模型，而传统的基于RNN需要90块GPU卡训练6天才，效果还不如Transformer的翻译系统。这相比原来的RNN有一个非常显著的提升，是目前工业界、学术界对于机器翻译来说最好的智能网络。

刚才对Transformer有了详尽的介绍，下面说一下Transformer在阿里翻译当中的表现。

▌三、Transformer在阿里翻译中的工业化实践

刚刚提到工业化实践，最大的一个问题是大数据，传统的实验室环境是几十万、几百万的语料，但对阿里这样大规模电商场景的机器翻译是需要很多语料的，需要上亿平行语料的训练，但对这么多平行语料用单GPU卡训练非常慢，基本是训不出来的。

第一个需要解决如何使用分布式训练，就是多机多卡的方式来去训练Transformer。但是Transformer的特点是对于训练超参数非常敏感的网络，我们当时尝试了各种各样的训练方法，试了异步梯度更新、同步梯度更新等不同的分布式训练策略。我们最终发现是基于同步的Adam，对于多机多卡是得到性能最稳定的一个更新方式。

这种方式在谷歌开源的那个Transformer系统和其他比较开源的Transformer系统中，大多数都是用这样的方式来进行多机多卡训练的。这个背后理论上也没有很好的解释为什么这个对于Transformer是更好的，主要是通过大量的实验去得到的一个结果，大家如果有多机多卡的训练需求，最好考虑基于同步梯度更新的Adam算法。

另外一个是跟机器翻译很相关的问题，通常GPU显存有固定的大小，比较差的卡是4个G、几个G，好的卡可能有12个G、24个G。对于Transformer而言，有些人做过实验，你如果训练时开更大Batch size，训练的效果会更好。这就带来一个问题，你如果想开大的Batch size的话，一个句子里面的长度就会很有限，因为你显存就那么大。假设长度设成40的话，那我Batch能开400或者500，如果我要开到800 Batch的话，能容纳的句子长度就会变小。这是一个搏弈的问题，因为硬件的限制导致你不得不做这个Tradeoff。

之前我们在TensorFlow低版本的时候都是不支持，只能用刚刚的方法。但是从tensorflow1.5以后，它引入了一个“Dynamic Batching”的机制，这是tensorflow的更新带来的变化，它会把原来写死的固定长度的图，用图中循环的方式表述，这样它可以支持动态的计算图，了解tensorflow的同学会比较清楚。通过用了这种机制之后，我们可以动态的改变这个batchsize，好处是当我们训练这个句长比较长的时候，就可以动态的把batch size缩小。这样可以在训练的时候覆盖更长的句子，长的句子在翻译的案例中都有，比如电商描述或者新闻都有很长的句子，这样我们就能得到更多的训练语料，训练语料使用更加充分，对我们生产时性能得到很大的提升。

另外一个是“Moving average”机制，这个可能也是比较专业的一个说法，它能保证训练的稳定性。它主要的做法是，在训练比如5000个保持一个模型，中间模型有一个滑动的窗口，每次计算时会把窗口内所有的模型进行平均化。这个平均化有几个作用：第一个作用是可以避免脏数据带来的某个点梯度更新很差的情况，它每次都是多个模型去做平均化，这样模型更加稳定，另外，借助专家系统的机制，把多个模型的结果组合在一起，它得到的性能也会有一定的提升。需要指出的一点是，如果你训练当中用了这个策略，生成模型之后再用“Moving average”的时候性能是打折扣的，因为训练当中已经用了“Movingaverage”机制，把这部分的性能释放出来一些了。但总体上我们推荐使用“Moving average”机制，这样会使整个训练更加稳定。

提升模型鲁棒性的算法“Dropout”，这是机器学习或者神经网络中比较常见的机制，但是在真实场景中非常好用的一个机制。Dropout是在每层神经网络中随机屏蔽掉一些单元的神经输入，一般Droput是0.1，我们会屏蔽掉10%的输入，因为屏蔽掉10%的信息，模型需要学得更好，它的鲁棒性更加好。我们也做了相关的实验，黄色的线是基线系统，蓝色的线是Dropout，加入了Dropout时一开始模型训练得比较慢一些，但训练时间长了之后由于鲁棒性的提升，最后的曲线是会在那个之上的，最终收敛的性能也比那个更好。

这是在训练过程中的一个小的改进，主要是我们在大数据生产时，如何训练数亿级别语料规模的Transformer的重要手段。

▌四、Transformer在WMT2018全球机器翻译评测中的表现

大家不知道这个评测或者对机器翻译不熟悉的话，我可以给大家介绍一下。这个评测是国际公认的顶级翻译赛事之一，也是各大科技公司与学术结构展示自身翻译实力的一个平台，2018年有很多霍普金斯大学、爱丁堡大学、亚琛工业大学、马里兰大学、微软、腾讯等很多机构参与，我们也取得了比较好的成绩。阿里巴巴翻译团队在WMT2018上“英文到中文”、“英文到俄罗斯语”、“英文到土耳其语”5个语项上获得了第一名的成绩，这个图也是最终比赛的冠军图。

从这个竞赛可以反映出一个特点，就是Transformer在2018年竞赛中已经获得非常普遍的认同，80%以上的系统都是采用Transformer，这是个非常惊喜的改变。在2017年WMT评测时大多数系统是基于RNN和LSTM的系统，包括最终获得冠军的系统也是基于这个的。仅仅过了一年时间，各大机构都争先使用的Transformer。这个是系统描述的图，参赛的几个系统当中大多数都有Transformer的关键词，还有一些其他一些基于RNN等系统是凤毛麟角的。所以Transformer网络在机器翻译领域已经受到广泛的认可。

这里给大家推荐几个比较好用的基于开源的机器翻译Transformer系统，在开源时代方便大家更好的学习，你有足够的语料，通过这些开源的机器翻译工具也可以搭建一个性能比较好的机器翻译引擎。主要推荐三个，第一个是Marian，是爱丁堡大学公开的开源工具，非常好用；第二个是 Nematus，也是爱丁堡大学开发的；第三个是 Sockeye，是亚马逊推出的机器翻译工具。感兴趣的同学可以去网上下载并使用这些工具去学习，看它里面的代码是如何实现的。

回到竞赛的部分，Transformer从竞赛的角度有哪些经验？我这里分享了几点，做评测跟做工程很不一样，评测是限定的数据级，在限定的数据级上达到极致的效果，我觉得有四点：

第一，精细的数据过滤和筛选，不会投入大量的精力用于基础语料集合确定，主办方会给你一个语料集合，但这个语料集合里有一些噪音或者不好的语料，怎么通过各种规则、分类模型选择或者基于n-gram过滤等等，去选择一个比较好的技术语料集合，这是花大力气做的，因为如果底层技术都不好的话，训练出来的上层建筑肯定是不行的。

第二，相信统计的力量。这是神经网络模型一个新的特点，成绩比较好的单位都训练很多模型，并且用很多策略训练不同的模型，最终用这些不同的模型去进行Ensemble learning或者进行组合，最终输出一个最好的系统。比如阿里可能会做100多个系统，采用Ensemble learning的方式。这也是成本越来越大的问题，为了达到更好的性能，我们需要介入更多GPU资源支持更多模型的训练，最后去达到这种微小几个点的性能提升。

第三，尽量用更多参数去合数据和领域，因为它的数据和领域都是很限定的，所以你需要去用更多的方法、更多的策略去拟合策略，比如Modelfine-tuning的策略，做微调的策略，你可以筛选更适合这个领域或者更拟合这个开发测试集的数据，去对你的model去进行fine-tuning。另外，还可以做global features去做Re-ranking，Re-ranking也是对性能有一定提升的点，你在翻译时可能只看到部分信息，但是当你的翻译都生成之后，可以提取更多双语的信息，去对开发集调一个更好的模型。

第四，尽可能用更多信息，因为主办方提供双语料的同时会提供大量的单语料，单语料可以有不同的方式，比如用Back-Translation的方式把它翻译回来，然后加入到你的模型里作为伪语料，伪的生成的双语语料加入到翻译系统里去训练，并且还可以去训练一个大规模的n-gram语言模型或者神经网络模型，最终加到Re-ranking模块里去调性能。

主要就这四点，其他的信息也期待WMT在后面Release出来的paper，我们会在文章里详细进行介绍。今天我们就结束了整个的介绍内容。

▌五、总结

Transformer新型神经网络的主要特点：

第一，并行化。并行化程度非常高。
第二，深度神经网络，可以表征层次化的信息。
第三，有复杂的Attention机制，可以表征指代消解或者各种不同词与词之间的依赖关系。
第四，性能非常好。

工业实践方面提出了：Synchronous Adam，Dynamic batching，Moving average，Dropout。四项比较实用的、值得尝试的方向。

竞赛经验方面：多模型ensemble，Fine-tuning，re-ranking，back-Translation这样一些竞赛比较适用的方法。也是从多维度给大家展现了Transformer的全貌。

▌六、对外思考和对目前Transformer问题的思考，我们还有哪些地方缺失了？

这是我参考微软刘教授的报告，我读完他的报告之后比较认同的几个观点：

第一个问题，我们在训练过程中提到优化目标是最大概率的优化目标，但是我们实际在去评价翻译质量时是用bleu去衡量的，这样等于优化目标和衡量的目标是不一致的，这样会带来一个显然的问题，就是优化目标和实际目标之间总是会存在差异的。给大家推荐两个可能的解决方案：第一个是MRT，ACL2015年提出的工作，把bleu值加入到神经网络优化目标方向之中。第二个是NAACL2018年的工作，利用GAN网络，用对抗网络的形式去对优化目标进行表示，这样也是能够使训练的优化目标和实际的评价目标能够一致的一种方式。

第二个问题，它还是需要大量的平行语料的数据，也就是标注数据。这个是对于一些小语种语言，比如东南亚的小语种平行语料是很稀缺的资源，如何对这些资源稀缺的语言搭建更好的翻译系统呢？目前有两个方向，一个是Unsupervised neural machineTranslation，这个做得比较好的是Facebook，目前走得比较远，它是利用完全非平行单语的语料去训练机器翻译系统，目前性能还不足够好，但它仍然在发展过程中。另外，微软也提出基于dual learning方法，也是通过非平行语料，通过dual learning的方式提升性能，也是一个比较值得尝试的工作。

第三个问题，它在生成翻译过程中是依赖知识搜索的。这个问题在于搜索是需要减值的，减值的标准是概率的大和小，但你在训练时是没有这个概念的，你的训练时是根本不会考虑到beam search的问题，但是在实际解码时对beam search模型是未知的，那在训练过程中如何把你搜索的过程也建模进去，这是一个比较好的方向。当时刘老师提到他想用AlphaGo基于reward计算的方式在模型训练的阶段去训练这个网络，你在每步beam search的时候它会给你计算一个reward，通过这个reward来进行减值，这样可以把训练和解码两者结合到一起，是个更好的解决方案。

第四个问题，由于Transformer它Attention的数据运算是比较复杂的，在生成翻译解码的阶段比较慢的，这是由于Attention的构造而导致的。这里给大家推荐的是基于AverageAttention Network（Zhang，ACL2018），它巧妙的改变了Attention的结构，最后可以很高效的计算出目标端的Attention，在性能不受损或受微小损失情况下有2-3倍的性能提升。未来期待更多能在Transformer上改进的工作，把神经网络推向更高的位置。

▌七、Q&A

以上是本次讲座的主要内容，现在是问答环节。

Q：为什么Conv Seq2Seq 不如Self-Attention？

A: Conv Seq2Seq是基于CNN的一个比较新的工作，是Facebook提出来的，这个众说纷纭，它在CNN上是比较好的，在性能上大家也都试过，大部分反馈不如谷歌提出的Self-Attention。从我个人观点来说，它在Attention计算上不然Transformer，所以它可能掺杂这个部分。

另外，Facebook没有投入更多人力去优化这个，而Transformer从一开始到后面迭代了很多版本，一开始性能可能不是那么好，但后来谷歌持续投入、维护、不断升级，从去年6月份提出开始一直到12份都有代码的更新，包括其他的像发电报大学也都跟踪这个方向，众人拾柴火焰高，大家不断投入这个领域，能够把这个越做越好。

Q：Transformer中三个地方用到的Attention能不能分开讲一讲每个地方的输入输出？

A: 这个是刚才给大家Miss掉的地方。回到之前的Attention计算方式的部分，看这个主要的图，是Encoder的部分用的是Self-Attention的部分，decoder用了Self-Attention和一个Decoder Attention，这确实是三个地方用到。第一个地方在Encoder端的输入是加了“Positional Encoding”的word embedding，直接输入到这个了Self-Attention里,输出是刚才提的的z矩阵，再输入到Feed Forward network里。

Decoder的部分也是一样，之前每次生成的词作为输入，然后加到PositionalEncoding之后输入到Self-Attention里，Encoder就是Self-Attention的输入。

Q：问了一个和阿里相关的：“阿里做电商描述训练的时候，如何解决领域内数据不足的问题”？

A:这是个比较具体的问题，首先，电商场景是阿里的一个重要场景，我们做电商时会收集一部分电商类的数据，阿里巴巴内部也有淘宝比较丰富的数据。有了这个以后会有基于n-gram或者基于分布式的筛选模块，基于这些之前互联网上收集到的大规模语料库中筛选相关的句子，得到充足的领域内的语料，领域内的训练语料应该越多越好。

Q：推荐一下深度学习、机器翻译方面的好书。

这个可以给大家推荐最近邓老师和清华大学刘老师合作发表的一部英文书，叫《Deep Learning in Natural Language Processing》，邓老师是语音识别方向的大牛，任老师是机器翻译、自然语言处理方面的大牛，这本书是2018年最新出版的，这本书会包含最新的机器翻译、神经网络内容，大家有兴趣的话可以考虑一下。

推荐阅读：

一大批历史精彩文章啦

你可能感兴趣的:(【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的