mishidemudong

绝对干货！NLP预训练模型：从transformer到albert

背景

语言模型是机器理解人类语言的途径，17年的transformer是语言模型摆脱rnn，lstm建模的一次尝试，后续的bert则是大力出奇迹的代表，用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑，而xlnet将gpt和bert的优点结合在了一起，然后用更更大的数据吊打了bert。没过多久，bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后，受到了硬件资源的限制，于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小，因此当albert使用了和bert同样的参数量的时候，推理能力又上了一个台阶。正好最近这几个月也在研究语言模型，就把我对transformer等几个具有代表性的nlp模型的理解记录一下。

1. transformer

1.1 transformer的背景

17年之前，语言模型都是通过rnn，lstm来建模，这样虽然可以学习上下文之间的关系，但是无法并行化，给模型的训练和推理带来了困难，因此论文提出了一种完全基于attention来对语言建模的模型，叫做transformer。transformer摆脱了nlp任务对于rnn，lstm的依赖，使用了self-attention的方式对上下文进行建模，提高了训练和推理的速度，transformer也是后续更强大的nlp预训练模型的基础，因此有必要花很大的篇幅详解一下这个模型。

1.2 transformer的流程

transformer的流程图

<1> Inputs是经过padding的输入数据，大小是[batch size, max seq length]。

<2> 初始化embedding matrix，通过embedding lookup将Inputs映射成token embedding，大小是[batch size, max seq length, embedding size]，然后乘以embedding size的开方。

<3> 通过sin和cos函数创建positional encoding，表示一个token的绝对位置信息，并加入到token embedding中，然后dropout。

<4> multi-head attention

<4.1> 输入token embedding，通过Dense生成Q，K，V，大小是[batch size, max seq length, embedding size]，然后按第2维split成num heads份并按第0维concat，生成新的Q，K，V，大小是[num heads*batch size, max seq length, embedding size/num heads]，完成multi-head的操作。

<4.2> 将K的第1维和第2维进行转置，然后Q和转置后的K的进行点积，结果的大小是[num heads*batch size, max seq length, max seq length]。

<4.3> 将<4.2>的结果除以hidden size的开方(在transformer中，hidden size=embedding size)，完成scale的操作。

<4.4> 将<4.3>中padding的点积结果置成一个很小的数(-2^32+1)，完成mask操作，后续softmax对padding的结果就可以忽略不计了。

<4.5> 将经过mask的结果进行softmax操作。

<4.6> 将softmax的结果和V进行点积，得到attention的结果，大小是[num heads*batch size, max seq length, hidden size/num heads]。

<4.7> 将attention的结果按第0维split成num heads份并按第2维concat，生成multi-head attention的结果，大小是[batch size, max seq length, hidden size]。Figure 2上concat之后还有一个linear的操作，但是代码里并没有。

<5> 将token embedding和multi-head attention的结果相加，并进行Layer Normalization。

<6> 将<5>的结果经过2层Dense，其中第1层的activation=relu，第2层activation=None。

<7> 功能和<5>一样。

<8> Outputs是经过padding的输出数据，与Inputs不同的是，Outputs的需要在序列前面加上一个起始符号”~~”，用来表示序列生成的开始，而Inputs不需要。~~

<9> 功能和<2>一样。

<10> 功能和<3>一样。

<11> 功能和<4>类似，唯一不同的一点在于mask，<11>中的mask不仅将padding的点积结果置成一个很小的数，而且将当前token与之后的token的点积结果也置成一个很小的数。

<12> 功能和<5>一样。

<13> 功能和<4>类似，唯一不同的一点在于Q，K，V的输入，<13>的Q的输入来自于Outputs 的token embedding，<13>的K，V来自于<7>的结果。

<14> 功能和<5>一样。

<15> 功能和<6>一样。

<16> 功能和<7>一样，结果的大小是[batch size, max seq length, hidden size]。

<17> 将<16>的结果的后2维和embedding matrix的转置进行点积，生成的结果的大小是[batch size, max seq length, vocab size]。

<18> 将<17>的结果进行softmax操作，生成的结果就表示当前时刻预测的下一个token在vocab上的概率分布。

<19> 计算<18>得到的下一个token在vocab上的概率分布和真实的下一个token的one-hot形式的cross entropy，然后sum非padding的token的cross entropy当作loss，利用adam进行训练。

1.3 transformer的技术细节

transformer中的self-attention是从普通的点积attention中演化出来的，演化过程中可以看

遍地开花的 Attention ，你真的懂吗？

1.3.1 为什么<2>要乘以embedding size的开方？

论文并没有讲为什么这么做，我看了代码，猜测是因为embedding matrix的初始化方式是xavier init，这种方式的方差是1/embedding size，因此乘以embedding size的开方使得embedding matrix的方差是1，在这个scale下可能更有利于embedding matrix的收敛。

1.3.2 为什么inputs embedding要加入positional encoding？

因为self-attention是位置无关的，无论句子的顺序是什么样的，通过self-attention计算的token的hidden embedding都是一样的，这显然不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息，transformer使用了固定的positional encoding来表示token在句子中的绝对位置信息。positional encoding的公式如下：

positional encoding公式

至于positional encoding为什么能表示位置信息，可以看如何理解Transformer论文中的positional encoding，和三角函数有什么关系？

1.3.3 为什么<4.2>的结果要scale？

以数组为例，2个长度是len，均值是0，方差是1的数组点积会生成长度是len，均值是0，方差是len的数组。而方差变大会导致softmax的输入推向正无穷或负无穷，这时的梯度会无限趋近于0，不利于训练的收敛。因此除以len的开方，可以是数组的方差重新回归到1，有利于训练的收敛。

1.3.4 为什么<5>要将multi-head attention的输入和输出相加？

类似于resnet中的残差学习单元，有ensemble的思想在里面，解决网络退化问题。

1.3.5 为什么attention需要multi-head，一个大head行不行？

multi-head相当于把一个大空间划分成多个互斥的小空间，然后在小空间内分别计算attention，虽然单个小空间的attention计算结果没有大空间计算得精确，但是多个小空间并行然后concat有助于网络捕捉到更丰富的信息，类比cnn网络中的channel。

1.3.6 为什么multi-head attention后面要加一个ffn？

类比cnn网络中，cnn block和fc交替连接，效果更好。相比于单独的multi-head attention，在后面加一个ffn，可以提高整个block的非线性变换的能力。

1.3.7 为什么<11>要mask当前时刻的token与后续token的点积结果？

自然语言生成(例如机器翻译，文本摘要)是auto-regressive的，在推理的时候只能依据之前的token生成当前时刻的token，正因为生成当前时刻的token的时候并不知道后续的token长什么样，所以为了保持训练和推理的一致性，训练的时候也不能利用后续的token来生成当前时刻的token。这种方式也符合人类在自然语言生成中的思维方式。

1.4 transformer的总结

transformer刚发表的时候，我刚好在百度nlp部实习，当时觉得transformer噱头更多一些，在小模型上self-attention并不比rnn，lstm好。直到大力出奇迹的bert出现，深深地打了我的脸，当模型变得越来越大，样本数越来越多的时候，self-attention无论是并行化带来的训练提速，还是在长距离上的建模，都是要比传统的rnn，lstm好很多。transformer现在已经各种具有代表性的nlp预训练模型的基础，bert系列使用了transformer的encoder，gpt系列transformer的decoder。在推荐领域，transformer的multi-head attention也应用得很广泛。

2. bert

2.1 bert的背景

在bert之前，将预训练的embedding应用到下游任务的方式大致可以分为2种，一种是feature-based，例如ELMo这种将经过预训练的embedding作为特征引入到下游任务的网络中；一种是fine-tuning，例如GPT这种将下游任务接到预训练模型上，然后一起训练。然而这2种方式都会面临同一个问题，就是无法直接学习到上下文信息，像ELMo只是分别学习上文和下文信息，然后concat起来表示上下文信息，抑或是GPT只能学习上文信息。因此，作者提出一种基于transformer encoder的预训练模型，可以直接学习到上下文信息，叫做bert。bert使用了12个transformer encoder block，在13G的数据上进行了预训练，可谓是nlp领域大力出奇迹的代表。

2.2 bert的流程

bert是在transformer encoder的基础之上进行改进的，因此在整个流程上与transformer encoder没有大的差别，只是在embedding，multi-head attention，loss上有所差别。

2.2.1 bert和transformer在embedding上的差异

bert pre-train and fine-tune

bert和transformer在embedding上的差异主要有3点：

<1> transformer的embedding由2部分构成，一个是token embedding，通过embedding matrix lookup到token_ids上生成表示token的向量；一个是position embedding，是通过sin和cos函数创建的定值向量。而bert的embedding由3部分构成，第一个同样是token embedding，通过embedding matrix lookup到token_ids上生成表示token的向量；第二个是segment embedding，用来表达当前token是来自于第一个segment，还是第二个segment，因此segment vocab size是2；第三个是position embedding，与transformer不同的是，bert创建了一个position embedding matrix，通过position embedding matrix lookup到token_ids的位置上生成表示token位置的位置向量。

<2> transformer在embedding之后跟了一个dropout，但是bert在embedding之后先跟了一个layer normalization，再跟了一个dropout。

<3> bert在token序列之前加了一个特定的token“[cls]”，这个token对应的向量后续会用在分类任务上；如果是句子对的任务，那么两个句子间使用特定的token“[seq]”来分割。

2.2.2 bert和transformer在multi-head attention上的差异

bert和transformer在multi-head attention上的差异主要有2点：

<1> transformer在<4.7>会concat<4.6>的attention的结果。而bert不仅会concat<4.6>的attention的结果，还会把前N-1个encoder block中attention的结果都concat进来。

<2> transformer在<4.7>之后没有linear的操作(也可能是因为我看的transformer代码不是官方transformer的缘故)，而bert在transformer的<4.7>之后有一个linear的操作。

2.2.3 bert和transformer在loss上的差异

bert和transformer在loss上的差异主要有2点：

<1> transformer的loss是在decoder阶段计算的，loss的计算方式是transformer的<19>。bert预训练的loss由2部分构成，一部分是NSP的loss，就是token“[cls]”经过1层Dense，然后接一个二分类的loss，其中0表示segment B是segment A的下一句，1表示segment A和segment B来自2篇不同的文本；另一部分是MLM的loss，segment中每个token都有15%的概率被mask，而被mask的token有80%的概率用“”表示，有10%的概率随机替换成某一个token，有10%的概率保留原来的token，被mask的token经过encoder后乘以embedding matrix的转置会生成在vocab上的分布，然后计算分布和真实的token的one-hot形式的cross entropy，最后sum起来当作loss。这两部分loss相加起来当作total loss，利用adam进行训练。bert fine-tune的loss会根据任务性质来设计，例如分类任务中就是token“[cls]”经过1层Dense，然后接了一个二分类的loss；例如问题回答任务中会在paragraph上的token中预测一个起始位置，一个终止位置，然后以起始位置和终止位置的预测分布和真实分布为基础设计loss；例如序列标注，预测每一个token的词性，然后以每一个token在词性的预测分布和真实分布为基础设计loss。

<2> bert在encoder之后，在计算NSP和MLM的loss之前，分别对NSP和MLM的输入加了一个Dense操作，这部分参数只对预训练有用，对fine-tune没用。而transformer在decoder之后就直接计算loss了，中间没有Dense操作。

2.3 bert的技术细节

2.3.1 为什么bert需要额外的segment embedding?

因为bert预训练的其中一个任务是判断segment A和segment B之间的关系，这就需要embedding中能包含当前token属于哪个segment的信息，然而无论是token embedding，还是position embedding都无法表示出这种信息，因此额外创建一个segment embedding matrix用来表示当前token属于哪个segment的信息，segment vocab size就是2，其中index=0表示token属于segment A，index=1表示token属于segment B。

2.3.2 为什么transformer的embedding后面接了一个dropout，而bert是先接了一个layer normalization，再接dropout?

LN是为了解决梯度消失的问题，dropout是为了解决过拟合的问题。在embedding后面加LN有利于embedding matrix的收敛。

2.3.3 为什么在multi-head attention中，bert不仅会concat<4.6>的attention的结果，还会把前N-1个encoder block中attention的结果都concat进来？

有ensemble的思路在里面，比起单纯只用第N个encoder block中的attention结果，将前N个encoder block中的attention结果concat起来显然能够get到更多的信息，而下一步的linear操作又将结果的大小重新变回[batch size, max seq length, hidden size]。该问题和transformer的问题3.4的本质是一样的，通过ensemble可以得到更多的信息。

2.3.4 为什么token被mask的概率是15%？为什么被mask后，还要分3种情况？

15%的概率是通过实验得到的最好的概率，xlnet也是在这个概率附近，说明在这个概率下，既能有充分的mask样本可以学习，又不至于让segment的信息损失太多，以至于影响mask样本上下文信息的表达。然而因为在下游任务中不会出现token“”，所以预训练和fine-tune出现了不一致，为了减弱不一致性给模型带来的影响，被mask的token有80%的概率用“”表示，有10%的概率随机替换成某一个token，有10%的概率保留原来的token，这3个百分比也是多次实验得到的最佳组合，在这3个百分比的情况下，下游任务的fine-tune可以达到最佳的实验结果。

2.4 bert的总结

相比于那些说自己很好，但是在实际场景中然并软的论文，bert是真正地影响了学术界和工业界。无论是GLUE，还是SQUAD，现在榜单上的高分方法都是在bert的基础之上进行了改进。在我的工作中，用bert落地的业务效果也比我预想的要好一些。bert在nlp领域的地位可以类比cv领域的inception或者resnet，cv领域的算法效果在几年前就已经超过了人类的标注准确率，而nlp领域直到bert的出现才做到这一点。不过bert也并不是万能的，bert的框架决定了这个模型适合解决自然语言理解的问题，因为没有解码的过程，所以bert不适合解决自然语言生成的问题。因此如何将bert改造成适用于解决机器翻译，文本摘要问题的框架，是今后值得研究的一个点。

3. xlnet

3.1 xlnet的背景

目前语言预训练模型的模式主要有2种，第一种是像gpt这种的auto-regressive模型，每个时刻都依据之前所有时刻的token来预测下一个token，auto-regressive的loss的定义如下：

自回归的loss

第二种是像bert这种的auto-encoder模型，随机mask掉句子中若干个token，然后依据上下文预测被mask掉的token，auto-encoder的loss的定义如下：

自编码的loss

auto-regressive模型在训练的过程中只能用到上文的信息，但是不会出现训练和推理的gap；auto-encoder模型在训练的过程中能利用到上下文信息，但是会出现训练和推理的gap，训练过程中的在推理的时候并不会出现。因此，作者就提出一种基于transformer-xl的融合了auto-regressive模型和auto-encoder模型优势的auto-regressive模型。

3.2 xlnet的流程

3.2.1 因子分解序

一个句子的因子分解序就是这个句子的token的一种随机排列。为了能融合auto-regressive模型和auto-encoder模型的优势，xlnet使用因子分解序将上下文信息引入auto-regressive的loss中。例如句子1->2->3->4->5，在auto-regressive的loss中，预测token 2可以利用token 1的信息，但是不能利用token 2/3/4/5的信息；在引入了因子分解序之后，假设使用了1->4->2->3->5的因子分解序，那么预测token 2可以利用token 1/4的信息，但是不能利用token 3/5的信息。在使用因子分解序之后，并不会影响句子的输入顺序，只是在transformer-xl的multi-head attention中计算每一个token的attention结果时会有所改变，原先的方式是mask掉当前token以及句子中的后续token，而现在是mask掉当前token以及因子分解序中的后续token。这种方式可以在计算当前token的attention结果时利用到当前token的上下文信息，例如上面这个因子分解序，计算token 2的attention结果时就是用到了token 1/4的信息，在原始句子中，token 1在token 2之前，token 4在token 2之后。

因子分解序的实现方式是在计算multi-head attention的时候进行了proper mask。例如1->4->2->3->5的因子分解序，在输入token 2时，由于在因子分解序中token 2排在token 1/3的后面，所以在计算token 2的attention结果时将token 2/4/5进行了mask，只计算token 2和token 1/3的点积结果，然后softmax以及加权求和当作attention的结果。

3.2.2 双流自注意力机制

xlnet使用了transformer-xl的框架，并在transformer的基础之上使用了双流自注意力机制。

双流自注意力机制

相比于普通的transformer，xlnet多加了一个multi-head attention+ffn的计算。双流自注意力机制分为查询流g和内容流h 2个流。h就是和transformer一样的multi-head attention，计算第t个时刻的attention的结果时用到了因子分解序中前t个位置的位置信息和token信息，而g在transformer的multi-head attention的基础之上做了修改，计算第t个时刻的attention的结果时只用到了因子分解序中前t个位置的位置信息和前t-1个位置的token信息。在预训练的过程当中，为了降低优化的难度，xlnet只会计算因子分解序最后的1/6或者1/7的token的g，然后把g融合到auto-regressive的loss当中进行训练，顺带着训练h。在预训练结束之后，放弃g，使用h做下游任务的fine-tune，fine-tune的过程就和普通的transfomer的fine-tune一模一样了。

3.3 xlnet的技术细节

3.3.1 因子分解序的优势

因子分解序创新地将上下文信息融入到auto-regressive的loss中，理论上，只要模型的预训练将一个句子的所有因子分解序都训练一遍，那么模型就能准确地get到句子中每一个token和上下文之间的联系。然而实际情况下，一个句子的因子分解序的数量是随着句子长度指数增长的，因此在实际训练中只是用到了句子的某个因子分解序或者某几个因子分解序而已。即便如此，相比于只能get到上文信息的auto-regressive，加了因子分解序之后可以同时get到上下文信息，能够提高模型的推理能力。

3.3.2 为什么自注意力要用双流？

因为普通的transformer无法融合因子分解序和auto-regressive的loss，例如2个不同的因子分解序1->3->2->4->5和1->3->2->5->4，第1个句子的4和第2个句子的5在auto-regressive的loss下的attention结果是一样的，因此第1个句子的4和第2个句子的5在vocab上的预测概率分布也是一样的，这就不符合常理了。造成这种现象的原因在于，auto-regressive的loss是利用前t-1个token的token信息和位置信息预测第t个token，然而因子分解序的第t个token在原始句子中的位置是不确定的，因此需要额外的信息表示因子分解序中需要预测的token在原始句子中的位置。为了达到目的，xlnet使用双流的multi-head attention+ffn，查询流g利用因子分解序中前t个位置的位置信息和前t-1个位置的token信息计算第t个位置的输出信息，而内容流h利用因子分解序中前t个位置的位置信息和token信息计算第t个位置的输出信息。在预训练的过程中，使用g计算auto-regressive的loss，然后最小化的loss的值，顺带着训练h。预训练完成之后，放弃g，使用h无缝切换到普通transformer的fine-tune。

3.4 xlnet的总结

由于我也是只看过论文，并没有在实际工作中用过xlnet，因此我也只能讲讲xlnet的理论。在bert之后，有很多论文都对bert进行了改进，但是创新点都很有限，xlnet是在我看过的论文中唯一一篇在transformer的框架之下将上下文信息和auto-regressive的loss融合在一起的论文。但是xlnet是否真的比bert优秀，这还是一个疑问，xlnet使用了126G的数据进行预训练，相比于bert的13G数据大了一个数量级，在xlnet发布之后不久，bert的改进版roberta使用了160G的数据进行预训练，又打败了xlnet。

4. albert

4.1 albert的背景

增大预训练模型的大小通常能够提高预训练模型的推理能力，但是当预训练模型增大到一定程度之后，会碰到GPU/TPU memory的限制。因此，作者在bert中加入了2项减少参数的技术，能够缩小bert的大小，并且修改了bert NSP的loss，在和bert有相同参数量的前提之下，有更强的推理能力。

4.2 albert的流程

4.2.1 词向量矩阵的分解

在bert以及诸多bert的改进版中，embedding size都是等于hidden size的，这不一定是最优的。因为bert的token embedding是上下文无关的，而经过multi-head attention+ffn后的hidden embedding是上下文相关的，bert预训练的目的是提供更准确的hidden embedding，而不是token embedding，因此token embedding没有必要和hidden embedding一样大。albert将token embedding进行了分解，首先降低embedding size的大小，然后用一个Dense操作将低维的token embedding映射回hidden size的大小。bert的embedding size=hidden size，因此词向量的参数量是vocab size * hidden size，进行分解后的参数量是vocab size * embedding size + embedding size * hidden size，只要embedding size << hidden size，就能起到减少参数的效果。

4.2.2 参数共享

bert的12层transformer encoder block是串行在一起的，每个block虽然长得一模一样，但是参数是不共享的。albert将transformer encoder block进行了参数共享，这样可以极大地减少整个模型的参数量。

4.2.3 sentence order prediction(SOP)

在auto-encoder的loss之外，bert使用了NSP的loss，用来提高bert在句对关系推理任务上的推理能力。而albert放弃了NSP的loss，使用了SOP的loss。NSP的loss是判断segment A和segment B之间的关系，其中0表示segment B是segment A的下一句，1表示segment A和segment B来自2篇不同的文本。SOP的loss是判断segment A和segment B的的顺序关系，0表示segment B是segment A的下一句，1表示segment A是segment B的下一句。

4.3 albert的技术细节

4.3.1 参数减少技术

albert使用了2项参数减少的技术，但是2项技术对于参数减少的贡献是不一样的，第1项是词向量矩阵的分解，当embedding size从768降到64时，可以节省21M的参数量，但是模型的推理能力也会随之下降。第2项是multi-head attention+ffn的参数共享，在embedding size=128时，可以节省77M的参数量，模型的推理能力同样会随之下降。虽然参数减少会导致了模型推理能力的下降，但是可以通过增大模型使得参数量变回和bert一个量级，这时模型的推理能力就超过了bert。

现在学术界发论文有2种常见的套路，第1种是往死里加参数加数据量，然后提高模型的推理能力；第2种是减参数，然后使模型的推理能力不怎么降。albert使用的参数减少技术看似是第2种，实则是第1种。当bert从large变到xlarge时，虽然模型变大到了1270M，但是模型出现了退化现象，推理能力下跌了一大截，说明在bert的框架下，large已经是模型推理能力的极限了。albert使用了参数减少技术，相比于bert的large是334M，albert的large只有18M，虽然推理能力比bert差，但是参数减少后的albert还有成长空间，将albert从large变到xlarge，甚至是xxlarge时，模型的推理能力又得到了提高，并且超过了bert最好的模型。

4.3.2 loss

在albert之前，很多bert的改进版都对NSP的loss提出了质疑。structbert在NSP的loss上进行了修改，有1/3的概率是segment B是segment A的下一句，有1/3的概率是segment A是segment B的下一句，有1/3的概率是segment A和segment B来自2篇不同的文本。roberta则是直接放弃了NSP的loss，修改了样本的构造方式，将输入2个segment修改为从一个文本中连续sample句子直到塞满512的长度。当到达文本的末尾且未塞满512的长度时，先增加一个“[sep]”，再从另一个文本接着sample，直到塞满512的长度。

albert在structbert的基础之上又抛弃了segment A和segment B来自2篇不同的文本的做法，只剩下1/2的概率是segment B是segment A的下一句，1/2的概率是segment A是segment B的下一句。论文中给出了这么做的解释，NSP的loss包含了2部分功能：topic prediction和coherence prediction，其中topic prediction要比coherence prediction更容易学习，而MLM的loss也包含了topic prediction的功能，因此bert难以学到coherence prediction的能力。albert的SOP loss抛弃了segment A和segment B来自2篇不同的文本的做法，让loss更关注于coherence prediction，这样就能提高模型在句对关系推理上的能力。

4.4 albert的总结

albert虽然减少参数量，但是并不会减少推理时间，推理的过程只不过是从串行计算12个transformer encoder block变成了循环计算transformer encoder block 12次。albert最大的贡献在于使模型具备了比原始的bert更强的成长性，在模型变向更大的时候，推理能力还能够得到提高。

5. 其他论文

5.1 gpt

gpt在bert之前就发表了，使用了transformer decoder作为预训练的框架。在看到了decoder只能get上文信息，不能get下文信息的缺点之后，bert改用了transformer encoder作为预训练的框架，能够同时get上下文信息，获得了巨大的成功。

5.2 structbert

structbert的创新点主要在loss上，除了MLM的loss外，还有一个重构token顺序的loss和一个判断2个segment关系的loss。重构token顺序的loss是以一定的概率挑选segment中的token三元组，然后随机打乱顺序，最后经过encoder之后能够纠正被打乱顺序的token三元组的顺序。判断2个segment关系的loss是1/3的概率是segment B是segment A的下一句，有1/3的概率是segment A是segment B的下一句，有1/3的概率是segment A和segment B来自2篇不同的文本，通过“[cls]”预测样本属于这3种的某一种。

5.3 roberta

在xlnet使用126G的数据登顶GLUE之后不久，roberta使用160G的数据又打败了xlnet。roberta的创新点主要有4点：第1点是动态mask，之前bert使用的是静态mask，就是数据预处理的时候完成mask操作，之后训练的时候同一个样本都是相同的mask结果，动态mask就是在训练的时候每输入一个样本都要重新mask，动态mask相比静态mask有更多不同mask结果的数据用于训练，效果很好。第2点是样本的构造方式，roberta放弃了NSP的loss，修改了样本的构造方式，将输入2个segment修改为从一个文本中连续sample句子直到塞满512的长度。当到达文本的末尾且未塞满512的长度时，先增加一个“[sep]”，再从另一个文本接着sample，直到塞满512的长度。第3点是增大了batch size，在训练相同数据量的前提之下，增大batch size能够提高模型的推理能力。第4点是使用了subword的分词方法，类比于中文的字，相比于full word的分词方法，subword的分词方法使得词表的大小从30k变成了50k，虽然实验效果上subword的分词方法比full word差，但是作者坚信subword具备了理论优越性，今后肯定会比full word好(手动黑脸)。

6. 总结

nlp和cv的不同点在于nlp是认识学习，而cv是感知学习，nlp在cv的基础之上多了一个符号映射的过程，正因如此，nlp领域发展得比cv慢很多，cv领域有很多比较成功的创业公司，有很多能够达到商用程度的子领域，而nlp领域就比较少。不过nlp领域在17年的transformer发布之后开始进入快速迭代的时期，bert的发表使得nlp领域的benchmark提高了一大截，产生了不少可以达到商用程度的子领域。到了19年，nlp领域的发展可以说是越来越快了，我在国庆的时候开始执笔写这个技术分享，当时albert刚发表1个星期，等我写完这个技术分享已经到11月了，前几天谷歌又发表了一篇T5，又把albert打败了。T5的论文据说有50页，是nlp预训练模型的一个综述，值得花时间一看。

2022年2月27日日精进曾经的年华
京心❤️达：樊伟伟2022年2月27日日精进日落地真经严格就是爱，放纵既是害油卡目标：80张、完成53张正能量语录每一颗螺丝都有标准每一颗螺丝都是标准今日体验：前期准备工作做好，中期就能顺利干活，最后也能顺利的结账，如果前期没有沟通好，到后期都是事，无论是和客户之间，还是和同事之间，沟通很重要。
经常丢三落四怎么办？西歪
嗨嗨，大家好呀~不知道大家有没有遇到过这样的问题，每天出门前明明将需要的东西全都扫入了包中，结果到地点一翻包才发现，我又忘了带数据线了！天哪，我忘了带我最爱的口红！放心，你肯定不会是一个人。我以前也经历过这样的痛，后面就“百炼成钢”，有了一些克服丢三落四这个毛病的小技巧，快来康康能不能帮到你~1.不如试一试制作一张检查清单，在上面列出自己日常必备的物品，将它挂在显眼的地方，比如玄关处、化妆镜旁，每
《匠人精神》肖家菇凉
秋山木工的十条规则想要进入秋山学校的人，首先要接受十天的各项训练，并且通过考试才能入学。为什么秋山利辉会有这样的要求呢？①不能正确、完整地进行自我介绍者不予录取。②被秋山学校录取的学徒，无论男女一律留光头。剃光头是为了让学徒们下定决心，全身心地投入学校当中，如果决心不够，可能就无法坚持到底吧。③禁止使用手机，只许书信联系。想想也有道理，书写也是一种训练，如果连给客户的感谢信都写不好，如何胜任工作呢
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
【嵌入式】CAN 总线技术介绍晴雨日记串行通信嵌入式硬件
CAN总线技术详解，从物理层到应用层：一、基础架构层1.物理拓扑要素规范说明线缆类型双绞线（CAN_H+CAN_L），阻抗120Ω终端电阻总线首尾两端各接120Ω电阻（消除信号反射）电平逻辑-显性电平(0)：CAN_H-CAN_L≈2V-隐性电平(1)：CAN_H-CAN_L≈0V最大节点数110个（受收发器驱动能力限制）2.电气特性波特率最大距离应用场景1Mbps40m汽车动力总成（ECU间高速
《世法哲言》（十三）生命在一呼一吸之间
南无羌佛说《世法哲言》（十三）『凡事应三思之弗觉，体实而再行之，不可闻言而从，亦不可听之否虚，三思之下实施无道者，当进而穷根之研，欲觅高天彩虹而遇乌云之布，则疑于霞辉之弗成也，是为过失。』古人有「三思而行，再思可矣」之说，实际上，光「三思而行，再思可矣」是不够的，在三思之后，还要具体去实践以观察真实效果，这也就是说，我们绝不可以听说一件事情就立刻不加思索地去办，而必须要加以认真思考和实践，但同时，
Java并发必知必会：核心概念深度梳理与实战要点（二）码不停蹄的玄黓 java spring boot spring cloud spring jvm
1.Java中的synchronized关键字深度解析synchronized是Java并发编程中最核心的同步机制，通过内置锁实现线程安全。它在解决数据竞争、内存可见性和操作原子性问题上是不可或缺的。以下从七个维度全面剖析：1.1底层实现原理：监视器锁（Monitor）1.1.1对象头关联每个Java对象内置一个Monitor监视器锁（存储于对象头的MarkWord中）//使用jol-core查看
儿童英语学习随笔随风猪
下笔写这篇文章时，儿子已经入学英孚英语班一周年，一年前，自己在各个英语教育机构之间，带着孩子多方试课，现如今，回想起来有点过度关注了，其实就是一个学习第二种语言的培训机构，非要区分好坏，可能就像选择普通话和方言一样，哪个血统更纯正而已，选择英孚，选择的就是它的英文外教，当时的想法是，中国人说汉语总比歪果仁说汉语强吧，反过来也是一样的道理。从初开始的各种担忧，到孩子慢慢的感兴趣，我始终坚信要想干好任
读书打卡182 东哥杂谈
读书打卡第182天（202100723）（第27本魏书生著《如何做最好的校长》)读第80页——90页，读有所得:1.有经验的校长都知道，有时候一次推心置腹的谈话、一个充满信任的眼神、一句关怀体贴的问候，更能激发教师的积极性。要做到这些看似简单的事情，要求校长从内心深处信任教师和学生，把它们当做朋友，与他们分享喜怒哀乐，相信他们的智慧与能力，放心让它们主动参与学校管理，放手让他们实现自己的教育思想。
泥灸，就是这么给力！中医泥灸
泥灸到底有多神奇？图片发自App泥灸可拔出你身体里面的寒湿，毒素，可以快速渗透到皮下6-7cm,药性直达病灶，有效调理慢性病症；泥灸中含有矿物泥，火山能量石，微量元素硒元素，可以有效的防癌抗癌；泥灸可代替抗生素消炎药，药性透皮吸收后可有效的消炎、杀菌、杀死癌细胞，百分百提高免疫力；泥灸是属阳之物，有效补充阳气，扶阳固本；泥灸可温养经络，祛湿散寒，调和气血；泥灸可活血化瘀，消炎止痛，排湿气，排寒气，
2023-07-18 莫忘小寒
你觉得沟通重要吗？你认为什么样的沟通是有效沟通呢？1接纳就是爱，接纳他人和自己的不完美，就会成就自己和他人走向越来越好2接纳自己目前的能量和状态，接纳和尊重孩子的状态收获：1.提有助于思考的问题。无效问题：我如何能把文章写出来有效问题：电影讲的什么？哪里感动到我？2.定义-什么是什么例如，金钱是一笔好生意；唤醒游戏是提升能力的训练场3.区分是为了从定义中找一条有价值的路4.要多想自己要什么而不是怕
广州亲子鉴定机构大全-广州共11家(附2024最新亲子鉴定收费标准) 国医基因孙主任
广州亲子鉴定机构在哪里？广州亲子鉴定机构在广州市白云区三元里大道北棠新街7号。带有DNA遗传信息的生物学样本，是人身体的一部分，未经他人许可，盗采他人身体样本进行DNA分析是严重侵犯他人身体权、知情权、监护权的行为。在任何情况下采取生物学样本进行DNA遗传基因检验，均应得到有关人员的事先、自愿和明确的同意。如有关人员不能表态，则应由法律从其更高利益出发予以同意或授权，这种观点早已被世界各国认可并立
每一个我都是值得被爱的我小白兔的奶糖工坊
今天和领导聊了好多，关于自己，关于工作，喜欢现在所在的机构，可以互相为镜，互相印证成长。————————最近在看一本名为《关于“工作幸福”的那些事》，书的作者曾是东京迪士尼的一名保洁演员，这是一份后台到极致的工作，甚至在某些人眼里可能是一份有些不上台面的工作，但作者说，这份工作圆了他的迪士尼梦。而迪士尼乐园之所以如此令人幸福，完美到了极致，保洁演员等一应后台的工作人员，有着不可或缺的重要性。从这本
React Native Android全栈开发：如何构建企业级应用 AI天才研究院 AI人工智能与大数据 react native android react.js ai
ReactNativeAndroid全栈开发：如何构建企业级应用关键词：ReactNative、Android集成、企业级应用、跨平台开发、性能优化摘要：本文从企业级应用开发的实际需求出发，结合ReactNative（以下简称RN）与Android的技术特性，系统讲解如何从0到1构建高可用、易维护的跨平台移动应用。内容涵盖核心概念解析、Android端集成技巧、企业级架构设计、性能优化实战及未来趋
2018.6.11 乐于改变自己的刘原孜
本来动了念想来写就打算坚持到底的，结果因为一场小小感冒停歇不前了，今天再捡起来认真对待，说明我还是有行动力和好态度的，虽然这几天我没有写点什么，但我一直在思考我该如何去觉察到儿子的优点，虽然有难度，但我想总是有的。儿子马上就要面临中考了，紧张的情绪是有的，每天早上喊他一遍十分钟左右会起来，早上情绪不高，不愿意和我说话。坚持，努力。中午回来吃饭不再是以前那样狂轰滥炸门了，而是轻轻的敲门声，看门第一眼
对上叔，她也能赢南风知我驿
“长风，我有了理由怀疑你是故意的！”易淳的哀嚎声在场地里显得格外幽怨。“是随机抽签呀！”靳长风眨着无辜的眼睛，望向其他人。心里却是给媳妇儿报了仇的快意,上次派他抽签他就发现了这个bug,这次自然是想抓谁就是谁咯。“女队也顺便抽了吧。”刘队一边笑一边儿把目光从男队上的目光移到女队那些漂亮的队员们。"陈雯雯.."靳长风这次的确是随机抽取。"去吧去吧……”全场的人都在目送易淳上战场。他对上陈雯雯纯属以大
part1 907762d26688
从本单元中学到的重要理念：视听说：产生情绪的原因和好坏精读：对自己的财产进行合理规划，适度消费理性消费本周怦然心动的单词：视听说：solicitor初级律师billow滚滚移动之物gossamer薄纱精读：notorious臭名昭著的impulse冲动misspend浪费prewar战前的我最喜欢的一句视听说：TrytostartorendtheconversationWithsomethingp
她家暴德普，巨富马斯克含泪被甩！这个美国版“马蓉”有剧毒！不靠谱的球
今天要给大家介绍一位剧毒美人，拥有核弹级的杀伤力。男人一旦被她迷住，必定被杀个片甲不留。有人说她是美国版“马蓉”，本尊不用发话，各大时尚媒体就会叉起腰来打架，马蓉和她比，门都找不着。但之所以要捎带上马蓉，因为她也有一场遮天蔽日的离婚大战，不仅让天神级的老公跌下神坛，还让自己的阶层做天梯跃升，从18线女配摇身变成大女主。老公是金炮灰，自己裹着这层金粉，转身位列神班。这女人叫AmberHeard，19
签字到底要不要负责学习学习学习啦啦啦啦啦
某班委在签字的时候为了图省事，就代替了班里大多数同学签字，这件事也宣布。后来出现了问题，就开始扯皮。算分的人不想算，图省事，想劝受害者人人就算了，有这些时间还不如去玩。然后接下来就是感觉这事情可能会涉及到某些人的利益，虽然感觉这件事本来催收东西比较急，但是做法也是好的，但是不免让人有一种被黑幕的感觉。这件事情和了蛮多同学聊，某舍友觉得没必要嘛都大四了谁还在乎，也许是自己的性格原因吧，就是会觉得会在
【读书摘录】中国皇帝全传（七十六）---后赵义阳王石鉴中年大叔
书名：《中国皇帝全传》作者：善从内容摘录：十六国·后赵1、后赵义阳王石鉴档案：生卒年：?～350年父母：父，太祖石虎；母，不详后妃：不详年号：无在位时间：公元349年～350年谥号：无庙号：无陵寝：无性格：阴险狡诈，反复无常2、义阳王名叫石鉴，是后赵太祖石虎第三子，后赵王朝的第五位皇帝。他既懦弱又狡诈，害死了弟弟石遵夺得皇位，不过还没坐稳，就送了性命。3、石鉴称帝后，石闵的势力很大，这让他感到很不
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
Apache IoTDB 集群数据迁移指南静默小音箱编程问题解决手册 apache iotdb 个人开发
随着物联网（IoT）设备的普及和数据量的激增，数据存储和管理的需求也随之增加。ApacheIoTDB作为一个专为时序数据设计的数据库系统，提供了从单机到集群的多种部署方案。最近，我将ApacheIoTDB从单机版本扩展到了集群版本，并遇到了一个有趣的问题：如何将一个集群的数据迁移到另一个集群？单机版本与集群版本的迁移对比在单机版本的ApacheIoTDB中，数据迁移非常简单。我们只需要将数据文件夹
TinyMCE富文本编辑器在Vue中的使用教程
介绍TinyMCE是一款功能强大的富文本编辑器，本教程将指导您如何在Vue项目中集成和使用TinyMCE编辑器，从基础使用到高级功能扩展。目录基础集成核心配置详解图片上传处理自定义功能扩展双向数据绑定样式定制常见问题解决vue项目实际应用1.基础集成安装依赖#yarnyarnaddtinymceyarnadd@tinymce/tinymce-vue#npmnpminstalltinymce-Snp
教育心理学分享第八十八天一朵康卫忠
语言文字化的暗示效应生活里，经常遇到这类人，遇到比较重要的场合，会自然地喃喃自语：“完了完了”……当然，并不是所有的结果都不如意，那是老天眷顾努力的人，大部分时候真的会完了。有个学生的口头禅是“我不行，不行不行”，我知道对于这样的孩子，不能正面引导，其实很多时候他也没注意自己的口头禅，如果直接让他改掉这个不好的语言暗示，不仅效果慢，可能还会增加他内心自我否定的情绪。我在他作业上换着花样留评语，从他
关于失眠秋天的云彩qmq
图片发自App从昨天到今天，遇到好多个人都说我过得憔悴了，问我是怎么了，是不是遇到什么事了，还是身体不好。满满地都是关心，让我非常地感动，也非常地无奈。为什么就憔悴了呢？因为老了呗。但我内心是不想承认的，就解释说最近睡眠不好。其实这也不是谎话，我确实睡眠不好，不过不只是最近而是一直。自孩子出生起，还在月子里我就睡眠不好，一整个月子我都处于失眠状态。以后孩子大了，也找中医调理了一段时间，慢慢地好些了
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
微商代理真实收入是多少，做微商怎么做？高省_飞智666600
入了微商这一行之后，只要接受一些产品知识的培训，平常发发广告，再联系上级代理和卖家，进货发货，就可以了，需要的成本相对较少。而赚钱的多少取决于代理商品的层次，商品档次越高，利润越高，代理费也就越高，风险也越大，一般的代理商品，一件的利润大概是几块到几十块不等。另外，微商的收入还取决于人脉和圈子的大小。网友们经常调侃做微商的人一般都是“杀熟”，他们的销售对象一般都是身边的熟人，或者是熟人的熟人，因此
React 最新版本（hooks写法）抬头第一眼，是天 React react.js javascript 前端
React目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录React目录前言一、指令jsx语法：需要注意的是：react的类名class变成了className，事件从onClick，因为class是react的内部关键字动态数据useState()相当于Vue3的ref（），reactive（）条件渲染列
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

绝对干货！NLP预训练模型：从transformer到albert

背景

1. transformer

1.1 transformer的背景

1.2 transformer的流程

1.3 transformer的技术细节

1.4 transformer的总结

2. bert

2.1 bert的背景

2.2 bert的流程

2.3 bert的技术细节

2.4 bert的总结

3. xlnet

3.1 xlnet的背景

3.2 xlnet的流程

3.3 xlnet的技术细节

3.4 xlnet的总结

4. albert

4.1 albert的背景

4.2 albert的流程

4.3 albert的技术细节

4.4 albert的总结

5. 其他论文

5.1 gpt

5.2 structbert

5.3 roberta

6. 总结

你可能感兴趣的:(绝对干货！NLP预训练模型：从transformer到albert)