qq_33998728

Transformer相关的各种预训练模型优点缺点对比总结与资料收集(Transformer/Bert/Albert/RoBerta/ERNIE/XLnet/ELECTRA）

文章目录

- - 1、Transfomer
  - - 基础资料
    - 基本结构
    - - single attention和 multiHead attention
      - attention
        
        multi-head attention
        
        self-attention
      - encoder和decoder
      - Add & Norm
        
        Position-wise Feed-Forward Networks（Relu）
        
        Weight Tying
        
        Normalization
        
        decoder mask
        
        Optimizer
      - 位置编码
    - 缺陷及优点
    - - 缺陷
      - 优点
  - 2、Bert
  - - 基础资料
    - 基本结构
    - - Input
      - 代码输入参数
      - Pre-training和Fine-Tuning
      - MLM（mark language model）
      - 训练语料及模型大小设置
      - 句向量pooling
      - SQuAD
      - SWAG（The Situations With Adversarial Generations）
      - 微调模式
    - 缺陷及优点
    - - 缺陷
      - 优点
  - 3、Albert
  - - 基础资料
    - 基本结构
    - - 嵌入向量参数化的因式分解
      - 跨层参数共享（参数量减少主要贡献）
      - 句间连贯性损失（SOP）
      - 运行一定步后删除Dropout
      - Segments-Pair
      - Masked-ngram-LM
      - 模型大小
    - 缺陷及优点
    - - 缺陷
      - 优点
  - 4、RoBerta
  - - 基础资料
    - 基本结构
    - - 静态Masking（Bert） vs 动态Masking（RoBerta)
      - with NSP（Bert） vs without NSP（RoBerta)
      - 更大的mini-batch （实际应用中，我们应该不断扩大mini_batch，直至把显卡内卡打满）
      - 更多的数据，更长时间的训练
      - 更改Text Encoding
      - 超参设置
  - 5、ERNIE（1.0）
  - - 基础资料
    - 基本结构
    - - 改变mark方法
    - 中文的Additional data
    - - 预训练时Dialogue data使用（Query-Response dialogue）
    - 缺陷及优点
  - 6、XLnet
  - - 基础资料
    - 基本结构
    - - 自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型
      - 排列语言建模（Permutation Language Modeling）
      - Two-Stream Self-Attention（建模上面的排列语言模型）
      - 部分预测
      - Transformer-XL
      - 相对位置编码
      - 超参设置
    - 缺陷及优点
    - - 优点
      - 缺点
  - 7、ELECTRA
  - - 基础资料
    - 基本结构
    - - RTD

1、Transfomer

基础资料

论文《Attention Is All You Need》 https://arxiv.org/abs/1706.03762
github： https://github.com/EternalFeather/Transformer-in-generating-dialogue
英文介绍 https://jalammar.github.io/illustrated-transformer/
中文介绍 https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc
attention的mask机制：https://blog.csdn.net/weixin_40901056/article/details/97514718
attention机制总结： https://www.jianshu.com/p/cf41f3f91d94

基本结构

single attention和 multiHead attention

attention

multi-head attention

通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来
后面要加一个线性变换（下图的红框）
其中head的维度是hiddensize/head的个数，不增加计算复杂度

self-attention

取Q，K，V相同，都是下层前馈网络的产出，计算方法scaled dot-product
scale（K向量维度的开方8）的目的是：缩放后值差距变小，使梯度更稳定
mask：将padding值0屏蔽掉，不影响其它词的attention计算，将padding=0的值赋值一个无穷小，这样的话，e的无穷小次方接近于0

encoder和decoder

Add & Norm

Add 残差连接：加入一个常量，深层网络可以防止梯度消失
Norm ：标准化：multi-Head，每个head产出结果的量级或范围不一定一致，需要归一化才能接全连接

Position-wise Feed-Forward Networks（Relu）

该全连接是先接一个4*hidden_size的全连接，用relu筛选后，再恢复hidden_size的维度，目的是将每个位置的Attention结果映射到一个更大维度的特征空间，然后使用ReLU引入非线性进行筛选，最后恢复回原始维度。需要说明的是，在抛弃了 LSTM 结构后，FFN 中的 ReLU成为了一个主要的能提供非线性变换的单元

Weight Tying

上图Figure1中红色框框的1、2、3，使用同一个参数矩阵（C*H），1、2是将词vocabSize的向量映射成hidden_size的向量，3是将hidden_size的向量映射成vocabSize的向量，这样后面接softmax，预测词汇
训练过程中，1当成变量，由encoder训练，2和3当成常量直接使用

Normalization

Dropout：3个地方使用，1、token embedding + position embedding；2、attention；3、全连接
Label Smoothing

decoder mask

训练时，decoder的input要mask掉后面的词汇，因为真实预测时，并看不到后面的值

Optimizer

warmup的好处：
1. 有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳
2. 有助于保持模型深层的稳定性

位置编码

缺陷及优点

缺陷

计算量太大，self.attention的复杂度是n的2次方，解决办法：set transformer的的attention因式分解，先投影到低维空间，由低维空间和自己算attention，然后再投影到高维空间
位置信息利用不明显，transformer的postionEmbedding效果不好，而且无法捕获长距离的信息，解决办法：transformer_xl，修改positionEmbedding公式；类似rnn，分段计算attention，把上一段的attention输出作为下一段attention的context
multiHead，并不是所有的head都有用，可以通过剪枝方式减少head，从而减少参数量

优点

每个元素可以像CNN一样和全局的信息进行交互，忽略距离
突破了 RNN 模型不能并行计算的限制
自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。各个注意头(attention head)可以学会执行不同的任务

2、Bert

基础资料

论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 https://arxiv.org/abs/1810.04805
github：https://github.com/google-research/bert
BERT相关论文、文章和代码资源汇总：https://zhuanlan.zhihu.com/p/50717786
Bert代码解读：https://daiwk.github.io/posts/nlp-bert-code-annotated-framework.html
bert结构介绍：https://www.jianshu.com/p/23050ce9493a
Bert参数量统计：https://blog.csdn.net/weixin_43922901/article/details/102602557
Bert测试集描述：https://blog.csdn.net/shuibuzhaodeshiren/article/details/87743286

基本结构

Input

代码输入参数

input_ids：输入的词汇在词表中的id，padding为0
input_mask：确定哪些词是padding，padding的位置为0，其它为1，[1,1,1,1,1,0,0,0,0,0]
segment_ids：确定哪些词汇属于SentenceA，哪些属于SentenceB，padding为0，[0,0,0,0,1,1,1,1,1,0,0,0,0]
masked_lm_positions：mask词汇的position 索引位置，就是哪几个词被mask
masked_lm_ids：mask词汇的词表中的id
masked_lm_weights：mask词汇的权重，默认全是1
next_sentence_labels：1表示真正的上下句，0表示random获取的

Pre-training和Fine-Tuning

MLM（mark language model）

每条训练样本有15%的要被mark，设置最多mark个数，shuffle word，然后遍历word，当被mark的数量满足15%或最多mark数量时，停止
当word被选择为mark word时，80%被mark，10%不变（这是为了一定程度上，预训练和微调保持一致），10%被替换任意词汇（这是为了防止过拟合，就是加入噪音）

训练语料及模型大小设置

训练语料：Wiki和book corpus，内容比较正经，对于口语化严重的场景下，会有一点影响
模型大小：Base：110M（LayerSize=12，HiddenSize=768，MultiHead=12）；Large：340M（LayerSize=24，HiddenSize=1024，MultiHead=16）
详细模型大小计算，可参考基础资料里面的《Bert参数量统计》

句向量pooling

当需要选择encoder的output作为sentence的represention时候，我们一般选择[CLS]对应位置的词向量，因为[CLS]本身没有含义，所以它和其它word的attention正好就是sentence的context表示，所以选择它比较合适（其实这也是一种pooling选择，可以像set transformer一样pooling）

SQuAD

SQuAD 是斯坦福大学于2016年推出的数据集，一个阅读理解数据集，给定一篇文章，准备相应问题，需要算法给出问题的答案。
Fine_tuning方法：query作为SentenceA，text作为SentenceB，组成input输入到Bert中，然后在output中通过下面公式计算

S是answer开始符合的编码，通过这种方式找到answer的开始位置和结束位置，训练目标：使得anwer的开始位置和结束位置的log-likelihoods之和最大

SWAG（The Situations With Adversarial Generations）

给出一个陈述句子和4个备选句子, 判断前者与后者中的哪一个最有逻辑的连续性, 相当于阅读理解问题
Sentence A是陈述句子，SentenceB是备选句子，训练参数：一个vector，该条句子的score是这个vector和CLS的产出的点乘

微调模式

缺陷及优点

缺陷

微调和预训练不一致，微调数据中没有mark，预训练有15%*80%的mark（xlnet一定程度解决，但也没完全解决，预测时没有mark）
模型文件太大，训练时间太长，一方面，这是因为self.attention的训练复杂度时n的2次方（set transformer解决这个问题）；另一方面，每轮只有15%的词汇预测，太慢（ELECTRA 通过在encoder后面加了一个识别器，识别所有单词是否为原生的，这样就解决了15%的限制）
训练语料不全，albert、RoBerta、ERNIE都在通过丰富语料来提高效果
mark 单一word导致专有名词、实体等，不能分开的词组，学不到和其它实体的关系（百度的ERNIE通过词组识别，mark词组）（albert 使用mark的n-gram方法）
静态mark，一个word一旦被选定为mark，在所有的epoch中都会被选中，这不合理，RoBerta通过复制多份数据，每份数据的mark都不一样
NEP：只能学习两个句子的联系，RoBerta 加入连续多个句子，学习多个句子之间的联系；albert使用SOP判断两个句子是否被交换过顺序
Bert产出的句向量，在计算句子相似度时，不合适直接进行点积或余弦相似度计算，因为区别度不高，可以使用neural tensor layer进行训练，公式如下：

优点

借用transformer的self.attention优势，真正实现双向文本表示（不像elmo那样，两个单向相加还是单向的，下图所示）
fine_tuning效果好于Feature-based（ELMo，结合下游任务产出encoder的向量表示），摆脱下游任务，使用MLM和NSP，学习词级别和句级别的表示，然后再结合下游任务微调，效果达到很好

3、Albert

基础资料

论文资料《ALITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》 https://openreview.net/pdf?id=H1eA7AEtvS
GitHub 英文：https://github.com/google-research/albert；中文：https://github.com/brightmart/albert_zh
albert简介：https://blog.csdn.net/jiaowoshouzi/article/details/102320781
解读ALBERT：https://blog.csdn.net/weixin_37947156/article/details/101529943

基本结构

嵌入向量参数化的因式分解

对于 ALBERT 而言，研究者对词嵌入参数进行了因式分解，将它们分解为两个小矩阵。研究者不再将 one-hot 向量直接映射到大小为 H 的隐藏空间，而是先将它们映射到一个低维词嵌入空间 E，然后再映射到隐藏空间。通过这种分解，研究者可以将词嵌入参数从O(V × H) 降低到 O(V × E + E × H)，这在 H 远远大于 E 的时候，参数量减少得非常明显
可以参考《用深度矩阵分解给词向量矩阵瘦身》https://zhuanlan.zhihu.com/p/85339902，简化词向量参数的数量级

跨层参数共享（参数量减少主要贡献）

对于 ALBERT，研究者提出了另一种跨层参数共享机制来进一步提升参数效率。其实目前有很多方式来共享参数，例如只贡献前馈网络不同层之间的参数，或者只贡献注意力机制的参数，而 ALBERT 采用的是贡献所有层的所有参数，研究者发现 ALBERT 从一层到另一层的转换要比 BERT 平滑得多，结果表明，权重共享有效地提升了神经网络参数的鲁棒性。

句间连贯性损失（SOP）

谷歌自己把它换成了 SOP。这个在百度 ERNIE 2.0 里也有，叫 Sentence Reordering Task，而且 SRT 比 SOP 更强，因为需要预测更多种句子片段顺序排列。ERNIE 2.0 中还有一些别的东西可挖，比如大小写预测

Captialization Prediction Task、句子距离 Sentence Distance Task。

NOP：下一句预测，正样本=上下相邻的2个句子，负样本=随机2个句子
SOP：句子顺序预测，正样本=正常顺序的2个相邻句子，负样本=调换顺序的2个相邻句子
NOP任务过于简单，只要模型发现两个句子的主题不一样就行了，所以SOP预测任务能够让模型学习到更多的信息

句子样本选取的考虑如下：

BERT使用的NSP损失，是预测两个片段在原文本中是否连续出现的二分类损失。目标是为了提高如NLI等下游任务的性能，但是最近的研究都表示 NSP 的作用不可靠，都选择了不使用NSP。
作者推测，NSP效果不佳的原因是其难度较小。将主题预测和连贯性预测结合在了一起，但主题预测比连贯性预测简单得多，并且它与LM损失学到的内容是有重合的。
SOP的正例选取方式与BERT一致（来自同一文档的两个连续段），而负例不同于BERT中的sample，同样是来自同一文档的两个连续段，但交换两段的顺序，从而避免了主题预测，只关注建模句子之间的连贯性。

运行一定步后删除Dropout

删除的原因（bert的dropout应用可以参考上文bert）

模型的内部任务（MLM，SOP等等）都没有过拟合
dropout是为了降低过拟合而增加的机制，所以对于bert而言是弊大于利的机制

Segments-Pair

BERT为了加速训练，前90%的steps使用了128个token的短句子，最后10%才使用512个token的长句子训练位置向量。

ALBERT貌似90%的情况下使用512的segment，从数据上看，更长的数据提供更多的上下文信息，可能显著提升模型的能力

Masked-ngram-LM

BERT的MLM目标是随机MASK15%的词来预测，ALBERT预测的是N-gram片段，包含更多的语义信息，每个片段长度n（最大为3），根据概率公式计算得到。比如1-gram、2-gram、3-gram的的概率分别为6/11、3/11、2/11.越长概率越小：

模型大小

对Embedding因式分解

下图是E选择不同值的一个实验结果，尴尬的是，在不采用参数共享优化方案时E设置为768效果反而好一些，在采用了参数共享优化方案时E取128效果更好一些。

跨层的参数共享

下图是BERT与ALBERT的一个对比，以base为例，BERT的参数是108M，而ALBERT仅有12M，但是效果的确相比BERT降低了两个点。由于其速度快的原因，我们再以BERT xlarge为参照标准其参数是1280M，假设其训练速度是1，ALBERT的xxlarge版本的训练速度是其1.2倍，并且参数也才223M，评判标准的平均值也达到了最高的88.7

缺陷及优点

缺陷

在初闻ALBERT时，以为其减少了总的运算量，但实际上是通过参数共享的方式降低了内存，预测阶段还是需要和BERT一样的时间，如果采用了xxlarge版本的ALBERT，那实际上预测速度会更慢。

优点

ALBERT解决的是训练时候的速度提升，如果要真的做到总体运算量的减少，的确是一个复杂且艰巨的任务，毕竟鱼与熊掌不可兼得。不过话说回来，ALBERT也更加适合采用feature base或者模型蒸馏等方式来提升最终效果。

4、RoBerta

基础资料

论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》https://arxiv.org/abs/1907.11692
Github：https://github.com/pytorch/fairseq
改进版的RoBERTa到底改进了什么？https://www.jianshu.com/p/eddf04ba8545
文献阅读笔记 https://blog.csdn.net/ljp1919/article/details/100666563

基本结构

静态Masking（Bert） vs 动态Masking（RoBerta)

静态Masking: 原来Bert对每一个序列随机选择15%的Tokens替换成[MASK]，为了消除与下游任务的不匹配，还对这15%的Tokens进行（1）80%的时间替换成[MASK]；（2）10%的时间不变；（3）10%的时间替换成其他词。但整个训练过程，这15%的Tokens一旦被选择就不再改变，也就是说从一开始随机选择了这15%的Tokens，之后的N个epoch里都不再改变了。

动态Masking: 而RoBERTa一开始把预训练的数据复制10份，每一份都随机选择15%的Tokens进行Masking，也就是说，同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中，每个序列的被mask的tokens是会变化的。

with NSP（Bert） vs without NSP（RoBerta)

with NSP（Bert）：原本的Bert为了捕捉句子之间的关系，使用了NSP任务进行预训练，就是输入一对句子A和B，判断这两个句子是否是连续的。在训练的数据中，50%的B是A的下一个句子，50%的B是随机抽取的。
without NSP（RoBerta)：而RoBERTa去除了NSP，而是每次输入连续的多个句子，直到最大长度512（可以跨文章）。这种训练方式叫做（FULL - SENTENCES），而原来的Bert每次只输入两个句子。实验表明在MNLI这种推断句子关系的任务上RoBERTa也能有更好性能。

更大的mini-batch （实际应用中，我们应该不断扩大mini_batch，直至把显卡内卡打满）

原本的BERTbase 的batch size是256，训练1M个steps。RoBERTa的batch size为8k。为什么要用更大的batch size呢？（除了因为他们有钱玩得起外）作者借鉴了在机器翻译中，用更大的batch size配合更大学习率能提升模型优化速率和模型性能的现象，并且也用实验证明了确实Bert还能用更大的batch size。

更改Text Encoding

字节对编码(BPE)(Sennrich et al.,2016)是字符级和单词级表示的混合，该编码方案可以处理自然语言语料库中常见的大量词汇。BPE不依赖于完整的单词，而是依赖于子词(sub-word)单元，这些子词单元是通过对训练语料库进行统计分析而提取的，其词表大小通常在 1万到 10万之间。当对海量多样语料建模时，unicode characters占据了该词表的大部分。Radford et al.(2019)的工作中介绍了一个简单但高效的BPE，该BPE使用字节对而非unicode characters作为子词单元。
当采用 bytes-level 的 BPE 之后，词表大小从3万（原始 BERT 的 char-level ）增加到5万。这分别为 BERT-base和 BERT-large增加了1500万和2000万额外的参数。
总结下两种BPE实现方式：

基于 char-level ：原始 BERT 的方式，它通过对输入文本进行启发式的词干化之后处理得到
基于 bytes-level：与 char-level 的区别在于bytes-level 使用 bytes 而不是 unicode 字符作为 sub-word 的基本单位，因此可以编码任何输入文本而不会引入 UNKOWN 标记。

超参设置

5、ERNIE（1.0）

基础资料

论文《Enhanced Representation from kNowledge IntEgration》https://www.aclweb.org/anthology/P19-1139.pdf
Github：https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE
ERNIE预览：百度知识增强语义表示模型ERNIE：https://www.jianshu.com/p/fb66f444bb8c
ERNIE - 清华详解 https://zhuanlan.zhihu.com/p/103208601

基本结构

改变mark方法

实体主要是person name, place name, organization name这几类
考虑到有可能存在错误的token-entity alignmnent，具体操作：

5%的时间，对于一个token-entity alignmnent，随机替换entity，让模型预测正确的entity
15%的时间，随机mask掉 token-entity alignmnents，让模型去正确预测token-entity alignment。
剩下的时间，token-entity alignmnents不变，让模型将知识进行融合。

中文的Additional data

Chinese Wikepedia, Baidu Baike, Baidu news and Baidu Tieba

预训练时Dialogue data使用（Query-Response dialogue）

负样本选取：我们通过用随机选择的句子替换查询或响应来生成伪造的样本，该模型旨在判断多轮对话是真实的还是假的

缺陷及优点

优点：善于捕获词语之间相互关系，在完型填空等类型的任务中的表现良好。

6、XLnet

基础资料

论文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》https://arxiv.org/pdf/1906.08237.pdf
Github https://github.com/zihangdai/xlnet
xlnet和bert对比：https://zhuanlan.zhihu.com/p/70257427
xlnet原理解读：https://blog.csdn.net/weixin_37947156/article/details/93035607
transformer_xl 《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》
Transformer-XL介绍 https://zhuanlan.zhihu.com/p/84159401

基本结构

自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型

自回归(Autoregressive, AR)（ELMo和GPT）：自回归是时间序列分析或者信号处理领域喜欢用的一个术语，我们这里理解成语言模型就好了：一个句子的生成过程如下：首先根据概率分布生成第一个词，然后根据第一个词生成第二个词，然后根据前两个词生成第三个词，……，直到生成整个句子。

自编码(autoencoding)模型（Bert）：自编码器是一种无监督学习输入的特征的方法：我们用一个神经网络把输入(输入通常还会增加一些噪声)变成一个低维的特征，这就是编码部分，然后再用一个Decoder尝试把特征恢复成原始的信号。

自回归的问题：1、独立假设：被mask的word之间是相互独立的；2、预训练与微调不一致：BERT的在预训练时会出现特殊的[MASK]，但是它在下游的fine-tuning中不会出现，这就是出现了不匹配。而语言模型不会有这个问题。
自编码的问题：语言模型只能参考一个方向的上下文，而BERT可以参考双向整个句子的上下文，因此这一点BERT更好一些。ELMo和GPT最大的问题就是传统的语言模型是单向的——我们是根据之前的历史来预测当前词。但是我们不能利用后面的信息。

排列语言建模（Permutation Language Modeling）

给定长度为T的序列xx，总共有T!种排列方法，也就对应T!种链式分解方法。比如假设x=x1x2x3，那么总共用3!=6种分解方法：

注意p(x2|x1x3)指的是第一个词是x1并且第三个词是x3的条件下第二个词是x2的概率，也就是说原来词的顺序是保持的。如果理解为第一个词是x1并且第二个词是x3的条件下第三个词是x2，那么就不对了。
因此我们可以遍历T!种路径，然后学习语言模型的参数，但是这个计算量非常大(10!=3628800,10个词的句子就有这么多种组合)。因此实际我们只能随机的采样T!里的部分排列。（论文没提到如何随机）

Two-Stream Self-Attention（建模上面的排列语言模型）

query流：为了预测x位置的词汇，只能使用x位置信息而不能使用x以及之后信息，这是显然的：你预测一个词当然不能知道要预测的是什么词。同时，也是为了防止上层的attention用到下层x位置的mark词汇信息。
content流：为了预测x位置之后的词，必须编码x位置的信息(语义)

我们首先把查询隐状态g初始化为一个变量w（使用embedding*g矩阵生成w），把内容隐状态h初始化为词的Embedding 。
content流分解如下：fine_tuning时也只有content流


query流分解如下：预训练时计算损失函数时也只用到了query流的向量，去和embedding做点乘softmaxt计算log_likelihood

部分预测

为了减少计算量，故对于一个因式分解样本，只预测后部分的词汇，那么训练目标就是后部分词汇的log-likelihood最大，所以同时前部分的query就不计算了，只计算content流，减少计算量

Transformer-XL

为解决self.attention的n方复杂度，以及超长文本获取信息冗余问题，限制输入文本的长度，一般的transformer在处理超长文本时，训练时segment分开，一个一个训练，预测时，segment步长为1进行移动，效率太低，故transformer_xl提出了Multiple Segments模型。

这张图上有一个点需要注意，在当前segment中，第n层的每个隐向量的计算，都是利用下一层中包括当前位置在内的，连续前L个长度的隐向量，这是在上面的公式组中没有体现出来的，也是文中没有明说的。每一个位置的隐向量，除了自己的位置，都跟下一层中前(L-1)个位置的token存在依赖关系，而且每往下走一层，依赖关系长度会增加(L-1)，如下图中Evaluation phase所示，所以最长的依赖关系长度是N(L-1)，N是模型中layer的数量。N通常要比L小很多，比如在BERT中，N=12或者24，L=512，依赖关系长度可以近似为O（N*L）

相对位置编码

在传统的Transformer中，输入序列中的位置信息是怎么表示的？通过POS函数生成，它是位置i和维度d的函数，也就是不同输入segment在相同绝对位置中的位置表示是相同的。在传统的Transformer中，每个segment之间的表示是没有关联的，这当然就没有问题。但是在TransformerXL中，因为引入了前一时刻segment的信息，就需要对不同时刻，同样是第i个的词进行区分。

对比来看，主要有三点变化：

在b和d这两项中，将所有绝对位置向量Ui，Uj都转为相对位置向量Ri−j，与Transformer一样，这是一个固定的编码向量，不需要学习。
在c这一项中，将查询的U_i^T*W_qT向量转为一个需要学习的参数向量u，因为在考虑相对位置的时候，不需要查询绝对位置i，因此对于任意的i，都可以采用同样的向量。同理，在d这一项中，也将查询的U_i^T*W_qT向量转为另一个需要学习的参数向量v。
将K的权重变换矩阵Wk转为Wk_E 和Wk_R，分别作为content-based key vectors和location-based key vectors。

总的来说，Relative Positional Encodings就是在计算attention分数时，用相对位置R_i_j编码来代替原来的绝对位置编码Ui和Uj。并且学习了相对位置v和u用来调整不同距离和不同嵌入的得分。

TransformerXL对Transformer进行了一些调整，试图解决一些问题。按照论文的描述，TransformerXL学习的依赖关系比RNN长80%，比传统Transformer长450%，在短序列和长序列上都获得了更好的性能，并且在评估阶段比传统Transformer快1800+倍

超参设置

缺陷及优点

优点

1、解决了mark词之间的相互依赖关系；
2、通过transform_xl的加入，可以捕获更长距离的信息；

缺点

由于预训练的每一轮都是掩码矩阵的行列排列，而fine_tuning阶段是普通的transformer

7、ELECTRA

基础资料

论文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》 https://arxiv.org/abs/2003.10555
Github https://github.com/google-research/electra
中文模型下载及使用方法：https://react.ctolib.com/ymcui-chinese-electra.html#%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD

基本结构

当下流行的MLM（Masked Language Modeling）方法会大大增加计算开销，原因：模型只学到每个example中15%的tokens信息，而且有些token可能会很简单。
因此，我们创新性地提出了RTD （Replaced Token Detection）这样的新的预训练任务（可以判断每个example的所有词汇是不是被替换过，加快训练速度）。

RTD

损失函数

通常采用两个Bert实现上面的结构，并且通过两个Bert的参数共享减少参数量
Weight Sharing：Generator和Discriminator使用参数相同（attention参数和embedding参数）的Bert产出（用Bert的目的就是为了和Bert效果对比）；实验结果显示只共享embedding时效果最好
Smaller Generators：可以从下图中看到，生成器的大小在判别器的1/4到1/2之间效果是最好的。作者认为原因是过强的生成器会增大判别器的难度
Training Algorithms：
实际上除了MLM loss，作者也尝试了另外两种训练策略：
- Adversarial Contrastive Estimation：ELECTRA因为上述一些问题无法使用GAN，但也可以以一种对抗学习的思想来训练。作者将生成器的目标函数由最小化MLM loss换成了最大化判别器在被替换token上的RTD loss。但还有一个问题，就是新的生成器loss无法用梯度下降更新生成器，于是作者用强化学习Policy Gradient的思想，将被替换token的交叉熵作为生成器的reward，然后进行梯度下降。强化方法优化下来生成器在MLM任务上可以达到54%的准确率，而之前MLE优化下可以达到65%。
- Two-stage training：即先训练生成器，然后freeze掉，用生成器的权重初始化判别器，再接着训练相同步数的判别器。
当采用Bert作为generator且参数全共享时，训练时间以及GLUE对比

微调阶段，ELECTRA与各个模型在GLUE各个任务上的效果对比，ELECTRA-small++只有BERT-Base大小的大概10分之一，但效果类似
超参设置


NLP预训练模型综述 :https://www.sohu.com/a/387592630_500659

你可能感兴趣的:(自然语言处理,算法,神经网络,深度学习)

VUE解决Error: error:0308010C:digital envelope routines::unsupported的四种解决方案
问题描述：报错：Error:error:0308010C:digitalenveloperoutines::unsupported报错原因：主要是因为nodeJsV17版本发布了OpenSSL3.0对算法和秘钥大小增加了更为严格的限制，nodeJsv17之前版本没影响，但V17和之后版本会出现这个错误。我的node版本是v18+报错详细信息：rror:error:0308010C:digitale
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
硬件预取的几个问题 1
1.硬件预取的定义和目标是什么？答案：硬件预取是CPU在程序执行前自动预测并加载可能使用的数据到缓存中的技术，目标是减少缓存未命中带来的延迟，提升指令吞吐量。2.硬件预取与软件预取的核心区别？答案：硬件预取由CPU内部逻辑自动触发，透明且通用；软件预取需程序员显式插入指令（如prefetch），可针对特定场景优化，但依赖代码适配。3.预取算法的主要分类？答案：分为规则驱动型（如顺序、步长预取）和机
Zuul的用法——限流 HmilyMing
因为所有的对外提供的接口都是要经过Zuul的转发，所以在这里的Pre过滤器里面做限流是最好的。常用的限流算法有1.计数器法，可以看做是低精度的滑动窗口算法2.滑动窗口，需要更多的存储空间3.漏桶算法，4.令牌桶算法，运行流量在一定程度上的突发，实践简单，对用户更友好，采用得更多。我这里采用的就是令牌桶算法，其原理如下令牌桶算法guava里面有令牌桶算法的实现在浏览器多刷几次就会被限流给禁止访问了代
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
网易云音乐会员优惠大揭秘，网友：太值了！氧惠佣金真的高
在数字音乐时代，拥有一款高品质的音乐APP是音乐爱好者的必备之选。作为中国音乐市场的佼佼者，网易云音乐凭借其丰富的曲库、出色的推荐算法以及浓厚的社区氛围，吸引了大量用户。近日，网易云音乐推出了一系列会员优惠活动，让我们一起来了解一下吧！大家好，我是氧惠联合创始人七言导师，给大家推荐一款省钱更加赚钱的app——氧惠。氧惠是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主
微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化 MicroTech2025 量子计算区块链
随着量子计算技术的发展，传统加密算法面临被量子计算机破解的风险，LSQb算法也需考虑应对未来可能的量子攻击。微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化。格密码在面对量子攻击时具有较高的安全性，通过这种融合，能为LSQb算法提供更强大的抗攻击能力，确保信息在复杂的量子计算环境下的安全性。格密码是一种基于数学格结构的密码学方法，具有在量子计算环境
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
Kafka 时间轮深度解析：如何O(1)处理定时任务 lifallen Kafka Java kafka linq 分布式 java 数据库数据结构 apache
TimingWheel（时间轮）TimingWheel是一种高效的、用于实现大量定时任务调度的算法结构。相比于传统的基于优先队列（PriorityQueue）的定时器（其添加/删除操作的时间复杂度为O(logn)），时间轮可以实现近乎O(1)的添加和删除操作，这在需要管理成千上万个定时任务的场景下（例如Kafka中的请求超时、延迟操作等）具有巨大的性能优势。可以把一个TimingWheel想象成一
【算法训练营Day12】二叉树part2 十八岁讨厌编程算法训练营算法
文章目录翻转二叉树对称二叉树二叉树的最大深度二叉树的最小深度翻转二叉树题目链接：226.翻转二叉树解题逻辑：翻转二叉树也就是将所有非叶节点的左右孩子相互交换，那么我们就可以采用层序遍历判断非叶节点进行翻转：初始化一个辅助队列将根节点添加到队列中去弹出队头元素如果该元素的两个子节点均不为null则翻转两个子节点然后将子节点入队如此循环往复直到队列为空代码如下：classSolution{public
高通camera结构（第五天）
一、摄像头的结构和工作原理镜头用来拍摄景物，拍摄的图片在传感器上将光信号转换成了电信号，电信号经过AD转换器（模数转换器）转换成了数字信号，数字信号经过DSP（数字信号处理器）进行加工处理，再被送到电脑中进行处理，最终转换成了手机屏幕上我们可以看到的图像。数字信号处理器芯片（DSP）功能：主要是通过一系列数学的算法运算，对数字图像信号进行优化处理，并把处理过的信号通过USB等接口传到PC等设备。D
推荐算法召回：架构理解 Jay Kay c++推荐算法推荐算法架构算法
一、召回服务的定位与挑战召回层是推荐系统的第一道漏斗，负责从亿级候选集中筛选出千级别的相关项，其效果直接决定推荐效果的天花板。核心挑战包括：低延迟约束：需在50ms内完成海量候选检索；高召回率要求：98%的召回率需覆盖用户多样化兴趣；数据漂移应对：实时用户行为分布变化需动态适应；误杀控制：避免优质内容被过度过滤引发用户投诉。⚙️二、召回服务核心架构1.多路召回并行召回策略实现方式适用场景规则召回基
A*算法详解
A*算法详解一、A*算法基础概念1.1算法定位1.2核心评估函数1.3关键数据结构二、A*算法的核心步骤三、启发函数设计3.1网格地图中的启发函数3.2启发函数的选择原则三、Java代码实现四、启发函数的设计与优化4.1启发函数的可采纳性4.2启发函数的效率影响4.3常见启发函数对比五、A*算法的应用场景与拓展5.1典型应用5.2算法拓展六、A*算法的优缺点优点缺点从游戏中的角色寻路到机器人导航，
分层图最短路径算法详解 GG不是gg 数据结构与算法分析 #算法分析与设计图搜索算法
分层图最短路径算法详解一、分层图算法的核心思想1.1问题引入：带约束的最短路径1.2分层图的核心思路二、分层图的构建方法2.1分层图的结构定义2.2构建步骤（以“最多k次边权改为0”为例）三、分层图最短路径的求解3.1算法步骤3.2Java代码实现（以Dijkstra为例）四、分层图算法的关键细节4.1状态表示与空间优化4.2边的处理4.3复杂度分析五、典型应用场景5.1带次数约束的路径优化5.2
信息学奥赛-一本通-第二部分基础算法 --＞第五章搜索与回溯算法攻城丶狮 C++比赛信息算法深度优先图论 c++青少年编程
1317：【例5.2】组合的输出【题目描述】排列与组合是常用的数学方法，其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n)，我们可以简单地将n个元素理解为自然数1，2，…，n，从中任取r个数。现要求你用递归的方法输出所有组合。例如n＝5，r＝3，所有组合为：123124125134135145234235245345【题目分析】1.搜索函数参数:上一次搜索的数字i(i(n)>=i(n-1))
java多线程-锁的介绍
多线程中常用锁一、锁的概念二、锁的类型2.1互斥锁（也称排它锁）2.1.1Synchronized和Lock2.1.2ReentrantLock（可重入锁）2.1.3公平锁2.1.4非公平锁2.1.5中断锁2.2共享锁2.3读写锁三、悲观锁和乐观锁3.1悲观锁3.2乐观锁3.3CAS算法四、锁竞争一、锁的概念在多线程中，有乐观锁、悲观锁等很多锁的概念，在了解锁的概念之前我们需要先知道线程和进程以及
算法训练DAY28 |力扣93.复原IP地址&&力扣78.子集&&力扣90.子集Ⅱ Syhaun 算法
93.复原IP地址原题链接：力扣93.复原IP地址题目描述有效IP地址正好由四个整数（每个整数位于0到255之间组成，且不能含有前导0），整数之间用'.'分隔。例如："0.1.2.201"和"192.168.1.1"是有效IP地址，但是"0.011.255.245"、"192.168.1.312"和"[email protected]"是无效IP地址。给定一个只包含数字的字符串s，用以表示一个IP地址，返回所
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
TimSort：论Java Arrays.sort的稳定性 lifallen Java 算法排序算法算法数据结构 java 开发语言后端
TimSort是一种混合的、稳定的排序算法，结合了归并排序（MergeSort）和二分插入排序（BinaryInsertionSort）的优点，尤其适用于部分有序的数据。在Java中，Arrays.sort()对对象数组排序时内部使用了TimSort算法。对于集合的排序实际上也是使用Arrays.sort如List.javadefaultvoidsort(Comparatorc){Object[]
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
LETTERS（dfs，搜索与回溯）ナナ色のブランク算法学习搜索与回溯算法 c++dfs
题目描述】给出一个roe×col的大写字母矩阵，一开始的位置为左上角，你可以向上下左右四个方向移动，并且不能移向曾经经过的字母。问最多可以经过几个字母。【输入】第一行，输入字母矩阵行数R和列数S，1≤R,S≤20。接着输出R行S列字母矩阵。【输出】最多能走过的不同字母的个数。【输入样例】36HFDFFBAJHGDHDGAGEH【输出样例】6题目分析：这属于dfs（深度优先搜索算法）。dfs带有三个
C语言基础7——两种简单排序算法和二维数组 Gu_shiwww C基础 c语言算法数据结构小白初步
两种简单的排序方法二维数组1.排序1.1冒泡排序冒泡排序，顾名思义，像水中的鱼吐泡泡，一点点的把最小（或最大）的数一步步的从水里一点点的冒出水外的过程。思想：两两比较，第j个和j+1个比较，若满足大小关系，则交换两个数的位置。需要用到两轮for循环，一层遍历整个数组，将所有的数排序，内层是比较大小的时候进行值的交换。inta[5]={5,4,3,2,1};将数组a进行升序。第一轮：i=0j=045
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

Transformer相关的各种预训练模型优点缺点对比总结与资料收集(Transformer/Bert/Albert/RoBerta/ERNIE/XLnet/ELECTRA）

文章目录

1、Transfomer

基础资料

基本结构

single attention和 multiHead attention

attention

multi-head attention

self-attention

encoder和decoder

Add & Norm

Position-wise Feed-Forward Networks（Relu）

Weight Tying

Normalization

decoder mask

Optimizer

位置编码

缺陷及优点

缺陷

优点

2、Bert

基础资料

基本结构

Input

代码输入参数

Pre-training和Fine-Tuning

MLM（mark language model）

训练语料及模型大小设置

句向量pooling

SQuAD

SWAG（The Situations With Adversarial Generations）

微调模式

缺陷及优点

缺陷

优点

3、Albert

基础资料

基本结构

嵌入向量参数化的因式分解

跨层参数共享（参数量减少主要贡献）

句间连贯性损失（SOP）

运行一定步后删除Dropout

Segments-Pair

Masked-ngram-LM

模型大小

缺陷及优点

缺陷

优点

4、RoBerta

基础资料

基本结构

静态Masking（Bert） vs 动态Masking（RoBerta)

with NSP（Bert） vs without NSP（RoBerta)

更大的mini-batch （实际应用中，我们应该不断扩大mini_batch，直至把显卡内卡打满）

更多的数据，更长时间的训练

更改Text Encoding

超参设置

5、ERNIE（1.0）

基础资料

基本结构

改变mark方法

中文的Additional data

预训练时Dialogue data使用（Query-Response dialogue）

缺陷及优点

6、XLnet

基础资料

基本结构

自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型

排列语言建模（Permutation Language Modeling）

Two-Stream Self-Attention（建模上面的排列语言模型）

部分预测

Transformer-XL

相对位置编码

超参设置

缺陷及优点

优点

缺点

7、ELECTRA

基础资料

基本结构