LBJ_King2020

2021秋招-NLP基础-Attention-预训练模型总结

NLP基础-预训练模型总结

现有笔记、资源整理

一. Attention：

常见问题-看完应该懂得:

1. attention的思想
2. attention的发展历程，不同的attention的计算方式
3. self-attention 到 bert的跨越。  
4. attention的优点、缺点

入门篇–最基础attention到transformer

bili-BERT专题系列（一）：Attention机制

bili-BERT专题系列(二):Transformer(Attention is all you need)

bilibili-从零解读碾压循环神经网络的transformer模型(一)

bilibili-BERT的解读语言模型预训练-实践应用-transformer模型(二)

bilibili-贪心学院-Self-Attention与Transformer

建议手动推导+torch实现一遍-动手推导Self-Attention

总结篇

其他链接:

基于1:【注意力机制综述】基础原理、变种和最近研究

一、Attention回顾

二、相关工作

三、Attention的变种

1. Feed forward attention

2. Self Attention⭐

3. Multi Head Attention⭐

4.Convolution Attention

5. Pyramid Attention

6. Co Attention

7. Cross Attention

⭐8. Soft vs. Hard Attention

⭐9. Global vs. Local Attention

10. Compositional Attention

11.Dual Attention

四、总结

⭐遍地开花的 Attention ，你真的懂吗？

History

2015-2017：

2015 ICLR NMT additive attention；
2015 EMNLP NMT 对齐函数创新;
2015 ICML hard-soft attention
2016-2017 Hiearchical Attention、Attention over Attention、multi-step Attention

2017-~

2017 NIPS 《Attention is all of your need》 Transformer
2018 BERT
…

2. what is Attention ？

★ alignment-based

★ memory-based

⭐ self-attention vs. multi-head attention

不推荐-Attention 扫盲：注意力机制及其 PyTorch 应用实现-针对机器翻译

attention变种-从三大顶会论文看百变Self-Attention⭐

Attention注意力机制的前世今身：attention种类总结

注意力统一化描述

将 Attention 从 seq2seq 框架中抽取出来，可以描述为下图所示：

其他

为节约而生：从标准Attention到稀疏Attention

知乎问题-目前主流的attention方法都有哪些？

二、BERT

常见问题以及需掌握基础

BERT的结构：比如: 12层，8heads之类的; LN、残差连接
BERT的编码：3个编码分别是什么，什么功能;
BERT的训练任务，以及各自目的;
BERT的思想、训练语料、与之前模型不同
BERT缺点等等
BERT的参数量计算

原理-transformer笔记

原理-【transformer】你应该知道的 transformer

⭐ 源码-BERT源码分析PART I

BERT参数量计算-考虑了bias

分析-理解BERT每一层都学到了什么

概述：ACL 2019 What does BERT learn about the structure of language? 文章的解读，分析 BERT每层学到了什么。

1. 短语句法

2. 探测任务

3.主谓一致

4.组合结构

分析-Attention！注意力机制可解释吗？

前言

参考来源
NAACL 2019《Attention is Not Explanation》
ACL 2019《Is Attention Interpretable?》
EMNLP 2019《Attention is Not Not Explanation》
本文将与您探讨注意力机制的可解释性问题。

分析-BERT知识：Dive into BERT：语言模型与知识

分析-台湾小哥一篇论文把BERT拉下神坛！NLP神话缺了数据集还不如随机

香侬读 | Transformer中warm-up和LayerNorm的重要性探究

其他整理

【ACL 2019】预训练语言模型的最新探索

三、BERT后时代：预训练模型

推荐⭐⭐⭐知乎- NLP算法面试必备！史上最全！PTMs：NLP预训练模型的全面总结

一、为什么要进行预训练？

深度学习时代，为了充分训练深层模型参数并防止过拟合，通常需要更多标注数据喂养。在NLP领域，标注数据更是一个昂贵资源。PTMs从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看，预训练模型PTMs的优势包括：

在庞大的无标注数据上进行预训练可以获得更通用的语言表示，并有利于下游任务。
为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛。
是一种有效的正则化手段，避免在小数据集上过拟合(一个随机初始化的深层模型容易对小数据集过拟合。)

二、什么是词嵌入和分布式表示？PTMs与分布式表示的关系？

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，这也是分布式表示：向量的每一维度都没有实际意义，而整体代表一个具体概念。

分布式表示相较于传统的独热编码（one-hot）表示具备更强的表示能力，而独热编码存在维度灾难和语义鸿沟（不能进行相似度计算）等问题。传统的分布式表示方法，如矩阵分解（SVD/LSA）、LDA等均是根据全局语料进行训练，是机器学习时代的产物。

PTMs也属于分布式表示的范畴，本文的PTMs主要介绍深度学习时代、自NNLM[2]以来的 “modern” 词嵌入。

三、PTMs有哪两大范式？对比不同的预训练编码器？

PTMs的发展经历从浅层的词嵌入到深层编码两个阶段，按照这两个主要的发展阶段，我们归纳出PTMs两大范式：「浅层词嵌入」和「预训练编码器」。

1、浅层词嵌入（ Non-Contextual Embeddings）

浅层词嵌入，这一类PTMs范式是我们通常所说的“词向量”，其主要特点是学习到的是上下文独立的静态词嵌入，其主要代表为NNLM[2]、word2vec（CBOW[3]、Skip-Gram[3]）、Glove[4]等。这一类词嵌入通常采取浅层网络进行训练，而应用于下游任务时，整个模型的其余部分仍需要从头开始学习。因此，对于这一范式的PTMs没有必要采取深层神经网络进行训练，采取浅层网络加速训练也可以产生好的词嵌入[3]。

浅层词嵌入的主要缺陷为：

词嵌入与上下文无关，每个单词的嵌入向量始终是相同，因此不能解决一词多义的问题。
通常会出现OOV问题，为了解决这个问题，相关文献提出了字符级表示或sub-word表示，如CharCNN[5] 、FastText[6] 和 Byte-Pair Encoding [7]。

图1给出了三种常见的浅层词嵌入之间的对比，Glove可以被看作是更换了目标函数和权重函数的全局word2vec。此外，相关文献也提出了句子和文档级别的嵌入方式，如 Skip-thought[8] 、Context2Vec[9] 等。

2、预训练编码器（Contextual Embeddings）

第二类PTMs范式为预训练编码器，主要目的是通过一个预训练的编码器能够输出上下文相关的词向量，解决一词多义的问题。这一类预训练编码器输出的向量称之为「上下文相关的词嵌入」。

图2给出了NLP各种编码器间的对比。PTMs中预训练编码器通常采用LSTM和Transformer（Transformer-XL），其中Transformer又依据其attention-mask方式分为Transformer-Encoder和Transformer-Decoder两部分。此外，Transformer也可看作是一种图神经网络GNN[10]。

这一类「预训练编码器」范式的PTMs主要代表有ELMO[11]、GPT-1[12]、BERT[13]、XLNet[14]等。

四、PTMs按照任务类型如何分类？

PTMs按照任务类型可分为2大类：监督学习和无监督学习/自监督学习。
监督学习在NLP-PTMs中的主要代表就是CoVe[15]，CoVe作为机器翻译的encoder部分可以应用于多种NLP下游任务。除了CoVe外，NLP中的绝大多数PTMs属于自监督学习。

自监督学习是无监督学习的一种方法[16]，自监督学习[17]主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。因此，从“构造监督信息”这个角度来看，自监督也可看作是监督学习和无监督学习的一种融合[1]。严格地讲，从是否由人工标注来看，自监督学习属于无监督学习的范畴。

综合各种自监督学习的分类方式，笔者将NLP-PTMs在自监督学习中分为两种类型[16][17]：基于上下文（Context Based）和基于对比（Contrastive Based）。

1. 基于上下文（Context Based）

基于上下文的PTMs, 主要基于数据本身的上下文信息构造辅助任务，在NLP中我们通常引入语言模型作为训练目标。
PTMs中的语言模型主要分为三大类：

第一类：自回归语言模型（LM）

$p\left(x_{1: T}\right)=\prod_{t=1}^{T} p\left(x_{t} \mid x_{0: t-1}\right)$

优点：
- 语言模型（language model，LM）联合概率的无偏估计，即为传统的语言模型，考虑被预测单词之间的相关性，天然适合处理自然生成任务；
缺点：
- 联合概率按照文本序列顺序拆解（从左至右分解），无法获取双向上下文信息表征；
代表模型：ELMO、GPT-1、GPT-2[18]、ULMFiT[19]、SiATL[20]；

第二类：自编码语言模型（DAE）

$p\left(x_{1: T}\right) \approx \sum_{t=1}^{T} m_{t} \log p\left(x_{t} \mid \tilde{x}\right)$

优点：
- 本质为降噪自编码(DAE)特征表示，通过引入噪声[MASK]构建MLM(Masked language model)，获取双向上下文信息表征（本文将自编码语言模型统一称为DAE，旨在采用部分损坏的输入，旨在恢复原始的未失真输入）；如果当前token被预测，则 $m_t = 1$ 否则 $m_t = 0$ ， $\mathbf{\hat{x}}$ 为原始文本被替换后的输入。
缺点：
- 引入独立性假设，为语言模型联合概率的有偏估计，没有考虑预测token之间的相关性；
- 预训练时的[MASK] 噪声在 finetune 阶段不会出现，造成2阶段不匹配问题；为解决这一问题，在 15%被预测的token中， 80% 被替换为【MASK】，10%被随机替换，10%被替换为原单词。
代表模型： BERT、MASS、T5、RoBERTa、UniLM、XLM、SpanBERT、ERNIE-Baidu、E-BERT、BART、ERNIE-THU.

BERT[13]是自编码语言模型的一个典型代表，但其采用的MLM策略和Transformer-Encoder结构，导致其不适合直接处理生成任务。为了解决这一问题，也可采用基于Seq2Seq MLM方法：encoder部分采取masked策略，而decoder部分以自回归的方式预测encoder部分被mask的token。此外，还有很多基于自编码语言模型的PTMs提出了不同的MLM增强策略，称之为 Enhanced Masked Language Modeling (E-MLM) [1]。

第三类：排列语言模型（PLM）

排列语言模型（Permuted Language Model, PLM）综合了 LM 和 DAE-LM两者的优点。严格来讲， PLM和LM是标准的自回归语言模型（PLM是一种广义的自回归方法），而 MLM 不是一个标准的语言模型，其引入独立性假设，隐式地学习预测token（mask部分本身的强相关性）之间的关系。如果衡量序列中被建模的依赖关系的数量，标准的语言模型可以达到上界，不依赖于任何独立假设。 LM和PLM能够通过自回归方式来显式地学习预测token之间的关系。然而，LM无法对双向上下文进行表征，借鉴NADE的思想，PLM将这种传统的自回归语言模型（LM）进行推广，将顺序拆解变为 随机拆解（从左至右分解），产生上下文相关的双向特征表示。

PLM最为典型的代表就是： XLNet，这是对于标准语言模型的一个复兴：提出了一个框架来连接标准语言模型建模方法和预训练方法。

一个关键问题：为什么PLM可以实现双向上下文的建模？ PLM的本质就是语言模型联合概率的多种分解机制的体现，其将LM的顺序拆解推广到随即拆解。 PLM没有改变原始文本序列的自然位置，只是定义了 token的预测的顺序。 PLM只是针对语言模型不同排列下的因式分解排列，并不是词的位置信息的重排列。 【这块没有很懂，再看看】

基于上述三类语言模型的PTMs进行总结：

2. 基于对比（Contrastive Based）

基于对比（Contrastive Based）,不同于 Context Based 主要基于数据本身的上下文信息构造辅助任务， Contrastive Based 主要利用样本之间的约束信息构造辅助任务，这类方法也是 Contrastive Learning(CTL)。 CTL假设观察到的文本对（正样本）在语义上比随机采样的样本（负样本）更相似。 CTL背后的原理是在对比中学习。相较于语言模型，CTL的计算复杂度更低，因而在预训练中是理想的替代训练标准。

CTL通过构建正样本（positive）和负样本（negetive）,然后度量正负样本的距离来实现自监督学习：可以使用点积的方式构造距离函数，然后构造一个 softmax分类器，以正确分类正样本和负样本。鼓励相似性度量函数将较大的值分配给正例，将较小的值分配给负例：

第一类： Deep InfoMax (DIM)

DIM 方法来源于CV领域，对于全局的特征（编码器最终的输出）和局部特征（编码器中间层的特征），DIM需要判断全局特征和局部特征是否来自同一图像[17]。

InfoWord [35]将DIM引入到NLP中，用Mutual Information的一个下界InfoNCE来重新解释BERT和XLNET的objective，并提出一个新的DIM objective以最大化一个句子的global representation和其中一个ngram的local representation之间的Mutual Information。

第二类：Replaced Token Detection (RTD)

噪声对比估计（Noise-Contrastive Estimation , NCE）通过训练一个额二元分类器来区分真实样本和假样本，可以很好的训练词嵌入。 RTD和NCE相同，根据上下文语境来预测token是否替换。

word2vec：中的 negative sampling 可看作RTD，负样本从词表中进行带权采样。
ELECTAR：提出了一种新的预训练任务框架，构建生成器-判别器，生成器通过MLM任务对被mask的token进行预测， 判别器判断原始句子中的每个 token是否被 replace 过。生成器相当于对输入进行了筛选，是判别器的任务更难，从而学习到更好的表示。生成器-判别器共享embedding，生成器部分采用 small-bert，判别器对每一个token采用sigmod计算loss. finetune 阶段只采用判别器部分。 RTD也被看作解决MLM中【MASK】在预训练和finetune间差异的一种手段。
WKLM：在实体level进行替换，替换为具有相同实体类型的实体名称。

第三类：Next Sentence Prediction(NSP)

NSP区分两个输入句子是否为训练语料库中的连续片段，第二个句子50%为第一句子的实际片段， 50%随机从其他语料随机选择。 NSP可以引导模型理解两个输入句子之间的关系，从而使对此信息敏感的下游任务收益，如 QA任务。而 RoBERTa表明： NSP在对单个文档中的文本块进行训练时，去除NSP任务或在下游任务上可以稍微提高性能。

第四类：Sentence Order Prediction(SOP)

SOP使用同一文档中的两个连续片段作为正样本，而相同的两个连续片段互换顺序作为负样本。 SOP融合了主题预测和相关性预测，主题预测更容易，这使得模型进行预测时仅依赖于主题学习。与NSP不同的是， SOP使用同一文档中的两个连续段作为正样本，但顺序互换为负样本。采取SOP任务的PTMs有ALBERT、StructBERT、BERTje.

对上述基于对比（Contrastive Based）的四类PTMs进行了总结：

五、PTMs有哪些拓展？

1. 引入知识

PTMs通常从通用大型文本语料库中学习通用语言表示，但是缺少特定领域的知识。PTMs中设计一些辅助的预训练任务，将外部知识库中的领域知识整合到PTMs中被证明是有效的[1]。

ERNIE-THU：将在知识图谱中预先训练的实体嵌入与文本中想应的实体提及相结合，以增强文本表示。由于语言表征的预训练过程和知识表征的过程有很大的不同，会产生两个独立的向量空间。为解决上述问题，在有实体输入的位置，将实体向量和文本表示通过非线性变换进行融合，以融合词汇、句法、语法和知识信息。
LIBERT：（语言知识的BERT）通过附加的语言约束任务整合了语言知识。
SentiLR[43]：集成了每个单词的情感极性，以将MLM扩展到标签感知MLM（LA-MLM），ABSA任务上都达到SOTA。
SenseBERT[44] ：不仅能够预测被mask的token，还能预测它们在给定语境下的实际含义。使用英语词汇数据库 WordNet 作为标注参照系统，预测单词在语境中的实际含义，显著提升词汇消歧能力。
KnowBERT[45] ：与实体链接模型以端到端的方式合并实体表示。
KG-BERT[46]：显式输入三元组形式，采取两种方式进行预测：构建三元组识别和关系分类，共同优化知识嵌入和语言建模目标。这些工作通过实体嵌入注入知识图的结构信息。
K-BERT[47]：将从KG提取的相关三元组显式地注入句子中，以获得BERT的扩展树形输入。
K-Adapte[48]：通过针对不同的预训练任务独立地训练不同的适配器来注入多种知识，从而可以不断地注入知识，以解决注入多种知识时可能会出现灾难性遗忘问题。
此外，这类PTMs还有WKLM[38]、KEPLER[49]和[50]等。

2. 模型压缩

由于预训练的语言模型通常包含至少数亿个参数，因此很难将它们部署在现实应用程序中的在线服务和资源受限的设备上。模型压缩是减小模型尺寸并提高计算效率的有效方法。

5种PTMs的压缩方法为：

剪枝（pruning）: 将模型中影响较小的部分舍弃。
- 如： Compressing BERT[51]，还有结构化剪枝 LayerDrop [52]，其在训练时进行Dropout，预测时再剪掉Layer，不像知识蒸馏需要提前固定student模型的尺寸大小。
quantization（量化）：将高精度模型用低精度来表示；
- 如Q-BERT[53]和Q8BERT[54]，量化通常需要兼容的硬件
parameter sharing （参数共享）：相似模型单元间的参数共享；
- ALBERT[39]主要是通过矩阵分解和跨层参数共享来做到对参数量的减少。
module replacing（模块替换）：
- BERT-of-Theseus[55]根据伯努利分布进行采样，决定使用原始的大模型模块还是小模型，只使用task loss。
knowledge distillation （知识蒸馏）：通过一些优化目标从大型、知识丰富、fixed的teacher模型学习一个小型的student模型。蒸馏机制主要分为3种类型：
- 从软标签蒸馏：DistilBERT [56]、EnsembleBERT[57]
- 从其他知识蒸馏：TinyBERT[58]、BERT-PKD、MobileBERT[59] 、 MiniLM[60] 、DualTrain[61]
- 蒸馏到其他结构：Distilled-BiLSTM[62]

3、多模态

随着PTMs在NLP领域的成功，许多研究者开始关注多模态领域的PTMs，主要为通用的视觉和语言特征编码表示而设计。多模态的PTMs在一些庞大的跨模式数据语料库（带有文字的语音、视频、图像）上进行了预训练，如带有文字的语音、视频、图像等，主要有 VideoBERT[63]、CBT[64] 、UniViLM[65]、 ViL-BERT[66] 、 LXMERT[67]、 VisualBERT [68]、 B2T2[69] 、Unicoder-VL[70] 、UNITER [71]、 VL-BERT[72] 、 SpeechBERT[73]。

4、领域预训练

大多数PTM都在诸如Wikipedia的通用语料中训练，而在领域化的特定场景会收到限制。如基于生物医学文本的BioBERT[74]，基于科学文本的SciBERT[75]，基于临床文本的Clinical-BERT[76]。一些工作还尝试将PTMs适应目标领域的应用，如医疗实体标准化[77]、专利分类PatentBERT [78]、情感分析SentiLR[79]关键词提取[80]。

5、多语言和特定语言。

学习跨语言共享的多语言文本表示形式对于许多跨语言的NLP任务起着重要的作用。

Multilingual-BERT[81]在104种 Wikipedia文本上进行MLM训练（共享词表），每个训练样本都是单语言文档，没有专门设计的跨语言目标，也没有任何跨语言数据，M-BERT也可以很好的执行跨语言任务。
XLM[25]通过融合跨语言任务（翻译语言模型）改进了M-BERT，该任务通过拼接平行语料句子对进行MLM训练。
Unicoder[82]提出了3种跨语言预训练任务：
- 1)cross-lingual word recovery；
- 2) cross-lingual paraphrase classification;
- 3) cross-lingual masked language model.

虽然多语言的PTMs在跨语言上任务表现良好，但用单一语言训练的PTMs明显好于多语言的PTMs。此外一些单语言的PTMs被提出：BERT-wwm[83]， ZEN[84], NEZHA[85] , ERNIE-Baidu[27][28], BERTje[86], CamemBERT[87], FlauBERT [88], RobBERT [89]。

六: 如何对PTMs进行迁移学习？

PTMs从大型语料库中获取通用语言知识，如何有效地将其知识适应下游任务是一个关键问题。迁移学习的方式主要有归纳迁移（顺序迁移学习、多任务学习）、领域自适应（转导迁移）、跨语言学习等。NLP中PTMs的迁移方式是顺序迁移学习。

1、如何迁移？

1）选择合适的预训练任务：语言模型是PTM是最为流行的预训练任务；同的预训练任务有其自身的偏置，并且对不同的任务会产生不同的效果。例如，NSP任务可以使诸如问答（QA）和自然语言推论（NLI）之类的下游任务受益。

2）选择合适的模型架构：例如BERT采用的MLM策略和Transformer-Encoder结构，导致其不适合直接处理生成任务。

3）选择合适的数据：下游任务的数据应该近似于PTMs的预训练任务，现在已有有很多现成的PTMs可以方便地用于各种特定领域或特定语言的下游任务。

4）选择合适的layers进行transfer：主要包括Embedding迁移、top layer迁移和all layer迁移。如word2vec和Glove可采用Embedding迁移，BERT可采用top layer迁移，Elmo可采用all layer迁移。

5）特征集成还是fine-tune？对于特征集成预训练参数是freeze的，而fine-tune是unfreeze的。特征集成方式却需要特定任务的体系结构，fine-tune方法通常比特征提取方法更为通用和方便。

2、fine-tune策略：通过更好的微调策略进一步激发PTMs性能

两阶段fine-tune策略：如第一阶段对中间任务或语料进行finetune，第二阶段再对目标任务fine-tune。第一阶段通常可根据特定任务的数据继续进行fine-tune预训练。
多任务fine-tune：MTDNN[90]在多任务学习框架下对BERT进行了fine-tune，这表明多任务学习和预训练是互补的技术。
采取额外的适配器：fine-tune的主要缺点是其参数效率低，每个下游任务都有自己的fine-tune参数。因此，更好的解决方案是在固定原始参数的同时，将一些可fine-tune的适配器注入PTMs。
逐层阶段：逐渐冻结而不是同时对所有层进行fine-tune，也是一种有效的fine-tune策略。

七、PTMs还有哪些问题需要解决？

虽然 PTMs已经在很多 NLP 任务中显示出了他们强大的能力，然而由于语言的复杂性，仍存在诸多挑战。综述论文给出了五个未来 PTMs发展方向的建议。

1、PTMs的上限

目前，PTMs并没有达到其上限。大多数的PTMs可通过使用更长训练步长和更大数据集来提升其性能。目前NLP中的SOTA也可通过加深模型层数来更进一步提升。这将导致更加高昂的训练成本。因此，一个更加务实的方向是在现有的软硬件基础上，设计出更高效的模型结构、自监督预训练任务、优化器和训练技巧等。例如， ELECTRA [37]就是此方向上很好的一个解决方案。

2、面向任务的预训练和模型压缩

在实践中，不同的目标任务需要 PTMs拥有不同功能。而 PTMs与下游目标任务间的差异通常在于两方面：模型架构与数据分布。尽管较大的PTMs通常情况下会带来更好的性能表现，但在低计算资源下如何使用是一个实际问题。例如，对于 NLP 的 PTM 来说，对于模型压缩的研究只是个开始，Transformer 的全连接架构也使得模型压缩具有挑战性。

3、PTMs的架构设计

对于PTMs，Transformer 已经被证实是一个高效的架构。然而 Transformer 最大的局限在于其计算复杂度（输入序列长度的平方倍）。受限于 GPU 显存大小，目前大多数 PTM 无法处理超过 512 个 token 的序列长度。打破这一限制需要改进 Transformer 的结构设计，例如 Transformer-XL[92]。

4、finetune中的知识迁移

finetune是目前将 PTM 的知识转移至下游任务的主要方法，但效率却很低，每个下游任务都需要有特定的finetune参数。一个可以改进的解决方案是固定PTMs的原始参数，并为特定任务添加小型的finetune适配器，这样就可以使用共享的PTMs 服务于多个下游任务。

5、PTMs 的解释性与可靠性

PTMs 的可解释性与可靠性仍然需要从各个方面去探索，它能够帮助我们理解 PTM 的工作机制，为更好的使用及性能改进提供指引。

本文定义了PTMs两大范式：浅层词嵌入和预训练编码器。不同于原文，XLNet在原综述论文中被归为Transformer-Encoder，本文认为将其归为Transformer-XL更合适。
本文PTMs按照自监督学习的分类不同于原文。本文按照基于上下文（Context Based）和基于对比（Contrastive Based）两种方式归类；将原文的LM、MLM、DAE、PLM归为Context Based；
本文将原文MLM和DAE统一为DAE；
其他：
- 在3.1.2的E-MLM段落中，可以将StructBERT拿出来，只放在SOP；
- 2）3.1.5对ELECTRA的描述，应采取ELECTRA原文中的主要方法（参数共享），两阶段的方法只是一种实验尝试；
- 3）在puring部分可以补充LayerDrop；
- 4）应将UniLM归为MLM；；

上述作者娄杰补充1-nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)

补充2-nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

复旦邱锡鹏超全NLP预训练模型综述论文：两张图带你梳理完整脉络

transformer ⭐你应该知道的 transformer

12个NLP预训练模型的学习笔记

BERT 瘦身之路：Distillation，Quantization，Pruning

ALBERT真的瘦身成功了吗?

后BERT时代：15个预训练模型对比分析与关键点探索（附链接）

多个单独文章解读连接- 预训练语言模型关系图+必读论文列表，清华荣誉出品

TinyBERT：模型小 7 倍，速度快 8 倍，华中科大、华为出品
ALBERT-预训练小模型也能拿下 13 项 NLP 任务，谷歌 ALBERT 三大改造登顶 GLUE 基准

老宋的茶书会-Bert 改进：如何融入知识

阿里-非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

其他整理、文章笔记

* 1.文章解读-【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

* 2.Graph-Bert

* 3.多篇文章前瞻-最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

* 4.mask角度-从语言模型到Seq2Seq：Transformer如戏，全靠Mask

* 5.带你读论文丨8篇论文梳理BERT相关模型进展与反思

完全图解GPT-2：看完这篇就够了（二）

BERT及RoBERTa论文笔记

三、BERT等应用

KB-当BERT遇上知识图谱

四、词向量

nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)

五、自己进一步梳理

Attention 的前世今生(原理、公式、变种、实现)

Bert解读

Bert变种整理

Bert等应用整理

Bert等使用教程整理

你可能感兴趣的:(2021秋招,面试高频)

北京-4年功能测试2年空窗-报培训班学测开-第五十一天 amazinging 学习 python 面试
行叭，今天复习第一天，状态效率，差我发现，一旦换了新环境/知识，我就需要重新调整状态，少则一两天，多则一周多。从周日起就很迷茫，哪怕昨天老师讲了简历与面试，我也清楚地知道我很多地方都有短板，需要补，但是具体的，我现在要补什么，我真不清楚所以就造成这几天都不在状态，一会困了一会困了，精神不起来，然后自己就对自己越来越不满。其实自己制定的计划其实内心也不认可，所以就会犯困难以专注白天，一会整理老师的昨
如何提升在直返APP中的等级?直返的定义与特点? 日常购物技巧呀
直返APP作为一种新型的购物模式，为用户提供了更加公平、透明的消费环境。但随之而来的问题是，直返APP的收益等级是否会影响用户在平台上的权益和地位？为了解答这个问题，我们需要从多个角度进行分析。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不
直返APP：宝妈们的赚钱新途径及操作指南? 优惠券高省
一、引言随着数字经济的蓬勃发展，许多宝妈们开始寻找在家中也能赚钱的新途径。直返APP作为一个集返利、折扣、分享为一体的综合性购物平台，为宝妈们提供了一个全新的赚钱模式。本文将详细介绍直返APP为宝妈们带来的赚钱新途径及具体操作方法。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高
2021-03-17 陆小曼蔓
第十章：勇于成为团队领袖：销售领袖能力与情商的关系如果他能够成为一名优秀的销售员，为什么却在销售领导这个位置上干得这么差劲呢？这个问题的答案很简单：汤姆作为优秀销售员时期完成的出色任务与他现在领导一个销售团队完成的任务是不一样的。销售员只需要专注于开发销售机会，而销售经理则需要专注于开发销售员的潜能。销售员只要掌握必备的销售技能，就可以做好本分工作。要想成为优秀的销售经理，就必须擅长向销售员教授让
Pycharm开发Djnago项目部署详细教程（2021更新） af9f873c915c
项目部署：这里用的是非常干净的ubuntu16.04系统环境，没有使用任何云服务器，原因是因为不同的云服务器环境都不一样。我们就从零开始来完成部署。在开发机上的准备工作：确认项目没有bug。用pipfreeze>requirements.txt将当前环境的包导出到requirements.txt文件中，方便部署的时候安装。把dysms_python文件准备好。因为短信验证码的这个包必须通过将项目上
2021-03-22 木一的成长日记
角色转换。你不在了，但你来过，在我生命里留下痕迹，有一天我扮演着你的角色，去体会曾经的你是怎样的心情。替你去生活的同时，我也成为了喜欢的自己。努力读书是为了和别人好好说话，努力强身是为了让别人好好说话。想让世界对你温柔以待，首先你要值得被爱。想让别人对你好言相向，首先你要值得尊重或者让人不敢轻视。我记得那一次他走出校门时，因为没有立刻看到我显得惊慌失措。他犹如遭受突然一击似的呆立在那里，失望和不安
2021-12-13 胖达小传
看了一天的房子，租个房跟买房的架势一样大不得不说我的人生目标依旧是成为包租婆晚上要去给蓝翔庆生，上次应该还是大一的时候，一晃6年可能也算是她结婚前的派对了吧我是真不喜欢当伴娘，从姐姐结婚到朋友结婚，我都是只想吃席看热闹的人儿婚礼太累了，下周要参加的两个婚礼好啦，走啦，流水账！
2021-06-17 颜宝
真的好喜欢夏天啊，天蓝树绿，星星也亮，可以穿漂亮的小裙子，心头总是泛起温柔的光。大太阳烤得一切都是滚烫，不用费劲就会觉得日久天长，年华无恙～好希望你在身边，让我们在夏天谈一场热烈的恋爱，说好的冰淇淋都还没有吃到，想要去的地方都还没有去，真的不觉得遗憾么？
男生青年那些不悔事2021-10-24 仧乆
前言：一个成年不久的普通男孩，在于一个女孩分开两年后，每到晚上还是彻夜难眠，想以写作的形式把自己这几年的经历跟大家分享出来，刚接触写作，不期望内容得到大家喜欢，但我想这应该是很多二十多岁男孩的心声，坚持日更，趁着年轻做一些自己想做的事！第一章：不学无术一所镇上在普通不过的综合高中，汇聚着各方学校的非人才精英，很荣幸，主人公耿耀阳再此已经深造两年之久，摸爬滚打、无恶不作，好在还有一群兄弟再身边，倒也
湘容儿成长日记第883天孩子只是想确认我对她的爱墨mo晴
亲子共读第949天2021年6月4日亲子共读地點：歺桌亲子共读时间：晚上亲子共读时长：15分钟亲子共读内容：湖上的月光烛（老槐树）我时常会遇到这样的问题，就是孩子明明可以自己做好的事，却一定要求让我帮她。而比较一根筋的我，就是拒绝孩子的这个提议，虽我不会过多的评判，我会冷静的告诉她，自己的事自己做。那么问题就来了，有生活中我也常有让孩子帮忙的事，站在我的角度我是希望她能够多学习一点，学会生活的点滴
2023淘宝年货节衣服有活动吗(淘宝的年货节哪些东西有优惠）高省APP珊珊
淘宝是人们最常用的网购和平台，上述活动层出不穷，尤其是到了节假日。不是快春节了吗？年货节已经在预热了，那么2023年淘宝年货节有什么针对衣服的活动吗？淘宝年货节有哪些优惠？让我们看一看。淘宝年货节密令天降红包1511红包到手17高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也
2021-06-23 - 草稿笑春风l
桂湖打卡第二天，醒在了闹钟前，动动身体，还是浑身酸疼———没歇过来！昨天累坏了：上午改卷，午后开会，接着是小学部全体教师两笔字比赛，被抽调评分，忙到七点左右，站得腿僵硬，腰酸痛，接男人电话，同事让我先回，他们还要合分数跟男人办点事，实在累极，男人让我去路边洗个脚，只当歇卓哩，主意不错！想必捶捶腿，捏捏脚，乏累会减轻吧，这小伙子手劲儿真大，按得我呲牙咧嘴，睡了一夜，除了浑身酸疼，又加了个脚底疼，不会
DShield蜜罐扫描量创历史新高——单日日志突破百万条 FreeBuf- 蜜罐
扫描活动突破历史记录网络安全领域出现前所未有的恶意扫描活动激增，DShield蜜罐系统在其运营历史上首次记录到单日超过100万条日志条目。这一急剧升级标志着蜜罐活动模式的重大转变——如此高频率的事件在过去被视为异常情况，而现在正逐渐成为常态。创纪录的活动已持续数月，多个蜜罐系统每日持续生成超过20GB的日志数据，部分系统在24小时内甚至达到近58GB。这较此前约35GB的纪录有显著提升，表明存在针
再一次来到上海～田小染
这一次，我为了一场面试再次来到上海，其实，抱着理想化的状态来参加面试。我投简历的公司是我关注了很久的公众号作者开的，经常看她写公司的发展以及公司小伙伴的故事，让我觉得这家公司很好，老板也很好。之前经过一轮电话面试，就预约了线下面试。在面试之前我翻看了她很多关于招人的文章，我认为自己应该是有把握能够得到这份工作的。但是现实却给我沉重的一击，Hr可能觉得我有点眼高手低，不够踏实。反复思考了一下，他对我
导游全国基础-园林, 2021-10-30 Mc杰夫
2021.09.21Tues古代园林构景手法：抑景添景夹景对景框景漏景借景障景：用山石花木加以掩盖和处理，形成美景古典园林理水之法：掩、隔、破古典园林主体建筑：厅堂廊：“引”和“观”的建筑，分为直廊、曲廊、爬山廊、水廊、桥廊园林用石：黄石、太湖石（皱、瘦、漏、透）江南三大名廊：沧浪亭的复廊、拙政园的水廊、留园的曲廊江南三大奇石：豫园的玉玲珑、留园的冠云峰、竹宿园的邹云峰苏州四大园林：拙政园、留园、
2021-02-24 Augetya
今天算是上班第五天，依然还是比较闲。这个地方就当做树洞吧。我有的时候完全不知道我到底要的是什么，就像现在，今天给我上了一下思想教育，嗯，没错，我作为一个助理来说，的确一直在犯错，领导叫去谈话，想让我转岗。我不知这件事情是好还是坏，我荏苒最后坚持一下，行也行，不行也不行，找到问题去解决，然后需要重新调整一下，我还是有远大梦想和目标的，不会被世俗所淹没。说开心呢，我现在也对领导的相处一头雾水，他也依旧
面试加分项：Android Framework PMS 全面概述和知识要点大模型大数据攻城狮 android framework 安卓面试 PMS app安装 app权限大厂android
在Android面试时，懂得越多越深androidframework的知识，越为自己加分。目录第一章：PMS基础知识1.1PMS定义与工作原理1.2PMS的主要任务1.3PMS与相关组件的交互第二章：PMS的核心功能2.1应用安装与卸载机制2.2应用更新与版本管理2.3组件管理第三章：PMS的性能优化3.1优化策略与技术3.2优化实践案例分析第四章：PMS的安全性保障4.1安全机制与原理4.2应对
北京-4年功能测试2年空窗-报培训班学测开-第五十天 amazinging 学习 python 面试
咦，昨天路上写一半就到家了，后来想早点睡就忘了还要发了，现在赶紧补上昨天是最后一节课(我们将一整天的课称为一节），这就结课了昨天讲了简历编写，面试要准备的内容，还有redis和docker也没有什么能让你一击必中(面试）的技巧，都是总结下来的经验接下来的两周，我们这周需要写简历复习，简历中写的必须要会，准备好了就可以找老师模拟面试其实我觉得最后这节课挺实用的，尽管有些观点我不认同，但不妨碍我跟着做
2021-03-09 影疏
昨天一天很忙碌，没空找王丁主任给菥菥办走读证，于是给菥爸发信息，问他可以去办说。他说他也没空，于是我又给菥菥请了假。今天得知还需要到医院开个诊断证明才能办，于是我又向菥爸求助，这一次他答应了，我可以省点心了。中午的午觉是在床上睡的，因为来例假所以特别困。以往我的午觉睡得很是走过场，在躺椅上或是沙发上眯那么十几二十分钟就了事。其实时间宽裕的时候可以到床上休息，这样更舒服。前天菥菥上完晚自习回来，用好
今日头条上怎么发布文章会有收益?今日头条发文章获取收益的方法高省APP大九
今日头条作为自媒体平台，它的发展挺不错的，大家都可以在这个自媒体平台发布文章。那么在这个平台上面如何去发布文章呢?相信很多的网友们都存在疑问，下面进行相关的介绍。大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请
困境是磨难也是礼物静默小太阳
艰难的2020年刚刚过去，疫情的反弹让2021年的开年也变得不那么顺利。但这也不全是坏事，很多事情，是磨难也是馈赠。《总有一天你会变成自己喜欢的样子》这本书中观点:困难就是礼物。不要觉得这句话老套，其实很少有人能记住它，并把它贯彻在生活中。人类学家做过这样的设想:如果人类在诞生之初便衣食无忧，不必为生存而奋斗，不经历磨难和挫折，那么直到今天，人类文明可能还处于原始的蒙昧年代。世界的大局就是这样，对
当独生子女的母亲得上癌症上蹿下跳的小猴
据2021年《健康中国行动》数据显示：在中国，每10分钟就有55人死于癌症。因体检意识的缺乏，中国约有55%的癌症患者确诊的时候已经是Ⅲ期或Ⅳ期。我是一名独生子女，家庭是单亲家庭，当我妈妈患上癌症的时候，生活开始变形……确诊前我今年29岁，北漂5年，前两个月刚跳槽进一家快消企业，晋升为管理岗。看着增长的工资，开始和老刘计划起未来的生活。我18岁的时候，父母离异，我跟着母亲东奔西走。可能因为这个原因
2021-01-02 困境怕什么往前走才是出路 YiYiDuo
早上看《阿里铁军》。成长的初期，即便现在大如阿里巴巴，也面对了很多的困境。1因为当时还是一个不太知名的公司，招不到本科生，选择销售的标准是手脚健全能说话的就行。经历3个月的培训，培训价值观念和一些销售技巧，这是很多企业没有的。经过这种密集的培训和学习，人与人之间的联结会更深刻。2早起因为想做国际化的大公司，在美国、香港和各地开办公室，给员工开十几万美元的薪水，当时的普通员工才两三千一个月，烧了几个
第 13 题：谈谈你对 CSS 选择器以及优先级的理解？ Noxus丶SJ
常用的CSS选择器ID选择器、类选择器、标签选择器、属性选择器、伪类选择器、后代选择器权重划分在同一层级下!important>内联样式>ID选择器>类选择器>（标签选择器、伪类选择器、属性选择器）不同层级下正常来说权重值越高的优先级越高，但是一直以来没有具体的权重值划分，所以目前大多数开发中层级越深的优先级越高文章的内容/灵感都从下方内容中借鉴【持续维护/更新500+前端面试题/笔记】https
写给自己的一封信莯希
亲爱的希：你好！恭喜你完成了“”日更30天，接下来的日子，要继续加油，把书写变成你的习惯。现在是2021年12月，又一年即将过去，对于新的一年有什么计划呢？2022年9月，小宝就要读小学，届时你也完成对自己的承诺，在小学前，全身心陪伴着他们。他们进入新的阶段，你也一样，在此要做好充分的准备。一、坚持学习瑜伽。二、幼师资格证。三、营养师证。不管到时从事哪个行业，机会都是留给有准备的人。加油！不管怎样
2021-12-30 腰疼居然好了江南七月
原来腰疼真的与月经有关啊。12月30日，奇迹般地好了。今天还是走路了，有点儿清冷，有点儿累，但是一周又过去了，因为有做事，所有感觉特别快。因为事情没有做完，所以感觉有点儿老累好累的。还好的是天气真的暖暖的，热热的，感觉有的事情很多。很多东西可以吃的，很多东西可以用。感觉没有什么少的，什么事情都有，就是杂物太多，没有时间整理。感觉自己的某一种能力真的在提高呢。认真也有了认真的意义。在空调间里空着暖暖
在疫情中遇上暴雨卉羽_57ad
2021年7月，新冠肺炎疫情犹如黑色的风暴再次袭击中国。它像一把无形的利剑悬在人们的头上，令人们终日惶恐不安。可如果仅仅是疫情，人们则可以躲在家里不出门，不与外界高危人群接触，注意卫生，那倒也安全。但是如果天气预报再告诉你：“2021年8月21至22日，我市将有一次强降雨天气过程。22日东北风四到五级，阵风七到九级。此次降水过程降水量和雨强较大。需加强灾害隐患点巡查排险，防范强降水引发的中小河流洪
2023-11-01 耳鸣小科普
专家说耳鸣的类型有很多种，其中以神经性耳鸣为主，而且发病率最高，很多人对于神经性耳鸣并不了解，因此也就不清楚得了神经性耳鸣会有什么症状，为此很多人错过了早期最佳的治疗时间，那么神经性耳鸣会存在哪些症状呢?下面为您详细介绍。神经性耳鸣的症状主要有哪些?神经性耳鸣可为纯音性、中高频、间断或持续性，在急性感染时可为搏动性。患者同时有听力减退、耳闭塞感等主诉，外伤者可伴有眩晕。该类耳鸣可被掩蔽。主观性耳鸣
感恩日记2021/02/28总1591 喜羊羊_43e1
感恩爱人早起煮饺子。感恩营养美味的早餐对我身体的滋养。随喜爱人种下健康、时间、满愿、和谐的种子。感恩和爱人一起看望婆婆。感恩婆婆在弟弟弟媳的精心照顾下状态良好，看到婆婆早上吃了一碗多的米粥非常开心。感恩金钱宝宝支持我们夫妇支付弟媳照顾婆婆的费用。1月份、2月份是由小侄女照顾的，小侄女作为一个大学生，作为家族里的第三代，能够尽心尽力照顾奶奶两个月，实属难得。小侄女是我们这些长辈学习的榜样。多少的语言
Leetcode 02.04 分割链表 wanglitaozai 链表 leetcode 数据结构 c++
面试题：02.04分割链表给你一个链表的头节点head和一个特定值x，请你对链表进行分隔，使得所有小于x的节点都出现在大于或等于x的节点之前。你不需要保留每个分区中各节点的初始相对位置。示例1：输入：head=[1,4,3,2,5,2],x=3输出：[1,2,2,4,3,5]示例2：输入：head=[2,1],x=2输出：[1,2]提示：链表中节点的数目在范围[0,200]内-100valnext
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name