程序员一一涤生

BERT论文解读

本文尽量贴合BERT的原论文，但考虑到要易于理解，所以并非逐句翻译，而是根据笔者的个人理解进行翻译，其中有一些论文没有解释清楚或者笔者未能深入理解的地方，都有放出原文，如有不当之处，请各位多多包含，并希望得到指导和纠正。

论文标题

Bert：Bidirectional Encoder Representations from Transformers
一种从Transformers模型得来的双向编码表征模型。

论文地址

https://arxiv.org/pdf/1810.04805

Abstract

BERT的设计是通过在所有层中对左右上下文进行联合调节，来预先训练来自未标记文本的深层双向表示。

预训练的BERT模型可以通过fine-tuned 在广泛的任务中创造新的最佳记录，比如问答任务，语言推理任务等，而不需要对BERT本身架构做实质性的修改。

1 Introduction

BERT是一个概念上简单，实践结果强大的模型。其在11项自然语言处理任务中创造了新的最佳记录。

ELMo是基于feature-based【注解2】的方法应用pre-trained language representations的。

OpenAI GPT是基于fine-tuning【注解3】的方法应用pre-trained language representations的。

上面两个方法在与训练阶段，共享相同的目标函数，它们使用单项语言模型来学习通用语言表征。

作者认为对于句子来说，单向注意力是次优的，对于token级别的任务，比如问答任务来说，就会带来不好的作用。因为在类似问答任务中，基于两个方向的上下文的结合非常重要。

本论文，作者通过提出BERT模型，来改善基于fine-tuning的方法。
BERT：Bidirectional Encoder Representations from Transformers.
BERT受到完型填空任务的启发，通过使用一个“masked language model”(MLM)预训练目标来减轻上面提到的单向约束问题。
MLM随机masks掉input中的一些tokens，目标是从这些tokens的上下文中预测出它们在原始词汇表中的id。不想left-to-right 的预训练语言模型，MLM目标使得表征融合了left和right的上下文信息，这允许作者预训练一个深度双向的Transformer模型。除了MLM，作者还使用了一个“next sentence prediction”任务，连带的预训练text-pair表征。本篇论文的贡献如下：

展示了双向预训练语言表征的重要性。BERT使用MLM使得模型可以预训练深度双向表征；GPT在预训练上使用单向语言模型；ELMo使用分别训练好的left-to-right 和right-to-left表征，然后仅仅是简单的串联在一起。
显示了预训练表征可以减少对许多工程繁重的特定任务架构的需求。BERT是首个在巨大量级的句子和词级别的任务上达到最佳表现的基于fine-tuning的表征模型。
BERT 打破了11项NLP任务的最佳记录。代码和预训练模型可以从这里获取。

预训练通用语言表征已经有相当长的历史了。本节简略看一下使用最广泛的预训练通用语言表征的方法。

2.1 Unsupervised Feature-based Approaches

数十年来，学习广泛适用的单词表示形式一直是一个活跃的研究领域，包括非神经领域和神经领域的方法。预训练词嵌入是现代NLP系统的主要部分，提供了从零开始学习词嵌入的显著改进。为了预训练词嵌入向量，人们使用过left-to-right语言建模目标，以及从左右上下文中区分出正确和不正确的单词的建模目标。
这些方法已经推广到更粗的粒度，比如句子嵌入，或段落嵌入。为了训练句子表征，之前的工作已经用过这些目标：下个候选句子排名；给定上一个句子的表征，left-to-right生成下一个句子；从自动编码器去噪。

ELMo和它的前身从不同的维度概括了传统的词嵌入研究。它们从left-to-right和right-to-left语言模型中提取上下文敏感的特征。每个token(单词、符号等)的上下文表征是通过串联left-to-right和right-to-left的表征得到的。在将上下文词嵌入和已有的特定任务的架构结合后，ELMo在几个主要NLP基准测试(包括：问答，情感分析，命名实体识别)上取得了最佳记录。Melamud等人在2016年提出了使用LSTMs模型通过一个预测单词左右上下文的任务来学习上下文表征。与ELMo类似，他们的模型也是基于feature-based方法，并且没有深度双向(注解1)。Fedus等人在2018年展示了完型填空任务可以用来改善文本生成模型的鲁棒性。

2.2 Unsupervised Fine-tuning Approaches

与feature-based方法一样，该方向刚开始只是在未标记的文本上预训练词嵌入参数(无监督学习)。
最近，句子和文档等生成上下文token表征的编码器已经从未标记的文本中预训练出来，并且通过fine-tuned的方式用在下游任务中。这些方法的优势在于很少需要从零开始学习参数。至少有部分是因为这个优点，OpenAI GPT之前在许多来自GLUE基准测试的句子级别的任务上达到了最佳水平。Left-to-right 语言建模和自动编码器目标用于训练这种模型。

2.3 Transfer Learning from Supervised Data

也有工作展示了从大数据集的监督任务的做迁移学习的有效性，就像自然语言推理(NLI)，和机器翻译。计算机视觉研究也展示了迁移学习的重要性，一个有效的技巧就是微调(fine-tune)ImageNet的预训练模型。

3 BERT

本节介绍BERT的详细实现。使用BERT有2个步骤：pre-training 和 fine-tuning。在预训练期间，BERT模型在不同任务的未标记数据上进行训练。微调的时候，BERT模型用预训练好的参数进行初始化，并且是基于下游任务的有标签的数据来训练的。每个下游任务有自己的微调模型，尽管最初的时候都是用的预训练好的BERT模型参数。图1中，问答领域的例子作为本节一个运行示例。

图1：BERT的pre-training和fine-tuning运行过程。除了output层，这两个阶段的架构是一样的。预训练模型的参数会做为不同下游任务的模型的初始化参数。在fine-tuning时，所有参数参与微调。[CLS]时一个特别设置的符号，添加在每个输入样本的前面，表示这是一个输入样本的开始，[SEP]是特别设置的一个分隔标记。比如分隔questions/answers。

BERT的一个与众不同的特性是它的跨任务的统一架构，即在预训练架构和下游的架构之间的差异最小。

Model Architecture

BERT的模型架构是一个多层双向Transformer编码器，（关于Transformer可以看这篇文章）。因为Transformer的使用变得普遍，而且BERT的与Transformer相关的实现和原Tranformer几乎一样，所以本论文中不再详述，推荐读者去看原Transformer论文，以及“The Annotated Transformer”(这是对原论文中阐述的Transformer的一个极好的讲解)。

这里，作者指明L表示层数，H表示每个隐藏单元的维数大小，A表示self-attention头数。BERT有2种大小的模型，分别是BERT(base，L=12, H=768, A=12, Total Parameters=110M)和BERT(large，L=24, H=1024, A=16, Total Parameters=340M)。

BERT(base)设定为和OpenAI GPT的模型大小相同，以便作比较。需要重点说明的是，BERT Transformer使用双向self-attention,而GPT
Transformer 使用带约束的self-attention，每个token只能注意到它左边的上下文。

Input/Output Representations

使用BERT做各种下游任务，输入表征可以在一个token序列里清楚的表示一个句子或者一对句子(比如)。这里的“句子”不是必须是语言句子，而可以是任意范围的连续文本。“sequence”指BERT的输入序列，可以是一个句子，也可以是两个打包在一起的句子。

作者使用了WordPiece embeddings来做词嵌入，对应的词汇表有30000个token。每个序列的首个token总是一个特定的classification token([CLS])。这个token对应的最后的隐藏状态被用作分类任务的聚合序列表征。句子对打包成一个序列。有两种区分句子对中的句子的方法。第一种，通过分隔符[SEP]；第二种，模型架构中添加了一个经过学习的嵌入(learned embedding)到每个token，以表示它是属于句子A或者句子B。如图1中，E表示输入的词嵌入，C表示最后隐藏层的[CLS]的向量，Ti表示第i个输入token在最后隐藏层的向量。

对一个给定的token，其输入表征由对应的token，segment和position embeddings的相加来构造。如图2。

3.1 Pre-training BERT

Task 1:Masked LM

直观上来说，作者有理由相信，一个深度双向模型确实会比单向或者浅度双向模型要强大。
可惜，标准的条件语言模型只能从按照left-to-right或者right-to-left的方式训练，直至双向条件可以允许每个词间接的“see itself”,并且可以在多层上下文中预测目标单词。
Unfortunately, standard conditional language models can only be trained left-to-right or right-to-left, since bidirectional conditioning would allow each word to indirectly “see itself”, and the model could trivially predict the target word in a multi-layered context.（原句）

为了训练一个深度双向表征，作者简单的随机mask一些百分比的输入tokens，然后预测那些被mask掉的tokens。这一步称为“masked LM”(MLM),尽管在文献中它通常被称为完型填空任务(Cloze task)。
mask掉的tokens对应的最后的隐藏层向量喂给一个输出softmax，像在标准的LM中一样。在实验中，作者为每个序列随机mask掉了15%的WordPiece tokens。和 denoising auto-encoders相比，BERT的做法是只预测被mask掉的词，而不是重建完整的输入。

尽管这允许作者获得双向预训练模型，其带来的负面影响是在预训练和微调模型之间创造了不匹配，因为[MASK]符号不会出现在微调阶段。所以要想办法让那些被mask掉的词的原本的表征也被模型学习到，所以这里作者采用了一些策略，具体参见：附录 A.1。

Task 2:Next Sentence Prediction (NSP)

许多下游任务，比如问答，自然语言推理等，需要基于对两个句子之间的关系的理解，而这种关系不能直接通过语言建模来获取到。为了训练一个可以理解句子间关系的模型，作者为一个二分类的下一个句子预测任务进行了预训练，这些句子对可以从任何单语言的语料中获取到。特别是，当为每个预测样例选择一个句子对A和B，50%的时间B是A后面的下一个句子(标记为IsNext)， 50%的时间B是语料库中的一个随机句子(标记为NotNext)。图1中，C用来预测下一个句子（NSP）。尽管简单，但是该方法QA和NLI任务都非常有帮助。5.1节对此有展示。

NSP任务和 Jernite et al. (2017) and Logeswaran and Lee (2018)中的表示学习的目标密切相关。任务，先前的工作中，只将句子嵌入转移到了下游任务中，而BERT转移了所有参数来初始化终端任务模型的参数。

Pre-training data 预训练过程很大程度上参考了已有的语言模型预训练文献。预训练语料方面，作者使用了BooksCorpus(800M words)，English Wikipedia(2500M words) 。作者只提取Wikipedia的文本段落，忽略列表，表格和标题。为了提取长连续序列，关键是使用文档级语料库，而不是像十亿词基准(Chelba et al.， 2013)这样的无序的句子级语料库。

3.2 Fine-tuning BERT

微调很简单，因为Transformer中的self-attention机制允许BERT通过交换合适的输入和输出来为许多下游任务建模——无论是单个文本还是文本对。对于涉及到文本对的应用，常见的模式是分辨编码文本对中的文本，然后应用双向交叉的注意力。BERT使用self-attention机制统一了这两个步骤，BERT使用self-attention编码一个串联的文本对，其过程中就包含了2个句子之间的双向交叉注意力。
输入端，句子A和句子B可以是：（1）释义句子对（2）假设条件句子对（3）问答句子对（4）文本分类或序列标注中的text-∅对。
输出端，对于，token表征喂给一个针对token级别的任务的输出层，序列标注和问答是类似的，[CLS]表征喂给一个分类器输出层，比如情感分析。

微调的代价要比预训练小的多。论文中的很多结果都从一个完全相同的预训练模型开始，在TPU上只要花费1小时的时间就可以复现，GPU上也只要几个小时。更多细节可以查看附录 A.5

4 Experiments

本节展示了BERT在11项NLP任务上的fine-tuning结果。

4.1 GLUE （General Lanuage Understanding Evaluation）

GLUE基准测试是一系列不同的自然语言理解任务。GLUE数据集的详细描述在附录B.1中。

GLUE上的fine-tune，作者使用第3节描述的句子和句子对，用最后的隐藏向量C作为表征，C对应首个输入token（[CLS]）。分类器层的权重系数矩阵W (形状：K×H)，K是类别的个数。作者使用C和W计算标准的分类损失，比如log(softmax(C·W )).

在所有的GLUE任务上，作者使用了batch-size=32,epochs=3。对于每个任务，都通过开发集的验证来选择了最佳的微调学习率(在5e- 5,4e - 5,3e -5和2e-5之间)。另外，对于BERT的large模型，作者发现微调有时候在小数据集上不稳定，所以随机重启了几次，并选择了开发集上表现最佳的模型。With random restarts, we use the same pre-trained checkpoint but perform different fine-tuning data shuffling and classifier layer initialization.9（?）

BERT base版本的模型架构和OpenAI GPUT除了attention masking以外，几乎相同。
BERT large 版本明显比base版本要表现的更好。关于模型大小的影响，在5.2节有更深入的探讨。

4.2 SQuAD v1.1 （Stanford Question Answering Dataset）

这是一个100k的问答对集合。给定一个问题和一篇短文，以及对应的答案，任务是预测出短文中的答案文本span（the answer text span in the passage）。
图1所示，在问答任务中，作者将输入问题和短文表示成一个序列，其中，使用A嵌入表示问题，B嵌入表示短文。在微调的时候，作者引入一个start向量S，和一个end向量E，维数都为H。answer span的起始词word i的概率计算公式：

答案末尾词的概率表示原理一样。
位置i到位置j的候选span的分数定义如下：

并将满足j>i的最大得分的span最为预测结果。训练目标是正确的开始和结束位置的对数似然估计的和。
作者微调了3个epochs，学习率设置为5e-5,batch-size设置为32。

Table2 显示了顶级排行耪和结果。其中SQuAD排行耪中的公共系统描述没有最新的，并且允许使用任何公开数据训练各自的网络。
因此，作者在系统中使用适度的数据增强，首先对TriviaQA进行微调(Joshi et al.， 2017)，然后再对SQuAD进行微调。

4.3 SQuAD v2.0

We treat questions that do not have an answer as having an answer span with start and end at the [CLS] token. The probability space for the start and end answer span positions is extended to include the position of the [CLS] token. For prediction, we compare the score of the no-answer span: snull = S·C + E·C to the score of the best non-null span

sˆi,j = maxj≥i S·Ti + E·Tj . We predict a non-null answer when sˆi,j > snull + τ , where the threshold τ is selected on the dev set to maximize F1. We did not use TriviaQA data for this model. We fine-tuned for 2 epochs with a learning rate of 5e-5 and a batch size of 48.

4.4 SWAG

The Situations With Adversarial Generations (SWAG)数据集包含113k个句子对完整示例，用于评估基于常识的推理。给定一个句子，任务是从四个选项中选择出最有可能是对的的continuation(延续/扩展)。

在微调的时候，作者构造了4个输入序列，每个包含给定句子A的序列和continuation(句子B)。引入的唯一特定于任务的参数是一个向量，它与[CLS]token做点积，得到每个选项的分数，该分数会通过一个softmax层来归一化。
作者微调的时候，使用了3个epochs,lr设置为2e-5,batch-size设置为16。Table4中有对应的结果，BERT在该领域的表现接近人类。

5 Ablation Studies 消融研究

本节通过在BERT的各方面做消融实验，来理解相对重要的部分。

5.1 Effect of Pre-training Tasks

通过去掉NSP后，对比BERT的双向表征和Left-to-Right表征，作者得证明了有NSP更好，且双向表征更有效。
通过引入一个双向的LSTM，作者证明了BILSTM比Left-to-Right能得到更好的结果，但是仍然没有BERT的base版本效果好。
具体对比结果如图：

另外，关于ELMo那样的分别训练LTR和RTL的方式，作者也给出了其不如BERT的地方：

this is twice as expensive as a single bidirectional model;
this is non-intuitive for tasks like QA, since the RTL model would not be able to condition the answer on the question;
this it is strictly less powerful than a deep bidirectional model, since it can use both left and right context at every layer.

5.2 Effect of Model Size

本节介绍模型大小对任务表现的影响。作者训练了一些不同层数、隐藏单元数、注意力头的BERT模型，但使用相同的超参数和训练过程。
Table6展示了对比结果。大模型带来更好的表现。

For example,
the largest Transformer explored in Vaswani et al. (2017) is (L=6, H=1024, A=16) with 100M parameters for the encoder, the largest Transformer we have found in the literature is (L=64, H=512, A=2) with 235M parameters (Al-Rfou et al., 2018). By contrast,
BERT(base) contains 110M parameters
BERT(large) contains 340M parameters.

本节作者最后给出的结论如下：
we hypothesize that when the model is fine-tuned directly on the downstream tasks and uses only a very small number of randomly initialized additional parameters, the taskspecific models can benefit from the larger, more expressive pre-trained representations even when downstream task data is very small.
大致意思是，通过微调，下游任务即使能提供的数据量非常小，依然可以利用预训练模型得到不错的训练效果。

5.3 Feature-based Approach with BERT

相比于上面一直在说的fine-tuning的方式，feature-based的方式也有着其关键的优势。
首先，不是所有的任务都可以轻易的表示成Trasformer encoder 架构，所以会有需要添加一个基于特定任务的模型架构的需求。
其次，预先计算一次训练数据的昂贵表示，然后在此表示之上使用更便宜的模型运行许多实验，这对计算有很大的好处。

本节，作者在BERT的命名实体识别应用上比较了fine-tuning和feature-based方式。
在BERT的输入中，使用了一个保留大小写的单词模型，并包含了数据提供的最大文档上下文。按照标准实践，作者将其表示为标记任务，但在输出中不使用CRF层。作者使用第一个sub-token的表征，作为token-level的NER分类器的输入。

为了和fine-tuning方法做消融实验，作者以从没有微调任何参数的一层或多层提取activations的方式应用feature-based方法。这些上下文的嵌入用做一个随机初始化的两层768维BiLSTM的输入，然后送入分类器层。

Table 7显示了实验结果：

可以看到，feature-based方法中，拼接最后4个隐藏层的方式，可以达到96.1的F1分数，仅比BERT(base)少了0.3。
实验结果表明，BERT的2种应用方法都是有效的。

6 Conclusion

近来通过迁移学习改善模型学习的例子表明了丰富的，无监督的预训练是许多语言理解系统的重要组成部分。特别是，这些结果使得即使是低资源的任务也可以从深层单向架构中获益。
BERT的主要贡献是进一步将这些发现推广到深层双向架构，使得相同的预训练模型可以成功应对一组广泛的NLP任务。

附录A Additional Details for BERT

A.1 Illustration of the Pre-training Tasks

作者在这里提供了预训练的样例。

Masked LM and the Masking Procedure 假设原句子是“my dog is hairy”,作者在3.1节 Task1中提到，会随机选择句子中15%的tokens位置进行mask，假设这里随机选到了第四个token位置要被mask掉，也就是对hairy进行mask，那么mask的过程可以描述如下：

80% 的时间：用[MASK]替换目标单词，例如：my dog is hairy --> my dog is [MASK] 。
10% 的时间：用随机的单词替换目标单词，例如：my dog is hairy --> my dog is apple 。
10% 的时间：不改变目标单词，例如：my dog is hairy --> my dog is hairy 。（这样做的目的是使表征偏向于实际观察到的单词。）

上面的过程，需要结合训练过程的epochs来理解，每个epoch表示学完了一遍所有的样本，所以每个样本在多个epochs过程中是会重复输入到模型中的，知道了这个概念，上面的80%,10%,10%就好理解了，也就是说在某个样本每次喂给模型的时候，用[MASK]替换目标单词的概率是80%；用随机的单词替换目标单词的概率是10%；不改变目标单词的概率是10%。

有的介绍BERT的文章中，讲解MLM过程的时候，将这里的80%,10%,10%解释成替换原句子被随机选中的15%的tokens中的80%用[MASK]替换目标单词,10%用随机的单词替换目标单词,10%不改变目标单词。这个理解是不对的。

然后，作者在论文中谈到了采取上面的mask策略的好处。大致是说采用上面的策略后，Transformer encoder就不知道会让其预测哪个单词，或者说不知道哪个单词会被随机单词给替换掉，那么它就不得不保持每个输入token的一个上下文的表征分布(a distributional contextual representation)。也就是说如果模型学习到了要预测的单词是什么，那么就会丢失对上下文信息的学习，而如果模型训练过程中无法学习到哪个单词会被预测，那么就必须通过学习上下文的信息来判断出需要预测的单词，这样的模型才具有对句子的特征表示能力。另外，由于随机替换相对句子中所有tokens的发生概率只有1.5%(即15%的10%)，所以并不会影响到模型的语言理解能力。对此，本论文的C.2节做了对此过程影响的评估。

相比标准的语言模型训练，masked LM在每个batch中仅对tokens的15%的部分进行预测，所以模型收敛需要更多的预训练步骤。C.1节演示了MLM比left-to-right模型(会对每个token进行预测)收敛的稍慢，但是学习效果的改善远远超过了增加的训练成本。

Next Sentence Prediction
”下个句子预测“的任务的例子：

Input = [CLS] the man went to [MASK] store [SEP]
            he bought a gallon [MASK] milk [SEP]
            
Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP]
            penguin [MASK] are flight ##less birds [SEP]

Label = NotNext

A.2 Pre-training Procedure 预训练过程

本节首先介绍了下一句预测任务的样本获取策略，大致是从语料库文本中选取2个span，这里的span可以理解为一个完整话。然后，2个span分别对应句子A和句子B。其中，50%的情况下，句子B是句子A的下一句，而50%的情况下，B不是A的下一句。并且，句子A和B组合起来的长度要<=512个tokens。
然后介绍了LM的分词情况：
The LM masking is applied after WordPiece tokenization with a uniform masking rate of 15%, and no special consideration given to partial word pieces.?
作者预训练的时候采用batch-size=256，也就是说每个batch由256*512=128000个tokens，总共训练了1,000,000步,将近40个epochs，超过33亿个单词。梯度优化算法采用Adam，学习率=1e-4，β1=0.9，β2=0.999，0.01的L2权重衰减，学习率在首个10000步进行warmup【注释4】 ,然后进行线性衰减。作者在所有层使用了0.1概率的的dropout。在激活函数上，作者选择了gelu，而不是标准的relu，这个选择跟随了OpenAI GPT。The training loss is the sum of the mean masked LM likelihood and the mean next sentence prediction likelihood.（训练损失是masked掉的语言模型的似然均值与下一句预测的似然均值之和。）
BERT base模型在4块云TPU上训练（共16块TPU芯片）。BERT large在16块云TPU上训练（共64块TPU芯片）。每个预训练持续4天的时间完成。
由于注意力的计算复杂度是序列长度的平方，所以更长的序列所增加的成本是昂贵的。为了加速实验中的预训练过程，作者对90%的步骤使用128长度的序列预训练，然后用512长度的序列训练剩余的10%的步骤，以便学习到位置嵌入(positional embeddings)。

A.3 Fine-tuning Procedure

在fine-tuning的时候，模型的大多数超参数和预训练的时候是一样的，除了batch-size，learning rate和epochs。dropout的概率始终保持在0.1。优化超参数的值是特定于任务来做的，但是作者提到了下面的可能的值的范围，该范围内的值在跨任务上也工作的很好：

Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Number of epochs: 2, 3, 4

作者也观察了10万+的训练样本，超参数选择的敏感度远低于小数据集。Fine-tuning仍然非常快，所以简单粗暴的在上面的参数上运行一个穷举搜索来选择出可以让模型在开发集上表现最好的那些参数的方式也是可以接受的。

A.4 BERT,ELMo,OpenAI GPT对比

图3展示了这3个模型架构的对比：

BERT使用了双向的Transformer架构
OpenAI GPT使用了left-to-right的Transformer
ELMo分别使用了left-to-right和right-to-left进行独立训练，然后将输出拼接起来，为下游任务提供序列特征
上面的三个模型架构中，只有BERT模型的表征在每一层都联合考虑到了左边和右边的上下文信息。
除了架构不同，另外的区别在于BERT和OpenAI GPT是基于fine-tuning的方法，而ELMo是基于feature-based的方法。

除了MLM和NSP，BERT和GPT在训练的时候还有如下几处不同：

GPT is trained on the BooksCorpus (800M words); BERT is trained on the BooksCorpus (800M words) and Wikipedia (2,500M words).
GPT uses a sentence separator ([SEP]) and classifier token ([CLS]) which are only introduced at fine-tuning time; BERT learns [SEP], [CLS] and sentence A/B embeddings during pre-training.
GPT was trained for 1M steps with a batch size of 32,000 words; BERT was trained for 1M steps with a batch size of 128,000 words.
GPT used the same learning rate of 5e-5 for all fine-tuning experiments; BERT chooses a task-specific fine-tuning learning rate which performs the best on the development set.

作者为了证明BERT模型是因为2个预训练任务和双向的Transformer才比其他模型表现更好，所以在5.1节中阐述了他们做的消融实验过程和结果。

A.5 不同任务下的Fine-tuning图例

如图4所示：

(a)和(b)是序列级别的任务；(c)和(d)是token级别的任务。
图中的E表示输入的词嵌入，Ti表示第i个token的上下文表征，[CLS]是分类输出的特定符号，[SEP]是分隔非连续token序列的特定符号。

B 详细的实验配置

B.1 GLUE基准实验的详细描述

以下是模型训练和评测使用的各种下游任务的数据集：

MNLI 目标是预测第二个句子对于第一个句子是蕴含、矛盾还是中性的关系。
QQP 目标是判断两个问题是否等价。
QNLI 将标准问答数据集转换成一个二分类任务。包含正确回答的句子对为正样本，反之为负样本。
SST-2 对电影评论做情感分类。
CoLA 预测一个句子是否符合语言学定义。
STS-B 用1-5的分数表示2个句子的语义相似度。
MRPC 判断2个句子是否语义上等价。
RTE 和MNLI类似，但是数据集小的多。
WNLI 一个小型自然语言推理数据集。该数据集有一些问题，所以排除在评测之外。

C 其他消融研究

C.1 训练步数的影响

图5展示了在MNLI开发集上使用预训练了k步的模型进行微调后得到的准确度。

通过此图，就可以回答下面的问题了：

BERT真的需要这么巨大的预训练量级吗(128,000 words/batch * 1000,000 steps)？
是的。相对于500k的steps，准确度能提高1.0%

MLM预训练收敛速度比LTR慢吗？因为每个batch中只有15%的单词被预测，而不是所有单词都参与。
确实稍稍有些慢。但是准确度因此而立刻超过了LTR模型，所以是值得的。

C.2 不同Masking过程的消融实验

之前说过，mask策略的目的是减轻预训练和微调之间的不匹配，因为[MASK]符号在微调的时候几乎不会出现。Table8展示了基于Fine-tune和基于Feature-based的方式下，不同的MASK策略对结果的影响：

可以看到，Feature-based的方式下，MASK造成的不匹配的影响更大，因为模型在训练的时候，特征提取层没有机会调整特征表示(因为被冻结了)。

在feature-based方法中，作者将BERT的最后4层输出拼接起来作为特征，因为这样的效果最好，具体见5.3节。

另外，我们还可以看到，fine-tuning方式在不同的mask策略下都具有惊人的鲁棒性。然而，如作者所料，完全使用MASK的策略在feature-based方式下应用到NER领域是有问题的。有趣的是，全部使用随机的策略也比第一行的策略差的多。

注解

深度双向：深度双向和浅度双向的区别在于，后者仅仅是将分开训练好的left-to-right和right-to-left的表征简单的串联，而前者是一起训练得到的。
feature-based: 又称feature-extraction 特征提取。就是用预训练好的网络在新样本上提取出相关的特征，然后将这些特征输入一个新的分类器，从头开始训练的过程。也就是说在训练的过程中，网络的特征提取层是被冻结的，只有后面的密集链接分类器部分是可以参与训练的。
fine-tuning: 微调。和feature-based的区别是，训练好新的分类器后，还要解冻特征提取层的顶部的几层，然后和分类器再次进行联合训练。之所以称为微调，就是因为在预训练好的参数上进行训练更新的参数，比预训练好的参数的变化相对小，这个相对是指相对于不采用预训练模型参数来初始化下游任务的模型参数的情况。也有一种情况，如果你有大量的数据样本可以训练，那么就可以解冻所有的特征提取层，全部的参数都参与训练，但由于是基于预训练的模型参数，所以仍然比随机初始化的方式训练全部的参数要快的多。对于作者团队使用BERT模型在下游任务的微调时，就采用了解冻所有层，微调所有参数的方法。
warmup:学习率热身。规定前多少个热身步骤内，对学习率采取逐步递增的过程。热身步骤之后，会对学习率采用衰减策略。这样训练初期可以避免震荡，后期可以让loss降得更小。

ok,本篇就这么多内容啦~，感谢阅读O(∩_∩)O。

你可能感兴趣的:(BERT论文解读)

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现 LittleNyima Diffusion Models 笔记 stable diffusion AIGC 人工智能
论文链接：High-ResolutionImageSynthesiswithLatentDiffusionModels官方实现：CompVis/latent-diffusion、CompVis/stable-diffusion这一篇文章的内容是LatentDiffusionModels（LDM），也就是大名鼎鼎的StableDiffusion。先前的扩散模型一直面临的比较大的问题是采样空间太大，学
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
Go的学习路线 JSU-YSJ Golang基础学习 golang 学习开发语言
Golang简介go语言Go（又称Golang）是Google的RobertGriesemer，RobPike及KenThompson开发的一种静态强类型、编译型语言。Go语言语法与C相近，但功能上有：内存安全，GC（垃圾回收），结构形态及CSP-style并发计算。为什么要学习Go现有的编程语言风格各异，不能完全的运动好电脑的硬件，不高效，及各种优势于一身的语言Golang(谷歌创建)兼容静态编
爱无常，恨无常，珍惜好时光爱博文学翻译社
爱无常，恨无常，珍惜好时光编辑:AlbertXu片尾曲《匆匆那年》很好听，看的过程中感觉美好、惊醒、奇妙、困惑和无常：1.美好的是青春，是逝去的时光，是那些已经改变又从未改变的人，也是那些深深刻在脑海中的爱的印记，甚至是后悔，那些证明我们存在于世的全部经历。当人们从一个原点出发，相逢又散去，投入到各自的生活洪流中时，片刻的驻足，怀念起过去，几乎很多人都在习惯性美化它们。长大后觉得甜蜜的回忆，在经历
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
【Tools】大模型中的BERT概念音乐学家方大刚工具 bert 人工智能深度学习
摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》BERT（BidirectionalEncoderRepresentationsfromTransformers）是一种基于Transformer的预训练语言模型，由Google于2018年发布。BERT的目标是通过大规模无监督预训练学习来
详述Python环境下配置AI大模型Qwen-72B的步骤 Play_Sai #Python开发 python AI大模型人工智能
随着人工智能技术的发展，大规模预训练模型如Qwen-72B等逐渐成为研究和应用的重点。本篇博客旨在提供一份详细的指南，帮助Python开发者们在自己的环境中顺利配置并使用Qwen-72B大模型。请注意：由于Qwen-72B这一模型目前并未公开存在，所以以下内容仅为假设性描述，实际上你需要替换为你想要配置的真实存在的大模型，例如GPT-3、BERT等。一、环境准备1.安装必要的库首先确保你已经安装了
突发奇想，玩家用《我的世界》重现美术大师画作，还原度很高爱游戏的萌博士
如果你喜欢绘画，在其中又特别钟情风景画的话，你可能听说过鲍伯·鲁斯（BobRoss）。这其实是罗伯特·诺曼·鲁斯（RobertNormanRoss）的艺名，他是位美国画家，同时也是一位艺术指导与电视节目主持人。鲁斯以他温柔且和乐的语气为特色，在他著名的电视节目“欢乐画室（TheJoyofPainting）”中担任即席教学画家兼主持人，这个节目活跃于上世纪八九十年代。博士为什么要提上面这位顶着爆炸头
大模型落地指南：从下载到本地化部署全流程解析网安猫叔人工智能自然语言处理语言模型 AIGC 深度学习
一、引言随着人工智能技术的迅猛发展，大规模预训练模型（如GPT-4、BERT等）在自然语言处理、图像识别等领域展现出了卓越的性能。然而，如何将这些强大的模型从理论落地到实际应用中，仍然是许多技术从业者面临的挑战。本篇文章旨在为读者提供一份详尽的大模型落地指南，从模型的下载、文件结构的解析，到本地化部署的具体步骤，全面覆盖整个流程。无论你是初次接触大模型的新手，还是希望深入了解部署细节的资深开发者，
解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题 CSDNhdlg NLP bert 人工智能深度学习自然语言处理
报错提示：OSError:Can'tloadtokenizerfor'bert-base-chinese'.Ifyouweretryingtoloaditfrom'https://huggingface.co/models',makesureyoudon'thavealocaldirectorywiththesamename.Otherwise,makesure'bert-base-chinese
如何用RoBERTa高效提取事件文本结构特征：多层次上下文建模与特征融合大多_C 人工智能
基于RoBERTa-BASE的特征提取器，提取事件文本数据的结构特征（如段落和篇章结构）涉及多个步骤。RoBERTa作为一种预训练语言模型，可以很好地捕捉输入文本的上下文和依赖关系。具体步骤如下：1.文本预处理在提取事件文本的结构特征之前，需要对文本进行适当的预处理。这一步包括：分句和分段处理：将事件文本拆分为不同的句子或段落，并对每个句子/段落进行标记。每个段落可以视为一个独立的输入序列。Tok
这样的电影都骂烂，是我握不动刀还是有人太飘 Sir电影
年度最WTF电影来了！年度最争议电影来了！威尼斯电影节首映，有的观众起立鼓掌，有的观众恨不得朝屏幕丢鞋。观众这样，更别说影评人……迷之又迷的，比如《RogerEbert.com》：恐怖、勾人、迷惑……这是一部刷新你认知的电影。恨之入骨的，比如《纽约观察者报》——我不愿给它贴上“年度最差电影”标签，因为“世纪最差电影”更适合它。评分网站呢，一个比一个不给面子：IMDb7.0，烂番茄68%，豆瓣6.7
Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用 Funhpc_huachen transformer bert gpt 语言模型深度学习
作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。1.Transformer框架Transformer是一种基础的深度学习模型架构，由Google于2017年提出。它引入了注意力机制（Self-Attention）
fpga图像处理实战-边缘检测（Roberts算子）梦梦梦梦子~ OV5640+图像处理图像处理计算机视觉人工智能
Roberts算子Roberts算子是一种用于边缘检测的算子，主要用于图像处理中检测图像的边缘。它是最早的边缘检测算法之一，以其计算简单、速度快而著称。Roberts算子通过计算图像像素在对角方向的梯度来检测边缘，从而突出图像中灰度变化最剧烈的部分。原理Roberts算子通过对图像应用两个2x2的卷积核（也称为掩模或滤波器）来计算图像在水平和垂直方向上的梯度。假设原始图像的像素值为I(x,y)，则
Rhinoceros 8 for Mac/Win：重塑三维建模边界的革新之作平安喜乐616 Rhinoceros 8 Rhino 8 三维建模软件犀牛8
Rhinoceros8（简称Rhino8），作为一款由RobertMcNeel&Assoc公司开发的顶尖三维建模软件，无论是对于Mac还是Windows用户而言，都是一款不可多得的高效工具。Rhino8以其强大的功能、广泛的应用领域以及卓越的性能，在建筑设计、工业设计、产品设计、三维动画制作、科学研究及机械设计等多个领域展现出了非凡的实力。强大的建模能力Rhino8支持多种建模技术，包括曲面建模、
预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
【大模型系列篇】预训练模型：BERT & GPT 木亦汐丫大模型 bert gpt 人工智能预训练模型大模型
2018年，Google首次推出BERT（BidirectionalEncoderRepresentationsfromTransformers）。该模型是在大量文本语料库上结合无监督和监督学习进行训练的。BERT的目标是创建一种语言模型，可以理解句子中单词的上下文和含义，同时考虑到它前后出现的单词。2018年，OpenAI首次推出GPT（GenerativePre-trainedTransfor
【人工智能】Transformers之Pipeline（十三）：填充蒙版（fill-mask） LDG_AGI Pipeline 人工智能机器学习计算机视觉 python 时序数据库大数据自然语言处理
目录一、引言二、填充蒙版（fill-mask）2.1概述2.2技术原理2.2.1BERT模型的基本概念2.2.2BERT模型的工作原理2.2.3BERT模型的结构2.2.4BERT模型的应用2.2.5BERT模型与Transformer的区别和联系2.3应用场景2.4pipeline参数2.4.1pipeline对象实例化参数2.4.2pipeline对象使用参数2.4.3pipeline返回参数
《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5 GoAI 深入浅出多模态深入浅出AI 多模态 vllm LLM 大模型 stable diffusion
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
IT历史：互联网简史 weixin_34275734 网络操作系统 java
Hobbes的互联网大事记-权威的互联网发展史Hobbes’Internet大事记v4.2作者：RobertH’obbes’ZakonInternet福音传道者译者：郭力Internet大事记的版权归RobertHZakon所有(c)1993-9。只要保留版权说明，给出在一个在本文档最后的指向本大事记的连接地址，并且不是出于商业目的，均可以使用本文的部分或全部内容，但是使用者必须向作者提供一份使用
大模型--个人学习心得挚爱清&虚人工智能
大模型LLM定义大模型LLM，全称LargeLanguageModel，即大型语言模型LLM是一种基于Transformer架构模型，它通过驯良大量文本数据，学习语言的语法、语义和上下文信息，从而能够对自然语言文本进行建模这种模型在自然语言处理(NLP)领域具有广泛应用常见的13个大模型BERT、GPT系列、T5、Meta的Llama系列、华为盘古模型、阿里巴巴通义大模型、科大讯飞星火大模型、百度
人脸识别算法MTCNN论文解读纸上得来终觉浅～图像处理 paper阅读人脸识别 mtcnn
论文名称：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks论文地址：https://www.lao-wang.com/wp-content/uploads/2017/07/1604.02878.pdf1、MTCNN原理MTCNN，Multi-taskconvolutionalneuralnetwor
基于Bert-base-chinese训练多分类文本模型(代码详解）一颗洋芋 bert 分类自然语言处理
目录一、简介二、模型训练三、模型推理一、简介BERT（BidirectionalEncoderRepresentationsfromTransformers）是基于深度学习在自然语言处理（NLP）领域近几年出现的、影响深远的创新模型之一。在BERT之前，已经有许多预训练语言模型，如ELMO和GPT，它们展示了预训练模型在NLP任务中的强大性能。然而，这些模型通常基于单向的上下文信息，即只考虑文本中
【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦东华果汁哥深度学习-文本分类深度学习 transformer pytorch
HuggingFace是一个致力于开源自然语言处理（NLP）和机器学习项目的社区。它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio