电信保温杯

电信保温杯笔记——NLP经典论文：BERT

论文
介绍
- ELMo 对输入的表示
- OpenAI GPT 对输入的表示
- BERT 对输入的表示
模型结构
- 整体结构
- 输入
- 模型参数量
- - Input Embedding层
  - Encoder 层
  - - Multi-Head Attention
    - Add & Norm层
    - Position-wise Feed-Forward Networks
    - Add & Norm层
  - 总共参数
预训练
微调
文章结构介绍
文章翻译
- Abstract
- 1 Introduction
- 2 Related Work
- - 2.1 Unsupervised Feature-based Approaches
  - 2.2 Unsupervised Fine-tuning Approaches
  - 2.3 Transfer Learning from Supervised Data
- 3 BERT
- - 3.1 Pre-training BERT
  - 3.2 Fine-tuning BERT
- 4 Experiments
- - 4.1 GLUE
  - 4.2 SQuAD v1.1
  - 4.3 SQuAD v2.0
  - 4.4 SWAG
- 5 Ablation Studies
- - 5.1 Effect of Pre-training Tasks
  - 5.2 Effect of Model Size
  - 5.3 Feature-based Approach with BERT
- 6 Conclusion
- Appendix for “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”
- - A Additional Details for BERT
  - - A.1 Illustration of the Pre-training Tasks
    - A.2 Pre-training Procedure
    - A.3 Fine-tuning Procedure
    - A.4 Comparison of BERT, ELMo ,and OpenAI GPT
    - A.5 Illustrations of Fine-tuning on Different Tasks
  - B Detailed Experimental Setup
  - - B.1 Detailed Descriptions for the GLUE Benchmark Experiments.
  - C Additional Ablation Studies
  - - C.1 Effect of Number of Training Steps
    - C.2 Ablation for Different Masking Procedures
相关视频
相关的笔记
相关代码
- pytorch
- tensorflow
- - keras
pytorch API:
tensorflow API

论文

NLP论文笔记合集（持续更新）

原论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

《BERT Rediscovers the Classical NLP Pipeline》对每一层的表示做出了解释，详细参考NLP论文：BERT各层表示在不同NLP任务上的解释笔记。

介绍

2018-10发表的文章，提出了 BERT 模型，可为其他任务提供预训练的输入表示和基于数据集和任务的微调，效果比 ELMo 和 GPT 要好。

ELMo 对输入的表示

ELMo 使用多个 BiLSTM 层，将输入在不同层中进行表示，然后将这些表示进行 weighted sum，可用于下游任务作为额外的输入表示。对于下游任务的输入来说，这是一种基于特征的表示方法。ELMo 只是将输入以 LTR（Left-To-Right）和 RTL（Right-To-Left）的方式进行读取，即从前往后和从后往前地对文本进行读取，将这2种方式获得的输入表示进行 weighted sum，这只是将浅层的表示进行叠加。可以参考：NLP经典论文：ELMo 笔记。

OpenAI GPT 对输入的表示

这里的 OpenAI GPT 应该是指 GPT-1，尽管原文中引用文献和 GPT-1所指的文献不一样。
OpenAI GPT 的引用文献：《Improving language understanding with unsupervised learning》
GPT-1 的引用文献：《Improving Language Understanding by Generative Pre-Training》

GPT的结构与 Transformer 中的 Decoder 一样，使用 masked attention，可以参考：NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记，它使得当前输入 token 只能关注到前文的 token，这是深层的基于上文的表示。

BERT 对输入的表示

它的结构与 Transformer 中的 Encoder 一样，同样参考：NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记，它允许每一个 token 都能关注到所有的 token，从而得到深层的基于上下文的表示。

《BERT Rediscovers the Classical NLP Pipeline》对每一层的表示做出了解释，详细参考NLP论文：BERT各层表示在不同NLP任务上的解释笔记。

同时它的名字也和美国育儿卡通节目《芝麻街》里面的一个角色一样。

模型结构

整体结构

$N$ 个 Encoder 层堆叠构成了一个 Encoder，这个 Encoder 就是 BERT。 Encoder 详细结构可以参考NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记。

输入

为了使 BERT 能够处理各种下游任务，我们的输入表示能够在一个 token 序列中明确地表示单个句子和一对句子（例如，< 问题，答案>) 。在整个工作中，“句子”可以是连续文本的任意跨度，而不是实际的语言句子。“序列”是指输入到 BERT 的 token 序列，可以是一个句子或两个句子组合在一起。

使用带有30522个 token 词汇表的词条 embedding（Wu et al.，2016）。每个序列的第一个 token 总是一个特殊的分类 token（[CLS]）。与该 token 相对应的最终隐藏状态用作序列的总表示，这样句子对被压缩成一个单一的序列，用于分类任务的输入。用两种方式区分句子。首先，我们用一个特殊的 token（[SEP]）将它们分开。其次，我们向每个 token 添加一个学习后的 embedding，指示它是属于句子 A 还是句子 B。如下图所示，我们将输入 embedding表示为 $E\in R^H$ ，特殊 token （[CLS]）的最终隐藏向量表示为 $C\in R^H$ ，第 $i$ 个输入 token 的最终隐藏向量为 $T_i\in R^H$ 。

上图中的 Input Embedding 结构如下，对于给定的 token，其输入表示是通过对相应的 token、segment 和位置 embedding 求和来构造的。：

模型参数量

主要展示两种模型尺寸的结果：
BERT $_{\textbf{BASE}}$ （N=12，H=768，A=12，总参数=110M）。
BERT $_{\textbf{LARGE}}$ （N=24，H=1024，A=16，总参数=340M）。
将 Encoder 层数表示为 $N$ ，隐藏层尺寸表示为 $H$ ，self-attention head 的数量表示为 $A$ 。

模型参数量将以 BERT $_{\text{BASE}}$ 为例，参考小白Bert系列-参数计算。

Input Embedding层

Token Embeddings：总词汇是30522每个输出维度都是768，参数量是30522*768。

Position Embeddings：transformer 中位置信息是通过 sin 和 cos 生成，但是在 bert 中是学出来了（原文中说的应该是的数据量足，能学出来）最大长度是512，所以这里参数量是512*768。

Segment Embeddings：用1和0表示，所以参数是2*768。

所以这个部分就是（30522+512 + 2）* 768=23835648‬。

Encoder 层

Multi-Head Attention

multi-head因为分成12份

单个head的参数是 768 * 768/12 * 3

12个head就是 768 * 768/12 * 3 * 12

紧接着将多个head的结果进行concat再进行线性变换，此时W的大小是768 * 768

所以这个部分是768 * 768/12 * 3 * 12 + 768 * 768=2359296‬

Add & Norm层

Add 层是残差连接，没有参数。

Norm层是 layer normalization 归一化层，每个维度有两个参数 $\gamma$ 和 $\beta$ ：768 * 2 = 1536

Position-wise Feed-Forward Networks

它包含3个结构：一个线性层，一个ReLU层和一个线性层

第一个线性层：768*3072(原文中4H长度) + 3072=2360064

第二个线性层：3072*768+768=2362368

Add & Norm层

768 * 2 = 1536

总共参数

Input Embedding层 + Encoder 层*12

23835648‬+（2359296‬+1536+2360064+2362368+1536）* 12= 108,853,248 约等于109M参数

预训练

预训练阶段，使用2个训练目标同时来对模型进行预训练，Masked LM 和 Next Sentence Prediction (NSP)。

Task #1: Masked LM $\quad\quad$ 随机 mask 一定百分比的输入 token，然后预测这些 masked token。我们将此过程称为“masked LM”（MLM），也就是通常的完形填空任务。与 masked token 相对应的最终隐藏向量输入到线性层 + softmax层中预测被 mask 掉的 token，只预测 masked 词，而不是重建整个输入。

尽管这允许我们获得双向预训练模型，但缺点是我们在预训练和微调之间产生了不一致，因为在微调期间 [MASK] token 不会出现。为了缓解这种情况，我们并不总是用实际的 [MASK] token 替换“masked”词。随机选择15%的 token 进行预测。如果选择了第 $i$ 个 token，我们将第 $i$ 个 token（1）80%几率替换为 [MASK] token（2）10%几率替换为随机 token（3）10%几率不做替换。然后，将最终隐藏向量 $T_i$ 输入到线性层 + softmax层中预测原始 token。

假设未标记的句子是 my dog is hairy，在随机 masking 过程中，我们选择了第4个 token（对应于hairy），我们的 masking 过程可以通过

• 80%的情况：将单词替换为 [MASK] token，例如，my dog is hairy→ my dog is [MASK]

• 10%的情况：用随机词替换该词，例如，my dog is hairy→ my dog is apple

• 10%的情况：保持单词不变，例如，my dog is hairy→ my dog is hairy。

下面的例子可以说明下一个句子预测任务。

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]

Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]

Label = NotNext

微调

在上图中可以看到对不同任务进行微调的示例。特定任务模型是通过将 BERT 与一个额外的输出层合并而成的，即红色箭头的地方，因此需要从头学习最少数量的参数。在这些任务中，（a）和（b）是序列级任务，而（c）和（d）是 token 级任务。序列级表示指的是包含多个 token 的输入序列的信息融合到一个最终隐藏状态中的表示。E 表示输入 embedding， $T_i$ 表示 token i 的语境化表示，[CLS] 是用于分类输出的特殊符号，[SEP] 是用于分离非连续 token 序列的特殊符号。

（c）任务中，给定一个问题和一段维基百科中包含答案的文章，任务是预测文章中的答案文本范围。输入为问题和段落，问题使用 A embedding，段落使用 B embedding。在微调过程中，我们只引入一个起始位置向量 $S\in R^H$ 和一个结束位置向量 $E\in R^H$ 。单词 $i$ 作为答案范围起始位置的概率由 $T_i$ 和 $S$ 之间的点积算得，然后经过关于段落中所有单词的softmax： $P_i=\frac{exp(S\cdot T_i)}{\sum _jexp(S\cdot T_j)}$ 答案范围结束位置使用类似公式。从位置 $i$ 到位置 $j$ 的候选范围的得分定义为 $S\cdot T_i+E\cdot T_j$ ，其中 $i\geq j$ 的最大得分范围被用作预测。训练目标是正确起始位置和结束位置的对数概率之和。将没有答案的问题视为在 [CLS] token 处有答案的起始和结束位置。对于预测，无答案的得分： $s_{null}=S\cdot C+E\cdot C$ ，最佳非空答案的得分： $\hat{s_{i,j}}=\max _{j\geq i} S\cdot T_i+E\cdot T_j$ 。当 $\hat{s_{i,j}} > s_{null}+\tau$ 时，我们预测一个非空答案，其中阈值 $\tau$ 通过在数据集上以最大化 F1 获得。

文章结构介绍

第二章：基于无监督数据生成特征的表示方法，基于无监督数据微调模型的方法，基于有监督数据的迁移学习的相关工作。

第三章： BERT 的预训练和微调方法。

第四章：实验结果，基于 GLUE 基准的任务、2个问答任务、常识推理任务的结果。

第五章：消融实验，什么是消融实验（Ablation experiment）？通过控制变量法，阐明了该文章预训练技巧带来模型性能的提升；模型尺寸的影响；像 ELMo 那样产生特征表示给下游任务带来性能的提升。

附录A：讲述预训练任务；预训练过程；微调过程；BERT, ELMo 和
OpenAI GPT的对比；不同任务进行微调的示例。

附录B：所有的实验任务所用的数据集。

附录C：训练步数的影响；不同 masking 策略的效果。

文章翻译

Abstract

我们介绍了一种新的语言表示模型，称为 BERT，它代表源自 Transformer 的双向 Encoder 表示模型。与最近的语言表示模型（Peters等人，2018a；Rad ford等人，2018）不同，BERT 被设计为通过在所有层中对基于前文和基于后文进行联合，从未标记文本中预训练深层双向表示。结果是，预训练好的 BERT 模型可以通过一个额外的输出层进行微调，从而为多种的任务（如问答系统和语言推理）提供最先进的模型，而无需对特定于任务的体系结构进行实质性修改。

（注：最近的语言表示模型指的是 ELMo 和 OpenAI GPT，感觉这个 GPT 应该是 GPT-1。）

BERT在概念上很简单，在实际运用中也很强大。它在11项自然语言处理任务中获得了最先进的结果，包括将 GLUE 分数提高到80.5%（绝对提高7.7%），MultiNLI（多体裁自然语言推理）准确性提高到86.7%（绝对提高4.6%），SQuAD v1.1 QA 测试集上 F1 提高到93.2（绝对提高1.5分），SQuAD v2.0 测试集上 F1 提高到83.1（5.1分绝对改善）。

1 Introduction

语言模型预训练已被证明能有效改善许多自然语言处理任务（Dai和Le，2015；Peters等人，2018a；Radford等人，2018；Howard和Ruder，2018）。这些任务包括句子级任务，如自然语言推理（Bowman et al.，2015；Williams et al.，2018）和意译（Dolan和Brockett，2005），旨在通过整体分析来预测句子之间的关系，以及 token 级任务，如命名实体识别和问答，模型需要在 token 级产生精细输出（Tjong Kim Sang和De Meulder，2003；Rajpurkar等人，2016）。

将预先训练好的语言表示应用于下游任务有两种现有策略：基于特征的和微调。基于特征的方法，如 ELMo（Peters等人，2018a），使用特定于任务的体系结构，包含预训练的表示作为附加特征。微调方法，如生成式预训练 transformer（OpenAI GPT）（Radford et al.，2018），引入最少的特定于任务的参数，并通过微调所有预训练参数对下游任务进行训练。这两种方法在预训练时使用相同的目标函数，即使用单向语言模型来学习一般的语言表示。

我们认为当前的技术限制了预训练表示的能力，特别是对于微调方法。主要的限制是标准语言模型是单向的，这限制了在预训练期间可以使用的体系结构的选择。例如，在 OpenAI GPT 中，作者使用从前往后的体系结构，其中每个 token 只能关注 transformer self-attention 层中的前文 token（Vaswani等人，2017）。这种限制对于句子级任务来说是次优的，并且在将基于微调的方法应用于 token 级任务（如问答）时可能非常有害，因为在这些任务中，从两个方向结合上下文是至关重要的。

在本文中，我们通过提出 BERT：transformer 的双向 encoder 表示，改进了基于微调的方法。受完形填空任务（Taylor，1953）的启发，BERT 通过使用“masked 语言模型”（MLM）预训练来缓解前面提到的单向性约束。masked 语言模型随机 mask 掉输入中的一些 token，其目的是仅根据其上下文预测 masked 词的原始词汇 id。与从前往后的语言模型预训练不同，MLM 使表示能够融合前文和后文，这使我们能够预训练深度双向 transformer。除了 masked 语言模型外，我们还使用了“下一句预测”任务，该任务共同预训练文本对的表示。我们的论文贡献如下：

• 我们证明了双向预训练对于语言表征的重要性。与 Radford et al.（2018）使用单向语言模型进行预训练不同，BERT使用 masked 语言模型实现预训练的深度双向表示。这也与 Peters et al.（2018a）形成对比，Peters et al.（2018a）使用独立训练的前往后和后往前 LM 的浅层串联。

• 我们表明，预训练的表示减少了对精心设计的特定于任务的许多体系结构的需求。BERT 是第一个基于微调的表示模型，它在大量句子级和 token 级任务上表现出最先进的性能，优于许多特定于任务的体系结构。

• BERT 提高了11项NLP任务的最新技术水平。代码和预训练的模型在https://github.com/google-research/bert.

2 Related Work

预训练通用语言的表示有着悠久的历史，本节我们简要回顾了最广泛使用的方法。

2.1 Unsupervised Feature-based Approaches

几十年来，学习广泛适用的词表示一直是一个活跃的研究领域，包括非神经（Brown等人，1992年；Ando和Zhang，2005年；Blitzer等人，2006年）和神经（Mikolov等人，2013年；Pennington等人，2014年）方法。预训练的 word embedding 是现代 NLP 系统的一个组成部分，与从头开始学习的 embedding 相比有显著的改进（Turian et al.，2010）。为了预训练 word embedding 向量，使用了从前到后的语言建模（Mnih和Hinton，2009），以及在前文和后文中区分正确单词和错误单词的语言建模（Mikolov等人，2013）。

这些方法已被推广到更大的输入粒度，如句子 embedding（Kiros等人，2015；Logeswaran和Lee，2018）或段落 embedding（Le和Mikolov，2014）。为了训练句子的表示，之前的研究使用了对下一候选句进行排序的语言模型（Jernite等人，2017；Logeswaran和Lee，2018），根据前一句的表示从前往后生成下一句的词（Kiros等人，2015），或去除自动编码器派生模型的噪声（Hill等人，2016）。

ELMo及其前身（Peters et al.，2017，2018a）从不同的维度概括了传统的 word embedding 研究。它们从从前往后和从后往前的语言模型中提取上下文相关的特征。每个 token 的语境化表示是从前往后和从后往前的表示的拼接。当将语境化的 word embedding 与现有特定任务的体系结构相结合时，ELMo 提高了几个主要的 NLP 基准（Peters等人，2018a）的技术水平，包括问答（Rajpurkar等人，2016年）、情感分析（Socher等人，2013年）和命名实体识别（Tjong Kim Sang和De Meulder，2003年）。Melamud等人（2016年）提出通过一项任务学习语境化的表示，即使用 LSTM 从前文和后文预测单个单词。与 ELMo 类似，他们的模型是基于特征的，而不是深度双向的。Fedus等人（2018）表明完形填空任务可以用来提高文本生成模型的稳健性。

2.2 Unsupervised Fine-tuning Approaches

与基于特征的方法一样，第一种方法仅在无标记文本中预先训练 word embedding 参数的情况下，才能往微调这个方向走（Col lobert和Weston，2008）。

最近，产生语境化的 token 表示的句子或文档 encoder 已从无标记文本中预训练，并针对有监督的下游任务进行微调（Dai和Le，2015；Howard和Ruder，2018；Radford等人，2018）。这些方法的优点是很少有参数需要从头学习。至少部分由于这一优势，OpenAI GPT（Radford等人，2018年）在 GLUE 基准测试的许多句子级任务上取得了显著的最新成果（Wang等人，2018a）。从前往后语言建模和自动 encoder 已用于此类模型的预训练（Howard和Ruder，2018；Radford等人，2018；Dai和Le，2015）。

2.3 Transfer Learning from Supervised Data

也有研究表明，在大数据集的监督任务中，如自然语言推理（Conneau et al.，2017）和机器翻译（McCann et al.，2017）可以有效地进行迁移。计算机视觉研究还证明了从大型预训练模型进行迁移学习的重要性，其中一个有效的方法是微调时使用 ImageNet 预训练的模型（Deng等人，2009年；Yosinski等人，2014年）。

3 BERT

本节将介绍 BERT 及其详细实现。在我们的框架中有两个步骤：预训练和微调。在预训练期间，模型在不同的预训练任务中基于无标记的数据进行训练。对于微调，首先使用预训练参数初始化 BERT 模型，然后使用来自下游任务的标记数据对所有参数进行微调。每个下游任务都有单独的微调模型，即使它们是用相同的预训练参数初始化的。图1中的问答示例将作为本节的运行示例。

BERT 的一个显著特点是其跨任务的统一体系结构。预训练的体系结构和最终的下游体系结构之间的差异最小。

Model Architecture $\quad\quad$ BERT 的模型架构是一个多层双向 transformer encoder ，基于Vaswani等人（2017）中描述的原始实现，并在 tensor2tensor 库 $^1$ 中发布。由于 transformer 的使用已变得普遍，且我们的实现几乎与原始版本相同，因此我们将省略对模型架构的详尽背景描述，并向读者介绍Vaswani等人（2017）以及优秀指南，如“注释的 transformer ” $^2$ 。

在这项工作中，我们将层数（即 transformer 块）表示为 $L$ ，隐藏层尺寸表示为 $H$ ，self-attention head 的数量表示为 $A$ $^3$ 。我们主要展示两种模型尺寸的结果：BERT $_{\textbf{BASE}}$ （L=12，H=768，A=12，总参数=110M）和BERT $_{\textbf{LARGE}}$ （L=24，H=1024，A=16，总参数=340M）。

为了便于比较，选择 BERT $_{\text{BASE}}$ 的模型尺寸与 OpenAI GPT 相同。然而，关键的是，BERT transformer 使用双向 self-attention，而 GPT transformer 使用约束 self-attention，其中每个 token 只能关注其上文。 $^4$

$^1$ https://github.com/tensorflow/tensor2tensor
$^2$ http://nlp.seas.harvard.edu/2018/04/03/attention.html
$^3$ 在所有实验中，我们将前馈/滤波器大小设置为 $4 H$ ，即，对于 $H$ =768，设置为3072；对于 $H$ =1024，设置为4096。
$^4$ 我们注意到，在文献中，双向 transformer 通常被称为“transformer encoder ”，而仅基于上文的版本被称为“transformer decoder”，因为它可以用于文本生成。

Input/Output Representations $\quad\quad$ 为了使 BERT 能够处理各种下游任务，我们的输入表示能够在一个 token 序列中明确地表示单个句子和一对句子（例如，< 问题，答案>) 。在整个工作中，“句子”可以是连续文本的任意跨度，而不是实际的语言句子。“序列”是指输入到 BERT 的 token 序列，可以是一个句子或两个句子组合在一起。

我们使用带有30000个 token 词汇表的词条 embedding（Wu et al.，2016）。每个序列的第一个 token 总是一个特殊的分类 token（[CLS]）。与该 token 相对应的最终隐藏状态用作分类任务的序列总表示。句子对被压缩成一个单一的序列。我们用两种方式区分句子。首先，我们用一个特殊的 token（[SEP]）将它们分开。其次，我们向每个 token 添加一个学习后的 embedding，指示它是属于句子 A 还是句子 B。如图1所示，我们将输入 embedding表示为 $E$ ，特殊 token （[CLS]）的最终隐藏向量表示为 $C\in R^H$ ，第 $i$ 个输入 token 的最终隐藏向量为 $T_i\in R^H$ 。

对于给定的 token，其输入表示是通过对相应的 token、segment 和位置 embedding 求和来构造的。这种结构的可视化如图2所示。

3.1 Pre-training BERT

与Peters等人（2018a）和Radford等人（2018）不同，我们不使用传统的从前往后或从后往前的语言模型来预训练 BERT。相反，我们使用两个无监督任务对 BERT 进行预训练，如本节所述。图1的左半部分显示了该步骤。

Task #1: Masked LM $\quad\quad$ 直观地说，我们有理由相信，深度双向模型严格地比从前往后模型，或从前往后与从后往前模型的浅层连接更强大。不幸的是，标准的条件语言模型只能从前往后或从后往前进行训练，因为双向条件作用将允许每个词间接地“看到自己”，并且该模型可以在多层上下文中轻松地预测目标词。

为了训练深度双向表示，我们只需随机 mask 一定百分比的输入 token，然后预测这些 masked token。我们将此过程称为“masked LM”（MLM），尽管在文献中它通常被称为完形填空任务（Taylor，1953）。在这种情况下，与 mask token 相对应的最终隐藏向量被馈送到基于词汇表的输出 softmax 中，如在标准LM中。在我们所有的实验中，我们在每个序列中随机屏蔽15%的所有词条 token。与去噪自动 encoder （Vincent et al.，2008）不同，我们只预测 masked 词，而不是重建整个输入。

尽管这允许我们获得双向预训练模型，但缺点是我们在预训练和微调之间产生了不一致，因为在微调期间 [MASK] token 不会出现。为了缓解这种情况，我们并不总是用实际的 [MASK] token 替换“masked”词。训练数据生成器随机选择15%的 token 进行预测。如果选择了第 $i$ 个 token，我们将第 $i$ 个 token 替换为（1）80%几率的 [MASK] token（2）10%几率的随机 token（3）10%几率的未更改的第 $i$ 个 token。然后，将 $T_i$ 用于预测具有交叉熵损失的原始 token。我们在附录C.2中比较了该步骤的变化。

Task #2: Next Sentence Prediction (NSP) $\quad\quad$ 许多重要的下游任务，如问答（QA）和自然语言推理（NLI）都是基于理解两个句子之间的关系，而语言建模并不能直接捕获这些关系。为了训练一个理解句子关系的模型，我们预先训练了一个二值化的下一个句子预测任务，该任务可以从任何单语语料库生成。具体来说，当为每个预训练示例选择句子 A 和 B 时，50%的几率 B 是 A 后面的实际下一个句子（标记为 IsNext），50%的几率 B 是语料库中的随机句子（标记为 NotNext）。如图1所示， $C$ 用于下一句预测（NSP） $^5$ 。尽管它很简单，我们在第5.1节中证明了针对该任务的预训练对 QA 和 NLI 都非常有益 $^6$ 。NSP 任务与Jernite et al.（2017）和Logeswaran and Lee（2018）中使用的表征学习密切相关。然而，在以前的工作中，只有句子 embedding 被迁移到下游任务，其中 BERT 转移所有参数来初始化终端任务模型参数。

$^5$ 最终的模型在 NSP 上达到97%-98%的精度。
$^6$ 向量 $C$ 在没有微调的情况下不是有意义的句子表示，因为它是用 NSP 训练的。

Pre-training data $\quad\quad$ 预训练步骤在很大程度上遵循了关于语言模型预训练的现有文献。对于预训练语料库，我们使用BooksCorpus（8亿字）（Zhu等人，2015年）和英语维基百科（2.5亿字）。对于维基百科，我们只提取文本段落，而忽略列表、表格和标题。为了提取长的连续序列，使用文档级语料库而不是像十亿字基准（Chelba et al.，2013）这样的混合句子级语料库是至关重要的。

3.2 Fine-tuning BERT

微调是直接的，因为 Transformer 中的 self-attention 机制可以通过交换适当的输入和输出来模拟许多下游任务，无论这些任务涉及单个文本还是文本对。对于涉及文本对的应用，一种常见模式是在应用双向交叉 attention 之前对文本对进行独立编码，如Parikh等人（2016）；Seo等人（2017年）。相反，BERT 使用 self-attention 机制来统一这两个阶段，因为使用 self-attention 编码串联文本对有效地囊括两个句子之间的双向交叉 attention。

对于每个任务，我们只需将特定于任务的输入和输出插入到 BERT 中，并端到端微调所有参数。在输入端，来自预训练的句子 A 和句子 B 类似于（1）含义解释中的句子对，（2）事物推断中的假设-前提对，（3）问答中的问题-答案对，以及（4）在文本分类或序列标记中的简并的文本-∅对。在输出时，token 表示被馈送到输出层用于 token 级任务，例如序列标记或问答，并且 [CLS] 表示被馈送到输出层用于分类，例如事物推断或情感分析。

与预训练相比，微调相对计算复杂度低。从完全相同的预训练模型 $^7$ 开始，本文中的所有结果可以在单个云 TPU 上复现顶多需要1小时，或在 GPU 上顶多需要几个小时。我们在第4节的相应小节中描述了特定于任务的详细信息。更多详情见附录A.5。

$^7$ 例如，在一个云TPU上，可以在大约30分钟内对 BERT SQuAD 模型进行训练，以获得91.0%的 F1 验证分数。

4 Experiments

在本节中，我们将介绍11个NLP任务的BERT微调结果。

4.1 GLUE

通用语言理解评估（GLUE）基准（Wang等人，2018a）是各种自然语言理解任务的集合。GLUE 数据集的详细说明见附录B.1。

为了对 GLUE 进行微调，我们按照第3节所述表示输入序列（对于单个句子或句子对），并使用与第一个输入 token（[CLS]）相对应的最终隐藏向量 $C\in R^H$ 作为总表示。微调期间唯一引入的新参数是分类层权重 $W\in R^{K\times H}$ ，其中 $K$ 是标签的数量。我们用 $C$ 和 $W$ 计算标准分类损失，例如， $log(softmax(CW^T )).$

$^8$ 见 https://gluebenchmark.com/faq 的 (10) 。

我们使用32的 batch size，并对所有 GLUE 任务的数据进行3个 epoch 的微调。对于每个任务，我们在开发集上选择最佳微调学习率（5e-5、4e-5、3e-5和2e-5）。此外，对于 BERT $_{\text{LARGE}}$ ，我们发现在小数据集上微调有时是不稳定的，因此我们运行了几次随机重启，并在开发集上选择了最佳模型。对于随机重启，我们使用相同的预训练的试点，但执行不同的微调数据打乱和分类器层初始化。 $^9$

$^9$ Glue 的数据分布不包括测试标签，我们只分别为 BERT $_{\text{BASE}}$ 和 BERT $_{\text{LARGE}}$ 上传了一个GLUE评估服务器。

结果见表1。BERT $_{\text{BASE}}$ 和 BERT $_{\text{LARGE}}$ 在所有任务上都比其他模型表现出色，与现有技术相比，平均精度分别提高了4.5%和7.0%。注意，除了 attention masking 之外，BERT $_{\text{BASE}}$ 和 OpenAI GPT 在模型架构方面几乎是相同的。对于最大和最广为报道的 GLUE 任务，MNLI，BERT 获得了4.6%的绝对精度提高。在官方 GLUE 排行榜 $^{10}$ 中，BERT $_{\text{LARGE}}$ 获得80.5分，而 OpenAI GPT 获得72.8分截止本文写作时。

$^{10}$ https://gluebenchmark.com/leaderboard

我们发现 BERT $_{\text{LARGE}}$ 在所有任务中都显著优于 BERT $_{\text{BASE}}$ ，尤其是那些训练数据很少的任务。第5.2节更深入地探讨了模型尺寸的影响。

4.2 SQuAD v1.1

斯坦福问答数据集（SQuAD v1.1）收集了10万对众包问答对（Rajpurkar等人，2016）。给定一个问题和一段维基百科中包含答案的文章，任务是预测文章中的答案文本范围。

如图1所示，在问答任务中，我们将输入的问题和段落表示为单个压缩序列，问题使用 A embedding，段落使用 B embedding。在微调过程中，我们只引入一个起始位置向量 $S\in R^H$ 和一个结束位置向量 $E\in R^H$ 。单词 $i$ 作为答案范围起始位置的概率由 $T_i$ 和 $S$ 之间的点积算得，然后经过关于段落中所有单词的softmax： $P_i=\frac{exp(S\cdot T_i)}{\sum _jexp(S\cdot T_j)}$ 答案范围结束位置使用类似公式。从位置 $i$ 到位置 $j$ 的候选范围的得分定义为 $S\cdot T_i+E\cdot T_j$ ，其中 $i\geq j$ 的最大得分范围被用作预测。训练目标是正确起始位置和结束位置的对数概率之和。我们微调了3个 epoch，学习率为5e-5，batch size 为32。

表2显示了顶级排行榜记录以及顶级的发布系统的结果（Seo等人，2017年；Clark和Gardner，2018年；Peters等人，2018a；Hu等人，2018年）。SQuAD 排行榜中的排名靠前的结果没有可用的最新系统公开描述 $^{11}$ ，并且允许在训练其系统时使用任何公共数据。因此，我们在我们的系统中使用适度的数据扩充，在基于 SQuAD 进行微调之前，首先基于 TriviaQA 进行微调（Joshi et al.，2017）。

$^{11}$ Yu等人（2018）对 QANet 进行了描述，但该系统在出版后有了实质性改进。

我们的最佳性能系统在集成方面的性能比排行榜榜首系统高出1.5个 F1 百分点，作为单一系统的性能比排行榜榜首系统高出1.3个 F1 百分点。事实上，我们的单 BERT 模型在 F1 成绩方面优于顶级集成系统。如果没有 TriviaQA 微调数据，我们只会损失0.1-0.4 的F1，仍然远远超过所有现有系统 $^{12}$ 。

$^{12}$ 我们使用的TriviaQA数据由TriviaQA Wiki中的段落组成，这些段落由文档中的前400个 token 组成，其中至少包含一个提供的可能答案。

4.3 SQuAD v2.0

SQuAD 2.0 任务通过允许提供的段落中，不存在简短答案的可能性，扩展了 SQuAD 1.1 问题定义，使问题更加真实。

我们使用一种简单的方法来扩展此任务的 SQuAD 1.1 BERT 模型。我们将没有答案的问题视为在 [CLS] token 处有答案的起始和结束位置。答案的起始和结束位置的概率空间被扩展以包括 [CLS] token 的位置。对于预测，我们比较了无答案的得分： $s_{null}=S\cdot C+E\cdot C$ 和最佳非空答案的得分： $\hat{s_{i,j}}=\max _{j\geq i} S\cdot T_i+E\cdot T_j$ 。当 $\hat{s_{i,j}}>s_{null}+\tau$ 时，我们预测一个非空答案，其中阈值 $\tau$ 通过在数据集上以最大化 F1 获得。我们没有对这个模型使用 TriviaQA 数据。我们对两个 epoch 进行了微调，学习率为5e-5，batch size 为48。

表3显示了与之前的排行榜记录和顶级发布作品（Sun等人，2018；Wang等人，2018b）相比的结果，不包括使用 BERT 作为其组件之一的系统。我们观察到，与以前的最佳系统相比，F1 提高了5.1。

4.4 SWAG

具有对抗生成的情境（SWAG）数据集包含113k个句子对的生成示例，用于评估合理的常识推理（Zellers et al.，2018）。给定一个句子，任务是在四个选项中选择最合理的情境延续。

在对 SWAG 数据集进行微调时，我们构造了四个输入序列，每个序列包含给定句子（句子A）和可能的情境延续（句子B）的串联。唯一引入的特定于任务的参数是一个向量，其点积与 [CLS] 的 token 表示 $C$ 表示每个选择的分数，该分数用softmax层归一化。

我们对模型进行了3个 epoch 的微调，学习率为2e-5，batch size 为16。结果见表4。BERT $_{\text{LARGE}}$ 的性能比作者的基线 ESIM+ELMo 系统高出27.1%，比 OpenAI GPT 高出8.3%。

5 Ablation Studies

在本节中，我们对 BERT 的许多方面进行了消融实验，以便更好地了解它们的相对重要性。其他消融研究见附录C。

（注：什么是消融实验（Ablation experiment）？）

5.1 Effect of Pre-training Tasks

通过使用与 BERT $_{\text{BASE}}$ 完全相同的预训练数据、微调方案和超参数来评估两个预训练目标，我们证明了 BERT 深度双向性的重要性：

No NSP：一种双向模型，使用“masked LM”（MLM）进行训练，但没有“下一句预测”（NSP）任务。

LTR & No NSP：使用标准的从前往后（LTR）LM 而不是 MLM 训练的仅使用上文的模型。仅使用上文的约束也适用于微调，因为删除它会导致预训练/微调不一致，从而降低下游性能。此外，该模型在没有 NSP 任务的情况下进行了预训练。这与 OpenAI GPT 有直接的可比性，但使用我们更大的训练数据集、输入表示和微调方案。

我们首先检查 NSP 任务带来的影响。在表5中，我们发现移除 NSP 会显著影响在 QNLI、MNLI 和 SQuAD 1.1 的表现。接下来，我们通过比较”No NSP”和“LTR & No NSP”来评估训练双向表示的影响。LTR 模式在所有任务上的表现都比 MLM 模式差，在 MRPC 和 SQuAD 上的表现大幅下降。

（注：这里的 + BiLSTM 应该是 LTR & No NSP + BiLSTM）

对于 SQuAD 来说，直觉上很清楚，LTR 模型在 token 预测方面表现不佳，因为 token 级的隐藏状态没有下文信息。为了真正地加强 LTR 系统，我们在顶部添加了一个随机初始化的 BiLSTM。这确实显著改善了 SQuAD 的结果，但结果仍然比预训练的双向模型差得多。BiLSTM 会影响 GLUE 任务的性能。

我们认识到，也可以训练单独的 LTR 和 RTL 模型，并像 ELMo 那样将每个 token 表示为两个模型的串联。然而：（a）这是一个双向模型的两倍计算花费；（b）对于像 QA 这样的任务，这是不直观的，因为 RTL 模型无法将问题的答案作为条件；（c）这严格地说，它不如深度双向模型强大，因为它可以在每一层使用上文和下文。

5.2 Effect of Model Size

在本节中，我们将探讨模型大小对微调任务精度的影响。我们训练了许多具有不同层数、隐藏单元和 attention head 的 BERT 模型，同时使用了与前面描述相同的超参数和训练过程。

所选的 GLUE 任务的结果如表6所示。在此表中，我们展现了5次随机重新启动微调的平均开发集精度。我们可以看到，更大的模型导致所有四个数据集的准确度都有了严格的提高，即使对于 MRPC，它只有3600个被标记的训练示例，并且与训练前任务有很大的不同。与现有文献相比，我们能够在已经相当大的模型之上实现如此显著的改进，这也许也令人惊讶。例如，Vaswani等人（2017年）研究的最大 Transformer 是（L=6，H=1024，A=16）， encoder 参数为100M，我们在文献中发现的最大 Transformer 是（L=64，H=512，A=2），参数为235M（al Rfou等人，2018年）。相比之下，BERT $_{\text{BASE}}$ 包含110M参数， BERT $_{\text{LARGE}}$ 包含340M参数。

（注：模型评估方法之held-out data(留出法)）

人们早就知道，增加模型大小将导致大规模任务（如机器翻译和语言建模）的持续改进，表6中所示的留出法测试集的 LM 困惑度证明了这一点。然而，我们相信，这是第一个令人信服的证明工作，它证明了，如果模型经过充分的预训练，扩展到极端的模型尺寸，也会导致非常小规模任务的大幅改进。Peters等人（2018b）提出了将预训练的 bi-LM 尺寸从两层增加到四层对下游任务影响的混合结果，Melamud等人（2016）顺便提到，将隐藏尺寸从200增加到600有帮助，但进一步增加到1000并没有带来进一步的改善。这两项先前的工作都使用了基于特征的方法——我们假设，当模型直接在下游任务上进行微调，并且只使用非常少的随机初始化的附加参数时，特定于任务的模型可以从更大型的，更具表现力的预训练表示获得不错的效果，即使在下游任务数据非常小的情况下。

5.3 Feature-based Approach with BERT

到目前为止，所有的 BERT 结果都使用了微调方法，即在预先训练的模型中添加一个简单的分类层，并在下游任务中联合微调所有参数。然而，基于特征的方法，即从预先训练的模型中提取固定特征，具有一定的优势。首先，并不是所有任务都可以用 Transformer encoder 体系结构轻松表示，因此需要添加特定于任务的模型体系结构。其次，预先花费高额成本地计算一次训练数据的表示，然后在此表示的基础上使用计算成本更低的模型运行许多实验，这有很大的计算优势。

在本节中，我们通过将 BERT 应用于 CoNLL-2003 命名实体识别（NER）任务（Tjong Kim Sang 和 De Meulder，2003）来比较这两种方法。在 BERT 的输入中，我们使用了一个保留大小写的词条模型，并包含了数据提供的最大文档上下文。按照标准做法，我们将其模拟为标记任务，但不在输出中使用 CRF 层。我们使用第一个子 token 的表示作为 NER 标签集上 token 级分类器的输入。

为了消除微调的影响，我们采用基于特征的方法，从一个或多个层提取激活，而不微调 BERT 任何参数。这些语境化的 embedding 会作为输入，来随机初始化分类层之前的两层768维 BiLSTM 。

结果见表7。 BERT $_{\text{LARGE}}$ 采用最先进的方法进行比较。性能最佳的方法将来自预训练的 Transformer 的前四个隐藏层的 token 表示拼接起来，这仅比微调整个模型落后0.3个 F1。这表明 BERT 对于微调和基于特征的方法都是有效的。

6 Conclusion

由于语言模型的迁移学习而带来的最近的实验的改进，这种改进表明了，丰富的、无监督的预训练是许多语言理解系统的一个组成部分。特别是，这些结果使得即使是低资源任务也能从深层单向体系结构中获益。我们的主要贡献是将这些发现进一步推广到深入的双向体系结构中，使相同的预训练模型能够成功地处理广泛的NLP任务。

Appendix for “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”

我们将附录分为三个部分：

• BERT 的其他实施细节见附录A；

• 附录B中给出了我们实验的其他细节；并且

• 附录C中介绍了其他消融研究。

我们为BERT提供了额外的消融研究，包括：

–训练步骤数量的影响；和

–不同 masking 过程的消融。

A Additional Details for BERT

A.1 Illustration of the Pre-training Tasks

我们在下面提供了预训练任务的示例。

Masked LM and the Masking Procedure $\quad\quad$ 假设未标记的句子是 my dog is hairy，在随机 masking 过程中，我们选择了第4个 token（对应于hairy），我们的 masking 过程可以通过

• 80%的情况：将单词替换为 [MASK] token，例如，my dog is hairy→ my dog is [MASK]

• 10%的情况：用随机词替换该词，例如，my dog is hairy→ my dog is apple

• 10%的情况：保持单词不变，例如，my dog is hairy→ my dog is hairy。这样做的目的是使表示偏向实际观察到的词。

此过程的优点是，Transformer encoder 不知道将要求其预测哪些字，或者哪些字已被随机字替换，因此它必须保持每个输入 token 的分布式语境化表示。此外，由于随机替换只发生在所有 token 的1.5%（即15%中的10%），因此这似乎不会损害模型的语言理解能力。在第C.2节中，我们评估了此步骤的影响。

与标准语言模型训练相比，masked LM 仅对每批中15%的 token 进行预测，这表明可能需要更多的预训练步骤才能使模型收敛。在第C.1节中，我们证明 MLM 确实比从前往后的模型（预测每一个 token）收敛得稍慢，但 MLM 模型依据实验的改进远远超过了增加的训练成本。

Next Sentence Prediction $\quad\quad$ 下面的例子可以说明下一个句子预测任务。

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]

Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]

Label = NotNext

A.2 Pre-training Procedure

为了生成训练的每个输入序列，我们从语料库中抽取两段的文本，我们称之为“句子”，尽管它们通常比单个句子长很多（但也可以更短）。第一个句子接收 A embedding，第二个句子接收 B embedding。50%的情况 B 是 A 后面的实际下一个句子，50%的情况 B 是随机句子，这是“下一句预测”任务的训练步骤。对其进行采样，使 AB 组合的长度为≤ 512个 token。LM masking 是在 WordPiece 被 tokenize 之后使用的，掩蔽率为15%，即使只给予部分采样词条也不会有特殊考虑。

我们以 batch size 为256的序列（256个序列 * 512个 token =128000个 token/batch）进行1000000个时间步的训练，这在33亿字的语料库中大约是40个 epoch。我们使用 Adam 优化器，学习率为1e-4， $\beta _1=$ 0.9， $\beta _2=$ 0.999，L2 权重衰减为0.01，前10000步的学习率预热，以及学习率的线性衰减。我们在所有层上使用0.1的 dropout 率。我们使用 gelu 激活（Hendrycks和Gimpel，2016），而不是遵循 OpenAI GPT 的标准 relu。训练损失是平均 masked LM 似然和平均下一句预测似然的总和。

BERT $_{\text{BASE}}$ 的训练在 Pod 配置的4个云 TPU 上进行（总共16个 TPU 芯片） $^{13}$ 。BERT $_{\text{LARGE}}$ 的13个训练在16个云 TPU 上进行（总共64个TPU芯片）。每次预训练需要4天才能完成。

$^{13}$ https://cloudplatform.googleblog.com/2018/06/Cloud-TPU-now-offers-preemptible-pricing-and-global-availability.html

较长的序列成本过高，因为 attention 是序列长度的二次方。为了在我们的实验中加速预训练，我们对90%的时间步进行了序列长度为128的预训练。然后，其余10%的时间步我们训练长度为512的序列来学习位置 embedding。

A.3 Fine-tuning Procedure

对于微调，除 batch size、学习率和训练次数外，大多数模型超参数与训练前相同。dropout 概率始终保持在0.1。最佳超参数值是特定于任务的，但我们发现以下可能值范围适用于所有任务：

• Batch size: 16, 32
• Learning rate (Adam): 5e-5, 3e-5, 2e-5
• Number of epochs: 2, 3, 4

我们还观察到，与小数据集相比，大数据集（例如，100k+标记的训练示例）对超参数选择的敏感性要低得多。微调通常非常快，因此只需对上述参数进行彻底搜索并选择在开发集上表现最佳的模型是合理的。

A.4 Comparison of BERT, ELMo ,and OpenAI GPT

在这里，我们研究了最近流行的表征学习模型的差异，包括 ELMo、OpenAI GPT 和 BERT。模型架构之间的比较如图3所示。请注意，除了架构上的差异外，BERT 和 OpenAI GPT 是微调方法，而 ELMo 是基于特性的方法。

与 BERT 最相似的现有预训练方法是 OpenAI GPT，它在大型文本语料库上训练从前往后的 Transformer LM。事实上，BERT 中的许多设计决策都是为了使其尽可能接近 GPT，以便将这两种方法进行最低限度的比较。这项工作的核心论点是，第3.1节中介绍的双向性和两项预训练任务占了大部分实验改进，但我们确实注意到，BERT 和 GPT 的训练方式还有其他一些差异：

• GPT 在图书语料库（800M个词）上接受训练；BERT 接受了图书语料库（8亿个词）和维基百科（2.5亿个词）的训练。

• GPT 使用仅在微调时引入的句子分隔符（[SEP]）和分类器标记（[CLS]）；BERT 在预训练期间学习 [SEP]、[CLS] 和句子A/B embedding。

• GPT 接受1M时间步的训练，批量大小为32000个词；伯特接受了1M时间步的训练，批量大小为128000个词。

• GPT 在所有微调实验中使用相同的5e-5学习率；BERT 选择特定于任务的微调学习速率，该速率在开发集上表现最佳。

为了隔离这些差异的影响，我们在第5.1节中进行了每种形式的消融实验，实验证明，大多数改进实际上来自两项预训练任务以及它们所带来的双向性。

A.5 Illustrations of Fine-tuning on Different Tasks

在图4中可以看到对不同任务进行微调的示例。我们的特定任务模型是通过将 BERT 与一个额外的输出层合并而成的，因此需要从头学习最少数量的参数。在这些任务中，（a）和（b）是序列级任务，而（c）和（d）是 token 级任务。在图中，E 表示输入 embedding， $T_i$ 表示 token i 的语境化表示，[CLS] 是用于分类输出的特殊符号，[SEP] 是用于分离非连续 token 序列的特殊符号。

B Detailed Experimental Setup

B.1 Detailed Descriptions for the GLUE Benchmark Experiments.

表1中的 GLUE 结果来自 https://gluebenchmark.com/leaderboard 和 https://blog. openai.com/language-unsupervised。GLUE 基准包括以下数据集，其描述最初在Wang等人（2018a）中进行了总结：

MNLI $\quad\quad$ 多体裁自然语言推理（Multi-Genre Natural Language Inference）是一项大规模的众包蕴涵分类任务（Williams et al.，2018）。给定一对句子，目标是预测第二句相对于第一句是包含句、矛盾句还是中性句。

QQP $\quad\quad$ Quora 问题（Quora Question Pairs）对是一项二元分类任务，其目标是确定在 Quora 上提出的两个问题在语义上是否相等（Chen等人，2018年）。

QNLI $\quad\quad$ 问题自然语言推理（Question Natural Language Inference）是斯坦福问答数据集（Rajpurkar等人，2016）的一个版本，该数据集已转换为二元分类任务（Wang等人，2018a）。正面例子是（问题、句子）对，包含正确答案，反面例子是（问题、句子）来自同一段落，不包含答案。

SST-2 $\quad\quad$ 斯坦福情感树库（Stanford Sentiment Treebank）是一个二元单句子分类任务，由从电影评论中提取的句子组成，并对其情感进行人为注释（Socher等人，2013）。

CoLA $\quad\quad$ 语言可接受性语料库（Corpus of Linguistic Acceptability）是一项二元单句分类任务，其目标是预测英语句子在语言上是否“可接受”（Warstadt et al.，2018）。

STS-B $\quad\quad$ 语义-文本相似度基准（Semantic Textual Similarity Benchmark）是从新闻标题和其他来源提取的句子对的集合（Cer等人，2017年）。他们被标注了一个1到5的分数，表示这两个句子在语义上有多相似。

MRPC $\quad\quad$ 微软研究释义语料库（Microsoft Research Paraphrase Corpus）由自动从在线新闻来源中提取的句子对组成，有人为注释，判断其中的句子对是否语义对等（Dolan和Brockett，2005）。

RTE $\quad\quad$ 识别文本蕴涵（Recognizing Textual Entailment）是一项类似于MNLI的二元蕴涵任务，但训练数据要少得多（Bentivogli et al.，2009） $^{14}$ 。

WNLI $\quad\quad$ Winograd NLI （Winograd Natural Language Inference）是一个小型自然语言推理数据集（Levesque et al.，2011）。GLUE 网页指出，该数据集的构建存在问题 $^{15}$ ，并且提交给 GLUE 的每一个经过训练的系统的性能都低于预测大多数类别的65.1基线精度。因此，为了对OpenAI GPT公平，我们排除了该集合。对于我们的 GLUE 提交，我们总是预测大多数类别。

$^{14}$ 注意，在本文中我们只展现单任务微调结果。多任务微调方法可能会进一步提高性能。例如，我们确实观察到 MNLI 的多任务训练对 RTE 的实质性改进。

C Additional Ablation Studies

C.1 Effect of Number of Training Steps

图5显示了从试点进行微调后的 MNLI Dev 精度，该检查点已针对 $k$ 个步骤进行了预训练。这使我们能够回答以下问题：

1.问题：BERT 真的需要如此大量的预训练（128000词/批 * 1000000步）来实现高微调精度吗？

答：是的，与500k步相比，BERT $_{\text{BASE}}$ 在1M步训练中的 MNLI 准确度提高了近1.0%。

2.问题：MLM 预训练的收敛速度是否比 LTR 预训练慢，因为每个批次中只有15%的单词被预测，而不是每个单词？

答：MLM 模式的收敛速度确实略慢于 LTR 模式。然而，就绝对准确度而言，MLM 模式几乎一开始就超越 LTR 模式。

C.2 Ablation for Different Masking Procedures

在第3.1节中，我们提到，当使用 masked 语言模型（MLM）目标进行预训练时，BERT 使用混合策略来 mask 目标 token。以下是评估不同 masking 策略效果的消融研究。

注意，masking 策略的目的是减少预训练和微调之间的不匹配，因为在微调阶段，[MASK] 符号从未出现。我们展示了 MNLI 和 NER 的 Dev 结果。对于 NER，我们展示了微调和基于特征的方法，因为我们预计基于特征的方法的不匹配将被放大，因为模型将没有机会调整表示。

结果如表8所示。在表中，MASK 表示我们用 MLM 的 [MASK] 符号替换目标 token；这意味着我们保持目标 token 不变；RND 意味着我们用另一个随机 token 替换目标 token。

表格左半部分的数字代表 MLM 预训练期间使用的特定策略的概率（BERT 使用80%、10%、10%）。本文右侧部分表示开发集结果。对于基于特征的方法，我们将最后4层 BERT 连接为特征，这在第5.3节中被证明是最好的方法。

从表中可以看出，微调对不同的 masking 策略具有惊人的鲁棒性。然而，正如预期的那样，在将基于特征的方法应用于 NER 时，仅使用 masking 策略是有问题的。有趣的是，仅使用 RND 策略的性能也比我们的策略差得多。

pytorch API:

transformers官方文档
bert-base-chinese预训练模型下载地址

Pytorch-Bert预训练模型的使用（调用transformers）
Pytorch-Bert预训练模型的使用（调用transformers）
基于pytorch的中文语言模型预训练
pytorch中文语言模型bert预训练代码
transformers下载中文预训练BERT模型 (pytorch) bert-base-chinese

tensorflow API

你可能感兴趣的:(论文笔记,自然语言处理,bert,transformer)

大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
FTTR（Fiber to the Room）一主一从
FTTR（FibertotheRoom）一主一从是家庭或企业光纤组网中的一种设备配置方式，具体含义如下：1.基本概念FTTR：指光纤直接延伸到每个房间（替代传统网线），实现全屋千兆/万兆覆盖。一主一从：由一台主光猫（主网关）和一台从光猫（从网关）组成的网络架构，通过光纤连接，形成主从协作的网络系统。2.主设备和从设备的作用主光猫（主网关）直接连接运营商的光纤入户线路，负责拨号、路由、Wi-Fi覆盖
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【网络安全】网络安全中的离散数学 flyair_China 安全架构
一、离散数学核心知识点与网络安全映射1.数论（NumberTheory）知识点安全应用场景实例说明质因数分解RSA公钥加密大整数分解难题（2048位密钥需数万年破解）模运算Diffie-Hellman密钥交换利用(gamodp)实现安全协商欧拉定理RSA加密/解密me*d≡m(modn)保障解密还原中国剩余定理高效解密优化RSA-CRT加速解密运算达70%2.代数结构（AlgebraicStruc
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective 无敌悦悦王文献阅读 cnn 人工智能神经网络计算机视觉图像处理 python 深度学习
摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联，但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计，并强调其在移动设备上的应用前景。具体而言，我们通过整合轻量级ViT的高效架构设计，逐步
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
LLaMA Factory 微调后，迁移模型激进小猪1002 llama llamafactory 人工智能 python
方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
大模型笔记10：LoRA微调 errorwarn 笔记
LoRA微调的原理矩阵的秩矩阵的秩代表一个矩阵中所含信息的大小。行秩：矩阵中互相不重复、不依赖（即线性无关）的行的最大数目。列秩：矩阵中互相不重复、不依赖的列的最大数目。事实上，行秩和列秩总是相等的，因此我们通常直接称之为“矩阵的秩”。Transformer中微调哪些参数：LoRA的改进版本
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
基于Transformer实现机器翻译 yyyyurina. transformer 机器翻译深度学习
目录一、前言1.1什么是Transformer?1.2Transfomer的基本结构1.2Transformer的重要组成部分1.2.1位置编码（PositionalEncode）1.2.2自注意力机制（Self-Attention）1.2.3多头注意力（Multi-HeadAttention）1.2.4位置感知前馈层（Position-wiseFFN）1.2.5残差连接与层归一化二、AutoDL
LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM ctrl A_ctrl C_ctrl V #大模型llm python 自然语言处理人工智能
文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑1.HuggingFace模型下载模型在HuggingFace下载，如果下载速度太慢，可以在HuggingFace镜像网站或ModelScope进行下载。使用HuggingFace的下载
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
不用公式！用生活例子讲透Transformer，大模型为何强大九章云极DataCanvas 技术干货人工智能
想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须
入选 ICML 2025！哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型，神经认知结果预测任务上性能提升 15% hyperai
在人工智能技术突飞猛进的当下，大型视觉-语言模型（LVLMs）正以惊人的速度重塑多个领域的认知边界。在自然图像与视频分析领域，这类模型依托先进的神经网络架构、海量标注数据集与强大算力支持，已能精准完成物体识别、场景解析等高阶任务。而在自然语言处理领域，LVLMs通过对TB级文本语料的学习，在机器翻译、文本摘要、情感分析等任务上达到专业级水准，其生成的学术摘要甚至能精准提炼医学文献的核心结论。然而当
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

电信保温杯笔记——NLP经典论文：BERT