BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 阅读笔记

BERT: 论文阅读笔记

1. abstract

​ BERT是由Google AI Language发布,BERT即 Bidirectional Encoder Representations from Transformers. 预先训练好的BERT模型只需要一个额外的输出曾就可以微调,无需对特定任务的体系结构进行大量修改。将GLUE score、MultiNLI accuracy、SQuAD V1.1 F1、SQuAD V2.0 F1 绝对提高7.7%,4.6%,1.5%,5.1%。

2. Introduction

  • 将预先训练好的语言表达应用于下游任务的现有策略有两种:基于特征的和微调的.
  • BERT使用masked language model预训练目标缓解(alleviate)了单向性限制(?)
  • demonstrate the importance of bidirectional pre-training for language representations.
  • 减少了特定任务架构的需求,在sentence-level和token-level实现了较为先进的性能.

3. Related Work

  • 主要分为无监督的基于特征的方法、无监督的基于微调、有监督数据中进行迁移学习.

  • 广泛适用的单词表示包括non-neural和neural.

  • 为了预训练词向量,使用了left-to-right language模型.

  • 首先pre-training BERT模型,在应对不同的任务时对参数进行微调.

  • 在大数据集下,监督任务的迁移时有效的.

4.BERT

  • BERT框架有两个步骤:Pre-training和fine-tuning. 预训练过程中,在无标记数据上进行训练,得到预训练好的参数,之后针对不同的下游任务的标记数据进行微调,每个下游任务都有单独的微调模型,且他们都是由相同的预训练参数分化来的.

  • BERT的显著特征是其具有跨不同任务的统一架构,预训练的体系结构和最终的模型存在最小的minimal差异.

  • BERT的模型架构是基于Vaswani实现的原始应用的多层双向转换编码器.

  • L : t h e   n u m b e r   o f   l a y e r s H : t h e   h i d d e n   s i z e A : t h e   n u m b e r   o f   s e l f − a t t e n t i o n   h e a d s L:the\ number\ of \ layers\\ H:the\ hidden\ size\\ A:the\ number\ of\ self-attention\ heads L:the number of layersH:the hidden sizeA:the number of selfattention heads

  • B E R T B A S E : ( L = 12 , H − = 768 , A = 12 , t o t a l p a r a m e t e r s = 110 M ) BERT_{BASE}:(L=12,H-=768,A=12,total parameters=110M) BERTBASE:(L=12,H=768,A=12,totalparameters=110M)

  • B E R T L A R G E : ( L = 24 , H = 1024 , A = 16 , t o t a l p a r a m e t e r s = 340 M ) BERT_{LARGE}:(L=24,H=1024,A=16,total parameters=340M) BERTLARGE:(L=24,H=1024,A=16,totalparameters=340M)

  • B E R T BERT BERT中的 s e n t e n c e sentence sentence可以是连续文本的任意跨度,而不是实际语言中的句子。 s e q u e n c e sequence sequence指的是 B E R T BERT BERT的输入标记,可以是单个句子或者两个句子的组合。

  • BERT使用了有30000个标记词汇的词块嵌入.

  • BERT使用了两种方法区分句子:

    • 使用了一个特殊标记[SEP]将句子分开。
    • 增加了一个学习过的embedding给每个token来表示其属于句子A还是B
  • 对于给定的token,它的输入表示是由相应的token求和、段落以及位置向量构造的。

4.1 Pre-training BERT

  • 使用了无监督的人任务来与训练BERT
  • 深度双向模型比left-to-right模型、浅链接的left-to-right和right-to-left模型更powerful.
  • MLM:随机屏蔽一部分的输入标记,然后预测被屏蔽的标记,还被称为完形填空。屏蔽了 15 % 15\% 15%。这可以得到双向预训练模型,但是缺点是在与训练和微调之间产生了不匹配。
  • NSP:下一句预测任务。
  • 预训练数据:BookCorpus(800M words)和English Wikipedia(2500M words),维基百科的数据只提取了文本的段落。

4.2 Fine-tuning BERT

  • BERT使用了self-attention mechanism来统一单文本和文本对。
  • 对于每个任务,只需要将特定任务的输入输出插入到BERT中,端对端的微调所有参数。

你可能感兴趣的:(论文阅读笔记)