读论文——BERT

第一遍

  • 标题

    BERT :Pre-training of Deep Bidirectional Transformers for Language Understanding

  • 作者

    Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

    单位:Google AI Language

  • 摘要

    和其他论文的区别以及自己的结果。

    1. BERT被设计用来预训练未标记文本的深度双向表示,通过联合作用于所有层的左右上下文。
    2. 只需要一个额外的输出层就可以对预训练的BERT模型进行微调,从而为广泛的任务创建最先进的模型,无需对特定任务的体系结构进行实质性修改。例如:问题回答和语言推理。
    3. 在11个自然语言处理任务上获得的最新的结果,包括:GLUE、MultiNLI、SQuAD v1.1、SQuAD v2.0
  • 结论

    1. 复杂的、无监督的预训练模型已经成为NLP的一个重要组成部分,它可以在低资源任务上(小数据集)进行推理和泛化。
    2. 本文提出进一步提出一个深度双向的模型,允许使用相同的预训练模型处理广泛的NLP任务

第二遍

重要图表

  1. Fig 1

    读论文——BERT_第1张图片

    • 左图表示预训练模型,右图是微调模型。
    • 除了最后的输出层,它们有着相同的架构
    • 同样的预训练模型的所有参数去初始化微调模型,然后用于各种下游任务
    • 在微调期间,所有的参数都会被调整。(那么预训练就是选择了一个好的初始点)
    • [CLS]在每个输入开头,[SEP]用来分割问题和答案
  2. Fig 2

    读论文——BERT_第2张图片

    BERT的输入表示。

  3. Table 1

    读论文——BERT_第3张图片

    排行榜GLUE

    • 任务下面的数字表示训练示例的数量
  4. Table 2

    读论文——BERT_第4张图片

    SQuAD v1.1结果

    BERT Ensemble集成了7个模型

  5. Table 3

    读论文——BERT_第5张图片

    SQuAD v2.0

    排除了BERT左右组件的结果?

  6. table 4

    读论文——BERT_第6张图片

    SWAG Dev 和 测试准确率

  7. table 5

    读论文——BERT_第7张图片

    Ablation

  8. table 6

    读论文——BERT_第8张图片

  9. table 7

    读论文——BERT_第9张图片

问题

第三遍

1. 介绍

  • 目前的两类的预训练模型,一种是基于特征提取,另一种是基于微调的。
  • 主要贡献:
    1. BERT使用MLM来预训练双向表示。
    2. 预训练表示,减少了许多重度工程化的特定任务架构的需求。

2. 相关工作

  • 基于无监督特征的方法
    1. 词嵌入
    2. ElMo
  • 基于无监督微调的方法
    1. GPT
  • 从有监督数据的迁移学习

3. BERT

  • 在无监督数据上进行训练,然后针对下游任务进行微调

  • 模型框架:

    • L表示transformer块层数
    • H表示隐藏层尺寸
    • A表示自注意力层头数
    • B E R T b a s e L = 12 , H = 768 , A = 12 BERT_{base} \\ L=12,H=768, A = 12 BERTbaseL=12,H=768,A=12
    • B E R T l a r g e L = 24 , H = 1024 , A = 16 BERT_{large} \\ L=24, H=1024, A = 16 BERTlargeL=24,H=1024,A=16
  • BERT计算量(可学习参数):

    • 嵌入层 :30k * H
    • 自注意力层:本来自注意力层没有可学习参数,但是其中对QKV做了投影,投影维度等于 A * 64 = H,参数量为H * H * 3(输入也是自己维度是H,3:表示KQV),然后计算出注意力分数后,计算输出投影(H * H)。因此可学习参数的总量为H * H * 4
    • feed forward position-wise层:H * 4H (隐藏层维度) * 2(两个全连接层)
  • 输入输出表示:

    • 采用WordPiece嵌入方法
    • 输入表示等于位置编码+分段编码+词元编码
  • 预训练BERT

    • 任务一:MLM (Masked language model)——用来句内双向编码

      1. 随机屏蔽每个序列中15% 的WordPiece词元

      2. 由于微调过程中,没有用到[MASK],因此在预训练过程中,掩盖的概率发生调整。

        1. 选择15%tokens进行掩盖

        2. 对每个掩盖的词有三种掩盖方式:

          概率 方法
          80% [MASK]
          10% 一个是随机的token
          10% 不改变原token
    • 任务二:NSP (next sentence prediction)——用来理解句子间关系

      1. 单语料库中简单生成的二进制下一句预测
      2. 训练时,下一句有50%(IsNext),50%(NotNext)
    • 预训练数据

      1. BooksCorpus(800M words) 和 English Wikipedia (2,500M words)
  • 微调BERT

    • 输入模式:
      1. 意译中的句子对(sentence pairs in paraphras-ing)
      2. 蕴涵中的假设-前提对
      3. 问题-回答对
      4. 在文本分类和序列标注中的text- ∅ \emptyset
    • 输出模式:
      1. token表示token-level任务,例如:序列标注、问题回答
      2. [CLS]用来表示分类任务,例如:蕴含关系和情感分析

4. 实验

  1. GLUE

    任务 具体描述
    MNLI(Multi-Genre Natural Language Inference) 大的、众包的蕴含分类任务,给一个句子对,预测第二个句子相较于第一个句子是,entailment contradiction or neutral(蕴含、矛盾、中立)
    QQP(Quora Question Pairs) 在Quora上的两个问题,在语义上是否等价
    QNLI(Question Natural language Inference) 取自于斯坦福问答数据集,包含问题-答案和问题-文段中的其他句子,组成一个二分类任务
    SST-2(The Stanford Sentiment Treebank ) 取自于电影评论和人类标注的情感数据集,单句子的情感份分类
    CoLA(The Corpus of Linguistic Acceptability) 单句子是否符合语言学
    STS-B(The Semantic Textual Similarity Benchmark) 从新闻标题和其他资源中抽取的句子对,文本语义相似性基准,两个句子在语义上有多相似(1-5表示,越大越相似)
    MRPC(Microsoft Research Paraphrase Corpus) 摘自网上新闻,两个句子在语义上是否等价
    RTE(Recognizing Textual Entailment) 识别文本蕴含关系
    WNLI(Winograd NLI) 小型自然语言推理数据集
  2. SQuAD v1.1

    • 在微调过程中,只引入一个初始向量S和一个结束向量E。

    • 计算开始(S)和结束词(E)的概率公式:

      P i = e S ⋅ T i ∑ j e S ⋅ T j P_i = \frac{e^{S \cdot {T_i}}}{\sum_je^{S \cdot T_j}} Pi=jeSTjeSTi

    • 候选目标的分数从位置i到位置j被定义为 S ⋅ T i + S ⋅ T j S\cdot T_i + S \cdot T_j STi+STj,当j>=i,最大化这个分数,作为预测结果

  3. SQuAD v2.0

    • 允许在所提供的段落中不存在简短答案的可能性,使问题更加现实

    • 公式:

      s n u l l = S ⋅ C + E ⋅ C s_{null} = S \cdot C + E \cdot C snull=SC+EC

      s i , j ^ = m a x j ≥ i S ⋅ T i + E ⋅ T j \hat{s_{i,j} } = max_{j \geq i} S \cdot T_i + E \cdot T_j si,j^=maxjiSTi+ETj

      s i , j ^ > s n u l l + τ \hat{s_{i,j} } > s_{null} + \tau si,j^>snull+τ

  4. SWAG

5. Ablation 研究

  • Ablation studies 为了研究模型中所提出的一些结构是否有效而设计的实验
  1. 预训练任务的作用

    读论文——BERT_第10张图片

  2. 模型规模的作用

    读论文——BERT_第11张图片

  3. 基于特征的BERT

    读论文——BERT_第12张图片

你可能感兴趣的:(#,自然语言处理,神经网络,深度学习,自然语言处理)