读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)

第一遍

标题以及作者(2021 11.25)

读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第1张图片

摘要

  1. 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT。
  2. 提出了一种新的掩码策略,MLM as correction

结论

  1. 本文将MLM任务改为纠错任务,降低了预训练和微调之间的差异。
  2. 探索一种有效的方法来确定遮蔽比率。

1. 介绍

本文贡献点:

  1. 本文研发并公布了一系列中文预训练模型,用作比较模型性能。
  2. 本文提出了一种新的预训练模型MacBERT,通过掩盖词语的近义词任务,降低了预训练和微调之间的差异。
  3. 本文还研发了一系列小的模型RBT,有利于在现实生活中使用到它们

2. 相关工作

  1. BERT
    1. BERT主要的两个训练任务,MLM和NSP
  2. ERNIE(Enhanced Representation through kNowledge IntEgration
    1. 通过优化掩盖过程(实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略])
  3. XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
    1. Permutation Language Model
    2. 将自编码修改为自回归
  4. RoBERT(Robustly Optimized BERT Pretraining Approach)
    1. 使用更大的batch、更长的序列
    2. 去除NSP任务
  5. ALBERT(A Lite BERT,主要为了降低BERT内存消耗和训练速度慢的问题)
    1. 将嵌入层矩阵分解为两个小矩阵
    2. 跨层参数共享,在不同层中参数共享
    3. 提出了SOP任务(sentence-order prediction)去替代NSP任务
  6. ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
    1. 采用生成器-鉴别器的结构,类似于GAN
    2. 使用一个小的MLM去预测被掩盖住的词,使用一个鉴别器来分辨输入的token是否被生成器替换(Replaced Token Detection,RTD),二分类问题。
    3. 在微调阶段,舍弃生成器,仅用鉴别器进行微调。

第二遍

3. 中文预训练模型

  1. BERT-wwm & RoBERTa-wwm
    1. 中文没法使用子词分割,因此使用词级别的分割和CWS(Chinese Word Segmentation),本文使用LTP工具
  2. ELECTRA
  3. RBT Series
    1. 更小的BERT-like模型,例如:RBT3(3层RoBERTa-base)、RBT4、RBT6、RBTL3(3层RoBERTa-large)

4. MacBERT

  1. 模型结构

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第2张图片

  2. MLM as correction

    1. 本文采用wwm(N-gram)遮蔽策略, 从一个词到4个词对应的掩盖概率为40%-10%;未来还将尝试新的遮蔽策略PMI-masking
    2. 本文采用词的近义词(通过使用Synonyms工具)进行遮蔽,在极少数情况下,没有近义词时使用随机的词替换。
    3. 本文对输入15%的词进行遮蔽,对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
  3. Sentence Order Prediction(SOP)

    1. 正样本:由两个连续的文本组成;负样本:通过交换原始文本顺序得到
  4. Neural Architecture

    1. 获取文本上下文表示
      X = [  CLS  ] A 1 … A n [  SEP  ] B 1 … B m [  SEP  ] H ( 0 ) = Embedding ⁡ ( X ) H ( i ) =  Transformer  ( H ( i − 1 ) ) , i ∈ { 1 , … , L } \begin{gathered} X=[\text { CLS }] A_{1} \ldots A_{n}[\text { SEP }] B_{1} \ldots B_{m}[\text { SEP }] \\ \boldsymbol{H}^{(0)}=\operatorname{Embedding}(X) \\ \boldsymbol{H}^{(i)}=\text { Transformer }\left(\boldsymbol{H}^{(i-1)}\right), \quad i \in\{1, \ldots, L\} \end{gathered} X=[ CLS ]A1An[ SEP ]B1Bm[ SEP ]H(0)=Embedding(X)H(i)= Transformer (H(i1)),i{1,,L}

    2. MLM as correction任务损失定义
      p i = H i m W e T + b L = − 1 M ∑ i = 1 M y i log p i \boldsymbol{p}_i = \boldsymbol{H}_i^m\boldsymbol{W}^{e^T} + \boldsymbol{b} \\ \mathcal{L} = -\frac{1}{M}\sum_{i=1}^{M}\boldsymbol{y}_i\text{log}\boldsymbol{p}_i pi=HimWeT+bL=M1i=1Myilogpi

    3. SOP输出定义,SOP损失也采用交叉熵损失函数
      p = s o f t m a x ( h 0 W s + b s ) \boldsymbol{p} = \bold{softmax}(\boldsymbol{h}_0\boldsymbol{W}^s+\boldsymbol{b}^s) p=softmax(h0Ws+bs)

    4. 网络损失函数
      L = L m a c + L s o p \mathcal{L} = \mathcal{L}_{mac} + \mathcal{L}_{sop} L=Lmac+Lsop

5. 实验

  1. 数据处理

    1. 本文中文维基百科(0.4B)和其他中文资源(5.6B)
    2. 分词采用LTP
  2. 训练过程

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第3张图片

  3. 微调过程

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第4张图片

6. 结果

  1. Machine Reading Comprehension

    Machine Reading Comprehension(MRC)是一种具有代表性的文档级建模任务,需要根据给定的文章回答问题。

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第5张图片

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第6张图片

  2. Single Sentence Classification

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第7张图片

  3. Sentence Pair Classification

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第8张图片

  4. 小模型上的结果

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第9张图片

7. 讨论

  1. 消融实验

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第10张图片

  2. 探究了不同的遮挡策略

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第11张图片

  3. Analyses on Chinese Spell Check

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)_第12张图片

第三遍

小结:

  1. 本文使用一种新的MLM方法,将随机掩码替换为近义词,本文认为这里将一个自编码任务变成了一个纠错任务,可以更好地保留上下文信息,在中文数据集中表现很好。
  2. 本文公布了很多种中文预训练模型,并比较它们在不同任务上的效果,有利于其他人继续在中文预训练模型上进行开阔。

你可能感兴趣的:(#,自然语言处理,bert,深度学习,自然语言处理)