文献记录-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

文献地址:

https://arxiv.org/pdf/1810.04805.pdf

摘要:

bert 是用transformer的encoder 来构建的双向预训练模型,训练过程是无监督的,并且可以通过fine-tune的方式去获得较好的多个下游任务的效果.


简介:

预训练模型对于NLP的数据特征的提取有着很大作用,为了找到,句子和句子,词语和词语之间的联系.

现有的预训练模型有两种:基于特征的(elmo);微调(GPT)
特点:
1:Bert使用了掩语预测的模型.
2:双向
3:预训练

模型:

bert 包括两个步骤,预训练和微调

在预训练阶段,通过不同的任务对未标记的模型进行训练
微调时,用预训练得到参数初始化模型的参数,然后再根据下游任务对参数进行微调

文献记录-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第1张图片[CLS]是开始标记,[SEP]是分割标记

文献记录-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第2张图片
bert 模型的输入格式如上,Token 表示词语的标记符号 ,Segment 是句子的编号(一句话就全是0,两句话就0...01...1),position一般不需要给会有默认值.


预训练过程

预训练过程包括: Masked Language Model (MLM) 和 Next Setence Prediction (NSP)

MLM:
为了训练深度双向表示,文章中按照一定的百分比(15%)随机的mask一些token(把原始的token改成 [MASK] ),这些masked的特征最后会计算是每个词语的概率.但是由于mask这个操作只有在预训练过程中使用到,而微调过程不会用到.这可难会造成一些信息表达的误差.为了解决这样的问题,模型也不会总是去mask 15%的token,而是在这15%中,有80%的token会用[MASK]替代,10%的token会用一个随机token替代,10%的token会不变.(这个措施有实验结果证明对后续的微调是有效果提升的)

NSP:
目标一般是QA会在其他句子对的问题:
其中会有50%的句子是真实的下一句化,50%的句子是语料库中的随机句子.分别被标记为"IsNext" 和 “NotNext”

微调

按照输入要求输入数据即可.

你可能感兴趣的:(文献记录)