从零训练模型:BERT模型【任务:①MLM(掩码语言模型)、②NSP(下一句预测)】

想要继续训练BERT的话首先需要弄懂NSP和MLM这两个预训练任务的原理,然后再根据这两个任务来通过自己的语料从头训练一个BERT模型或者是以开源的模型参数为基础进行追加训练。下面,掌柜就分别从MSL和NSP任务的数据构造、模型实现和网络训练等方面来一一进行介绍。

1 引言

经过前面六篇文章的介绍,我们已经清楚了:

  • BERT的基本原理[1]、
  • 如何从零实现BERT[2]、
  • 如何基于BERT预训练模型来完成文本分类任务[3]、
  • 文本蕴含任务[4]、
  • 问答选择任务(SWAG)[5]
  • 问题回答任务(SQuAD)[6]

算是完成了BERT模型第一部分内容(如何在下游任务中运用预训练BERT)的介绍。

在接下来的这篇文章中,掌柜将开始就BERT模型的第二部分内容,即如何利用Mask LM和NSP这两个任务来训练BERT模型进行介绍。

通常,你既可以通过MLM和NSP任务来从头训练一个BERT模型,当然也可以在开源预训练模型的基础上再次通过MLM和NSP任务来在特定语料中进行追加训练,以使得模型参数更加符合这一场景。

在文章BERT的基本原理[1]中,掌柜已经就MLM和NSP两个任务的原理做了详细的介绍,所以这里就不再赘述。

一句话概括,如图1所示MLM就是随机掩盖掉部分Token让模型来预测,而NSP则是同时输入模型两句话让模型判断后一句话是否真的为前一句话的下一句话,最终通过这两个任务来训练BERT中的权重参数。

你可能感兴趣的:(LLM,bert,深度学习,机器学习)