屏蔽预训练模型的权重。 只训练最后一层的全连接的权重。_BERT模型

我发现如果不对吸收的知识进行总结,隔一段时间又会忘记,重来,真是无限的循环

这篇文章是读了 @张俊林 https://zhuanlan.zhihu.com/p/49271699 之后的总结。

BERT模型是一个两阶段模型,1.语言模型预训练(一般NLP中的预训练都是采用语言模型的任务来做) 2.使用Fine-tuning 模式解决下游任务。在11项NLP tasks中取得了state-of-the-art的结果,包括NER、问答等领域的任务。

首先了解一下什么是LM(language model)语言模型

直观的解释就是判断这是不是人话:P(猫喜欢吃鱼)>P (鱼喜欢吃猫),一般而言,P的核心思想是根据句子前面的一系列前导单词预测后面跟哪个单词的概率大小,句子中的每个单词都有根据上文预测自己的过程,把这些所有单词的概率乘起来,数值越大,越像一句人话。LM有很多方法,主要介绍NNLM。

1) 神经网络语言模型(NNLM)

你可能感兴趣的:(屏蔽预训练模型的权重。,只训练最后一层的全连接的权重。)