一段话解释什么是预训练模型?

假设已有A训练集,先用A对网络进行预训练,在A任务上学会网络参数,然后保存以备后用,当来一个新的任务B,采取相同的网络结构,网络参数初始化的时候可以加载A学习好的参数,其他的高层参数随机初始化,之后用B任务的训练数据来训练网络,当加载的参数保持不变时,称为"frozen",当加载的参数随着B任务的训练进行不断的改变,称为“fine-tuning”,即更好地把参数进行调整使得更适合当前的B任务。

案例: bert模型
源码:https://github.com/google-research/bert
论文:https://arxiv.org/abs/1810.04805

(1)优点
BERT是截止至2018年10月的最新的的state of the art模型,通过预训练和精调可以解决11项NLP的任务。使用的是Transformer,相对于rnn而言更加高效、能捕捉更长距离的依赖。与之前的预训练模型相比,它捕捉到的是真正意义上的bidirectional context信息。

Bert的基础建立在transformer之上,拥有强大的语言表征能力和特征提取能力。在11项 NLP基准测试任务中达到state of the art。同时再次证明了双向语言模型的能力更加强大。

(2)缺点
作者在文中主要提到的就是MLM预训练时的mask问题:
1)[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现;
2)每个batch只有

你可能感兴趣的:(自然语言处理笔记,深度学习,人工智能)