BERT论文精读

如果对nlp过去三年里面最重要的文章作排序的话,你把bert排第二,就很难有文章可以排第一了。cv里面很早就可以做预训练,比如在imagenet上,以提升性能,而nlp很难做预训练。BERT应运而生!!!
transformer主要是用在机器翻译这个小任务上面(广义的词就是语言理解),GPT是单向而BERT是双向。写摘要的时候,写与两篇相关工作的区别是什么,改进在什么地方,好在什么地方,相对精度,绝对精读。
句子层面的任务:用来去建模句子之间的关系(情绪识别,两个句子之间的关系等)。词源层面的任务:实体命名识别(街道等),需要输出一些细粒度等词源层面的输出。BERT不是第一个提出这个想法的人,而是BERT让这个方法出圈了。语言模型就是单项的,预测未来。
BERT贡献:展现了双向信息的利用;第一个基于微调的模型。它也是a➕b。BERT和它之后的一系列工作证明了在nlp上面用没有编号的数据集训练出来的模型效果比你在有编号相对来说小点的数据集上训练出来的模型更好。同样的想法,在cv的也被广泛应用。
BERT细节:预训练和微调。简单说明一下,不能自洽。主要调了三个参数L 层数 H 宽度 A 自注意力头。用百分之15做掩码。预训练用了两个经典数据集,告诉我们使用文本数据集是更加重要的,因为transformer比较擅长处理比较长的句子。刚开始BERT用的优化器是adam的不完全版,长时间训练可能影响不大,但是短时间内误差就很大了。
总结:写一篇paper最好着重写一个卖点,不止双向性,与GPT比,用的是编码器,但是做机器翻译没那么好做了,做生成类等就不那么好做了。BERT展示出可以训练更大的数据集,模型越大性能越好。简单暴力效果好,也会被超越,与GPT思路很像。

你可能感兴趣的:(深度学习,神经网络)