[NLP论文笔记] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding阅读笔记

0. 写在前面

 google发布了BERT模型,刷榜了各类NLP任务,成为NLP领域的ImageNet,并随后公开了源码与多种语言的预训练模型。
 我们算法组也一直跟进该论文与模型,并将其应用于现有的项目中。现在对其进行一下总结。

paper:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1. 论文贡献

  • 论文证明双向预训练对语言的表示学习具有重要作用。
    近期两个代表性的语言预训练模型中,OpenAI GPT是单向语言模型,而 Peters的ELMo模型也仅是对两个浅层left-to-right和right-to-left独立模型的级联;而BERT通过引入Masked LM(遮蔽语言模型) 构建了一种深度双向语言表示模型,使语言的表示学习过程中可以同时利用上下文信息且不造成信息泄漏。
  • 论文证明预训练的表示学习可以替代具有复杂架构的工程模型,在许多token-level和sentenc-level任务中,利用BERT进行微调可以获得等效甚至更好的结果。
  • BERT刷新了许多NLP任务,论文也会公开源码与预训练好的模型供研究人员使用。

未完待续......

你可能感兴趣的:([NLP论文笔记] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding阅读笔记)