BERT :Pre-training of Deep Bidirectional Transformers for Language Understanding论文阅读笔记(NAACL 2019)
目录原文翻译:BERT:用于语言理解的深度双向Transformer预训练原文链接:https://aclanthology.org/N19-1423.pdf摘要:1引言2相关工作2.1基于特征的方法2.2微调方法2.3在有监督数据上的迁移学习3BERT3.1模型架构3.2输入表示3.3预训练任务3.4预训练方法3.5微调方法3.6BERT和GPT的比较4实验4.1GLUE数据集4.2SQuAD数