预训练模型的前世今生

看完了 Pre-Trained Models: Past, Present and Future。对目前主流 NLP 预训练模型、预训练方式做个小结与梳理。

自从 ELMO,GPT,BERT 问世,基于大规模预料的预训练模型便开始流行起来。学者们的注意力渐渐从模型架构转移到了预训练上。预训练+微调的方式也创造了不少下游任务 SOTA。

深度神经网络

深度神经网络早期主要面临数据少,模型规模受硬件限制等问题。回顾大部分 3 到 4 年前发布的 NLP 文章,大多研究关注与如何让模型更有效从数据集中获取知识。如发掘更优质的人工标注 数据集 、更好的 模型架构 或更完善的 特征工程

过去两年,NLP 的目光转移到了 预训练+微调 。类似 CV 领域的迁移学习 (Transfer Learning),预训练可提升在小规模训练集上的训练效果。早期基于词向量的预训练方案(如 Word2Vec、Glove )有所效果,但无法解决一词多意等问题;在 BERT/GPT 等模型出现后,各式各样的预训练方案被提出,模型学习的质量得以提高。

预训练模型的发展