工智能基础知识总结--什么是BERT

  1. 什么是BERT

    BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,其结构采用Transformer的Encoder部分,主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

    BERT虽然从结构上看创新性并不高,但其效果非常好,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。这些将NLP也带入了类似CV领域的预训练+微调时代,BERT也成为了如今最热门的NLP模型。

  2. 从Word Embedding到Bert

    • 预训练

      预训练(pre-train)是CV领域十分常用的方法,当设计好网络结构以后,可以先在其他数据集如ImageNet上进行训练保存模型参数。运用到具体任务时,可以选择固定住浅层模型参数,而只训练顶层参数(Frozen);也可以所有岑参数一起训练(Fine-tune)。

      这样做的优点是:如果当前任务的训练集合数据量较少的话,利用预训练出来的参数来训练当前任务可以极大加快任务训练的收敛速度,并且可以提高模型效果。

      预训练之所以在CV领域可行是因为对于CV领域常用的层级的CNN结构来说,不同层级的神经元学习到了不同类型的图像特征,由底向上特征形成层级结构,所以预训练好的网络参数,尤其是底层的网络参数抽取出特征跟具体任务越无关,越具备任务

你可能感兴趣的:(机器学习专栏,人工智能学习专栏,深度学习专栏,bert,人工智能,深度学习)