BERT家族:SemBert

SemBert

论文:《Semantics-aware BERT for Language Understanding》

论文地址:https://arxiv.org/pdf/1909.02209

作者/机构:上海交通大学+云从科技

年份:2019.9

SemBERT是将语义角色标注(SRL,Semantic Role Labeling)信息结合进去,来提高BERT的性能。K-BERT对BERT的预训练过程做了如下步骤的改进:

(1)获取SRL标注

使用目前最优的语义角色标注器deep-srl对句子进行语义信息标注。

(2)多语义标签融合

首先获取多种语义标签信息,具体做法是:对各个标签建立向量表,取向量,之后简单地用一个双向 GRU(BiGRU) 模型来获得深层的全局双向信息即可。

然后融合这些语义标签信息,具体做法是:将上一步骤中深层GRU双向信息都拼接起来,然后接一个全连接层来实现多语义标签信息的融合。

(3)对齐SRL token和BERT token的粒度

由于BERT使用的是BPE(Byte Pair Encoding)分词,会把词分成子词(subword)。于是就需要将子词向量映射成一个词向量。具体做法是:在子词区域使用CNN,然后进行 max pooling来提取词向量。然后将BERT outputs与srl词向量进行拼接来做BERT预训练。

更多NLP相关技术干货,请关注我的微信公众号【NLP有品

你可能感兴趣的:(预训练语言模型,BERT)