BERT家族:StructBERT

StructBERT

论文:《STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING》

论文地址:https://arxiv.org/pdf/1908.04577

作者/机构:阿里巴巴

年份:2019.9

StructBERT 是将语言结构信息融入进Bert,来提高其性能,其主要是增加了两个基于语言结构的训练目标:词序(word-level ordering)重构任务和句序(sentence-level ordering)判定任务。

StructBERT在于Bert现有的预训练任务MLM和NSP的基础上,新增了两个预训练任务:词序重建和句序判定任务,分别如下:

(1)词序重构

从未被mask的序列中随机选择部分子序列(使用超参数K来确定子序列长度,论文选择的K值=3,即trigram),将子序列中的词序打乱,让模型重建原来的词序。作者从重新排列的子序列中选择5%,进行词序的打乱。

(2)句序判定

给定句子对(S1, S2),判断S2是否是S1的下一个句子,或上一个句子,或毫无关联的句子(从NSP的0/1分类变成了三分类问题)。采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对。

更多NLP相关技术干货,请关注我的微信公众号【NLP有品

你可能感兴趣的:(预训练语言模型,BERT)