StructBERT调研

提出机构:阿里巴巴达摩院

论文链接:https://arxiv.org/pdf/1908.04577.pdf


作者认为Bert的预训练任务忽略了语言结构(language structure)信息,因此StructBert在Bert原有的MaskLM的训练目标上,增加了两个基于语言结构的训练目标:词序(word-level ordering)句序(sentence-level ordering)任务。

Contribution

原理

Input Representation和模型架构同Bert,即多层Transformer。

改进在于保存了Bert现有的预训练任务MaskLM和NSP的情况下,新增了两个预训练目标:Word Structural ObjectiveSentence Structural Objective

Word Structural Objective

从未被mask的序列中随机选择部分子序列(使用超参数K来确定子序列长度,论文选择的K值=3,即trigram),将子序列中的词序打乱,让模型重建原来的词序。作者从重新排列的子序列中选择5%,进行词序的打乱。

Sentence Structural Objective

给定句子对(S1, S2),判断S2是否是S1的下一个句子,或上一个句子,或毫无关联的句子(从NSP的0/1分类变成了三分类问题)。

采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对。

句子的输入格式同Bert相同,也是用[SEP]分隔。

预训练细节

Base和Large模型和Bert的架构保持一致。

实验结果

Glue

用了grid search进行了调参

SNLI

句对关系数据集。

SQuAD

针对两个新提出的Objective的消融实验

你可能感兴趣的:(StructBERT调研)