【论文学习】RoBERTa

目录

    • 摘要
    • 训练过程分析

摘要

RoBERTa(A Robustly Optimized BERT Pretraining Approach)基本与BERT一致,但在以下方面做了一些细节调整:1)在更多数据上,以更大batch_size,训练更长时间;2)取消NSP任务;3)更大序列长度上训练(实际都是512,只不过数据处理上尽量选取长文本作为输入);4)dynamic mask

训练过程分析

dynamic mask:BERT采用的是静态mask机制,静态体现在数据处理过程,具体做法就是“现将数据复制几份,然后不同考备份的数据集合对不同位置进行mask”,数据处理完成之后就不变了。而RoBERTa采用动态mask方式,在将数据送入到模型时,才进行随机mask。两种方式对比如下:
【论文学习】RoBERTa_第1张图片
从试验结果来看,动态mask似乎没起多大作用。

取消NSP:“FULL-SENTENCES”表示从一个文档或者多个文档取完整的句子组合在一起作为输入,跨越文档是添加SEP, “DOC-SENTENCES”与“FULL-SENTENCES”相似,就是不能跨越文档边界。
【论文学习】RoBERTa_第2张图片

你可能感兴趣的:(NLP,NLP,nlp)