[nlp] roberta

roberta

总结

1. batches 和 优化器参数:原始BERT优化函数采用的是Adam默认的参数,其中β1=0.9,β2=0.999,在RoBERTa模型中考虑采用了更大的batches(8K),所以将β2改为了0.98

2. 动态掩码:原始静态mask:BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复),后续的每个训练步都采用相同的mask,这是原始静态mask,即单个静态mask,这是原始 BERT 的做法。动态mask:并没有在预处理的时候执行 mask,而是在每次向模型提供输入时动态生成 mask,所以是时刻变化的。

3. 去掉NSP, 输入变为DOC-SENTENCES:输入只有一部分(而不是两部分),输入的构造类似于FULL-SENTENCES,只是不需要跨越文档边界,其输入来自同一个文档的连续句子,token 总数不超过 512 。在文档末尾附近采样的输入可以短于 512个tokens, 因此在这些情况下动态增加batch size大小以达到与 FULL-SENTENCES 相同的tokens总数。预训练不包含 NSP 任务。

你可能感兴趣的:(nlp,自然语言处理,人工智能)