DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding解读
一、概述二、详细内容abstracta.deberataV3,debearta的改进版本b.方法1(改进mlm):通过使用RTD来替换原始的MLM任务,一个更有效的简单的预训练方法c.方法2(改进electra):ⅰ.原因:鉴别器和生成器将所有的token放到不同的方向,一直在那里拔河,tug-of-warⅱ.方法:梯度解纠缠embedding来避免拔河ⅲ.好处:提高训练效率+提升预训练模型质量d