DeBERTav3

推荐频道

DeBERTav3

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding解读

一、概述二、详细内容abstracta.deberataV3,debearta的改进版本b.方法1（改进mlm）：通过使用RTD来替换原始的MLM任务，一个更有效的简单的预训练方法c.方法2（改进electra）：ⅰ.原因：鉴别器和生成器将所有的token放到不同的方向，一直在那里拔河，tug-of-warⅱ.方法：梯度解纠缠embedding来避免拔河ⅲ.好处：提高训练效率+提升预训练模型质量d

HxShine·2023-06-14 08:31

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他