媲美ROBERTA? ELECTRA快速了解一下!

这两个月打比赛的时候,有些小伙伴提到了electra这个预训练模型,说是能用roberta预训练运算量的1/4,甚至更少,使下游任务性能达到与roberta相当效果。为此,up打开了这篇论文,快速预览了一波,看看它到底何方神圣。

 

论文地址:https://openreview.net/pdf?id=r1xMH1BtvB

在很久之前,笔者已经更新了BERT的原理与应用electra又是和bert相类似的预训练模型。笔者在这里就直接拿BERT的预训练方式和electra来做对比,看看electra到底有什么不一样的地方。

1.1 关键思想

Electra采用的预训练方式主要是GAN思想主导的预训练,笔者之前也介绍过GAN到底是怎么回事,不会的小伙伴可以去翻阅一下生成对抗网络 | 原理及训练过程

我们知道BERT是直接采用15%的“[MASK]”来掩盖某些字符(token),让模型在预训练过程中预测被“[MASK]”掉的字符(token)。

 

electra则采用将这个思想用在Gangenerator)的生成器中,先随机“[MASK]”掉一些字符(token),然后用一个生成器(generator)对被“[MASK]”的字符生成相应的“伪字符(fake token)”,而discriminator辨别器(也就是electra)用来判断哪些字符(token)被更换过,论文作者将这个预训练任务称之为RTD(replaced token detection)

媲美ROBERTA? ELECTRA快速了解一下!_第1张图片

                           

 

1.2 总结

这篇文章主要的贡献是提出了一种最新的BERT类模型的预训练方式RTD(replaced token detection)。关键思想是训练文本编码器,以区分输入令牌与由小型生成器generator网络产生的高质量负样本。与MLMmasked language modeling,也就是BERT的预训练方式)相比,它的预训练目标具有更高的计算效率,并且可以在下游任务上实现更好的性能。即使使用相对较少的计算量,它也能很好地工作。

至于具体的效果好不好,笔者这边还没有完全测过。不过笔者的师弟用electra跑某个比赛数据,线上成绩倒是上了6个百分点,然而这个比赛的数据集比较小,也不具备太多权威性。

  最后值得一说的是,现在的预训练模型自BERT横空出世之后,便如雨后春笋般层出不穷,不过我们只要掌握BERT的原理与应用,大致就可以快速读懂一个新的预训练模型的原理,它们大多都是基于BERT原有的缺陷进行改进的。

你可能感兴趣的:(媲美ROBERTA? ELECTRA快速了解一下!)