(2020.6.16)BERT家族

果然学了以后过几天就忘了,重复!重复!多重复就记住了!另外实践!用的多了就记住了!

参考资料:https://www.youtube.com/watch?v=Bywo7m6ySlk

BERT:masked language modeling (MLM)和next sentence prediction(NSP)。

RoBERTa:只有MLM,对超参数进行了调整,且使用byte-pair encoding。

ELECTRA:判别器判别token是否被替换了。

ALBERT:把NSP换成了sentence order prediction(SOP)。

T5:把所有能想到的训练类BERT模型的方法都试了一次,用的语料是C4,所有问题都转化为了seq2seq的问题。

你可能感兴趣的:((2020.6.16)BERT家族)