各种Transformer模型总结与比较

1 Transformer发展历程

Transformer类的模型目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将Transformer分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。

1.1 序列到序列模型(seq2seq)

seq2seq属于encoder-decoder结构的一种,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。这种结构的模型对于翻译等语言任务很好。

1.2 注意力机制的兴起(seq2seq+attention)

(1) 对于翻译任务,第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》,翻译任务是将源语句翻译成目标语句,该方法在decoder中引入了注意力机制,decoder决定注意源语句的哪一部分,主要是关注对齐(align)。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/112759894
(2) Global Attention和Local Attention,由《Effective Approaches to Attention-based Neural Machine Translation》发表,翻译任务是将源语句翻译成目标语句,其中Global方法是源语句的所有单词参与注意力,而local只是源语句的一部分参与。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/113737294。

1.3 Transformer

Transformer来自google论文《Attention is all you need》。该模型仅仅依靠attention机制,提出了self-attention。Transformer是第一个只依靠self-attention来计算输入和输出的转换模型,没有使用RNN或者卷积网络。可参考本人写的文章:https://blog.csdn.net/zephyr_wang/article/details/106334196。

各种Transformer模型总结与比较_第1张图片

各种Transformer模型总结与比较_第2张图片

2 各transformer模型比较

分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE)。
参考:https://huggingface.co/transformers/model_summary.html

2.1 Autoregressive与Autoencoding

Autoregressive(AR)语音模型和Autoencoding(AE)是目前最成功的两个预训练语言模型。

AR模型是经典的语言模型,基于前面的单词预测后面的单词,mask只是用来保证注意力头只看到其之前的文本,一般采用transformer的decoder。如GPT模型。

AE模型不是进行明确的概率评估,而是从破坏的输入恢复原数据。最知名的例子是BERT。给定输入,其中的一部分是被mask替换掉,模型然后被训练来恢复原数据。这对应着transformer的encoder部分。

2.2 Autoregressive模型总结

各种Transformer模型总结与比较_第3张图片

可参考本人写的一些模型翻译文章:
GPT:https://blog.csdn.net/zephyr_wang/article/details/113430006
GPT-2: https://blog.csdn.net/zephyr_wang/article/details/113748490
XLNet: https://blog.csdn.net/zephyr_wang/article/details/108846710

2.3 Autoencoding模型总结

各种Transformer模型总结与比较_第4张图片
各种Transformer模型总结与比较_第5张图片

可参考本人写的一些模型翻译文章:
BERT:https://blog.csdn.net/zephyr_wang/article/details/108866911
ALBERT:https://blog.csdn.net/zephyr_wang/article/details/113078952
RoBERTa:https://blog.csdn.net/zephyr_wang/article/details/113122006
XLM:https://blog.csdn.net/zephyr_wang/article/details/112655763
ELECTRA:https://blog.csdn.net/zephyr_wang/article/details/115415410
DeBERTa:https://blog.csdn.net/zephyr_wang/article/details/113776734

2.4 SEQ2SEQ模型总结

SEQ2SEQ:Encoder+ decoder。

各种Transformer模型总结与比较_第6张图片

可参考本人写的一些模型翻译文章:
BART:https://blog.csdn.net/zephyr_wang/article/details/113485860
ProphetNet:https://blog.csdn.net/zephyr_wang/article/details/113063268

3 最新结果比较

截至2021年2月7日的结果,目前DeBERTa效果最好,比赛网站https://gluebenchmark.com/leaderboard。
各种Transformer模型总结与比较_第7张图片

你可能感兴趣的:(NLP,人工智能,transformer,分类,机器学习,人工智能)