Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析

只有decoder:
GPT:仅使用上文进行编码
GPT2:仍然仅使用上文进行编码(因为要处理生成任务)。但是模型更大,数据量更多。
GPT3:超大规模

只有encoder:
Bert:同时使用上下文进行编码
Roberta:相比bert主要是在训练参数上做了调整:batch size,adam参数,训练数据、nsp loss、epoch数,词表大小。

同时有encoder-decoder:
T5。encoder的hidden层输出用avgpooling,而不是像bert一样用的cls-token

原文链接:https://blog.csdn.net/qq_41111734/article/details/125538102

你可能感兴趣的:(gpt,gpt-3,bert)