大模型是基于Transformer的基础架构,那Transformer的编码和解码,不是大模型必须具备的吗?为什么说bert是用的编码器,chatgpt用的解码器?
Transformers的基本架构包括编码器(Encoder)和解码器(Decoder),这两个组件通常在序列到序列(Seq2Seq)任务中一起使用,如机器翻译。然而,并不是所有的任务都需要使用编码器和解码器。Bert和GPT不是序列到序列模型,它们在不同的任务上有着不同的使用方式,因此它们分别使用了Transformers架构的编码器和解码器部分。BERT:BERT是一个基于编码器(Encode