LLM主流框架:Causal Decoder、Prefix Decoder和Encoder-Decoder
本文将介绍如下内容:transformer中的mask机制CausalDecoderPrefixDecoderEncoderDecoder总结一、transformer中的mask机制在Transformer模型中,mask机制是一种用于在self-attention中的技术,用以控制不同token之间的注意力交互。具体来说,Transformer中使用两种类型的mask:paddingmask和