GPT-2 详解

和BERT的Transformer-encoder相比区别是有Attention Mask,

GPT准确的讲 内部是Decoder-Only Block,

http://jalammar.github.io/illustrated-gpt2/

你可能感兴趣的:(GPT-2 详解)