ChatGLM2-6B的通透解析:从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读
目录前言第一部分相比第一代的改进点:FlashAttention与Multi-QueryAttention第二部分FlashAttention:减少内存访问提升计算速度——更长上下文的关键2.1FlashAttention相关的背景知识2.1.1Transformer计算复杂度:编辑——Self-Attention层与MLP层2.1.1.1Self-Attention层的计算复杂度:2.1.1.2