[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window
这段代码是_make_causal_mask函数中处理滑动窗口局部注意力的部分。这里的目的是创建一个额外的掩码,以便在自注意力机制中只考虑每个位置附近的一定数量的位置,而不是所有之前的位置。这通常用于减少计算复杂性和提高长序列处理的效率。代码分析如下:diagonal=past_key_values_length-sliding_window+1:这里计算的是上三角矩阵(triu)的开始对角线的索