flashAttention是什么

  • flashAttention是一种attention加速计算的精确算法,它的核心有三点:tiling(分块计算),kernel合并,和重计算。

flashAttention是什么_第1张图片

你可能感兴趣的:(大模型面试必考问题,LLM,大模型,AIGC,人工智能,NLP)