迈入大模型时代的深度学习:使用 Flash Attention 技术让 Transformer 起飞
Transformer是ChatGPT等大语言模型的核心技术之一,而注意力机制是其的关键部分。但是,标准的注意力实现具有二次时间和内存复杂度,使其在长序列任务上变慢并消耗大量显存。这限制了Transformer能够建模的上下文长度,同时使得大尺度模型的训练和推理时间延长。FlashAttention:FastandMemory-EfficientExactAttentionwithIO-Aware