flash-attention安装教程

flash-attention不仅能加快速度,还可以节省显存。

安装方法如下:

首先搞清楚你的python什么版本,torch什么版本,cuda什么版本,操作系统是什么。

例如我下载的是:flash_attn-2.7.0.post2+cu12torch2.3cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

我的操作系统是Linux,Python3.10,cuda12,torch2.3,我需要安装flash_attn-2.7.0。

https://github.com/Dao-AILab/flash-attention/releases  【下载链接】

下载完成后执行:

pip install flash_attn-2.7.0.post2+cu12torch2.3cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

或者你可以直接执行:

pip install flash-attn --no-build-isolation

你可能感兴趣的:(深度学习,人工智能)