Hugging Face高性能技术五:Transformer高效推断(bitsandbytes、FlashAttention、 BetterTransformer)
文章目录一、TorchScript(CPU)二、IPEXgraphoptimization(IntelCPU)三、Optimum3.1安装3.2CPU推理3.3GPU推理四、模型量化(GPU)4.1背景4.2基础量化技术4.3LLM.int8():大语言模型的零退化矩阵乘法4.3.1算法4.3.2实验4.4使用bitsandbytes量化模型(Accelerate0.24)4.4.1安装依赖4.4