大模型LLM 在线量化;GPTQ\AWQ量化及推理

1、大模型LLM 在线量化

参考:https://www.cnblogs.com/bruceleely/p/17348782.html

##8bit
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).quantize(8).half(

你可能感兴趣的:(深度学习,量化,大模型,AWQ)