大模型实战营Day5 LMDeploy大模型量化部署实践

模型部署 定义 产品形态 计算设备

大模型特点 内存开销大 动态shape 结构简单大模型实战营Day5 LMDeploy大模型量化部署实践_第1张图片

部署挑战 设备存储 推理速度 服务质量

部署方案:技术点 (模型并行 transformer计算和访存优化 低比特量化 Continuous Batch Page Attention)方案(云端 移动端)

大模型实战营Day5 LMDeploy大模型量化部署实践_第2张图片

LMDeploy: 云端部署

接口: python gRPC RESTful

轻量化 推理引擎 服务(api server gradio triton inference server)

无缝对接open compass

推理性能 静态vs动态

大模型实战营Day5 LMDeploy大模型量化部署实践_第3张图片

核心功能 量化FP16 Int4-8

模型显存优化明显(24GB显存 4倍提升)

大模型实战营Day5 LMDeploy大模型量化部署实践_第4张图片

计算密集 访存密集(大模型一般是访存密集)

推理引擎 TurboMind

持续批处理 有状态的推理 高性能cuda kernel Blocked k/v cache分块缓存

大模型实战营Day5 LMDeploy大模型量化部署实践_第5张图片

持续批处理 请求队列+Persistent线程

大模型实战营Day5 LMDeploy大模型量化部署实践_第6张图片

有状态的推理 推理测的缓存

分块的k/v缓存 历史缓存

高性能cuda kernel

Flash Attention2

Split-k decoding

Fast w4a16, kv8

算子融合

大模型实战营Day5 LMDeploy大模型量化部署实践_第7张图片

推理服务api server

大模型实战营Day5 LMDeploy大模型量化部署实践_第8张图片

你可能感兴趣的:(LLM,python,大模型,langchain,InternLM,人工智能)