书生·浦语大模型实战营-学习笔记5

LMDeploy 大模型量化部署实践

书生·浦语大模型实战营-学习笔记5_第1张图片

书生·浦语大模型实战营-学习笔记5_第2张图片

大模型部署背景

书生·浦语大模型实战营-学习笔记5_第3张图片
书生·浦语大模型实战营-学习笔记5_第4张图片

LMDeploy简介

轻量化、推理引擎、服务
书生·浦语大模型实战营-学习笔记5_第5张图片
书生·浦语大模型实战营-学习笔记5_第6张图片

核心功能-量化

显存消耗变少了
书生·浦语大模型实战营-学习笔记5_第7张图片
书生·浦语大模型实战营-学习笔记5_第8张图片
大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder

先把数据量化为INT4存起来,算的时候会反量化为FP16
书生·浦语大模型实战营-学习笔记5_第9张图片
AWQ算法:观察到模型在推理过程中,只有一小部分参数是重要的参数,这部分参数不量化,其他的参数量化,这样保留了显存,性能也不会下降多少

核心功能-推理引擎

书生·浦语大模型实战营-学习笔记5_第10张图片
不用等到整个batch结束
书生·浦语大模型实战营-学习笔记5_第11张图片
书生·浦语大模型实战营-学习笔记5_第12张图片
书生·浦语大模型实战营-学习笔记5_第13张图片

书生·浦语大模型实战营-学习笔记5_第14张图片
书生·浦语大模型实战营-学习笔记5_第15张图片

书生·浦语大模型实战营-学习笔记5_第16张图片

核心功能-推理服务api server

书生·浦语大模型实战营-学习笔记5_第17张图片

动手实践环节

https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md

你可能感兴趣的:(大模型,学习,笔记,自然语言处理,chatgpt,人工智能)