【AI实战】llama.cpp 量化部署 llama-33B

【AI实战】llama.cpp 量化部署 llama-33B

  • llama.cpp 量化介绍
  • 环境配置
  • 安装 llama.cpp
    • 拉取 llama.cpp 仓库代码
    • 编译llama.cpp
  • 生成量化版本模型
    • 模型准备
    • 将上述.pth模型权重转换为ggml的FP16格式
    • 对FP16模型进行4-bit量化
  • 推理速度测试
    • 加载并启动模型
    • 量化方法选择及推理速度
    • 33B推理速度表格
  • 参考

llama.cpp 量化介绍

量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。

Inference of LLaMA model in pure C/C++。

llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7

你可能感兴趣的:(大语言模型,llama,llama.cpp,大模型量化)