Quantization

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

QLoRA结合了4-bit量化（quantization）和LoRA的低秩更新技术，使超大规模模型（如70B参数的LLaMA）能够在单GPU上进行高效微调，同时保持与全参数微调相近的性能。

彬彬侠·2025-06-21 06:23

【AI大模型学习路线】第二阶段之RAG基础与架构——第九章（向量数据库常见算法）Product Quantization？

【AI大模型学习路线】第二阶段之RAG基础与架构——第九章（向量数据库常见算法）ProductQuantization？【AI大模型学习路线】第二阶段之RAG基础与架构——第九章（向量数据库常见算法）ProductQuantization？文章目录【AI大模型学习路线】第二阶段之RAG基础与架构——第九章（向量数据库常见算法）ProductQuantization？前言1.算法原理1.1向量分块与

985小水博一枚呀·2025-06-18 09:51

The Quantization Model of Neural Scaling

文章目录摘要1引言2理论3概念验证：一个玩具数据集3.1“多任务稀疏奇偶校验”数据集3.2幂律规模和新兴能力4拆解大型语言模型的规模定律4.1单token损失的分布4.2单基因（monogenic）与多基因（polygenic）的规模曲线5.1语言模型量子的自然分布6相关工作7讨论摘要我们提出了神经网络规模定律的量化模型，该模型既解释了随着模型和数据规模增加损失按幂律下降的现象，也解释了随着规模扩

绒绒毛毛雨·2025-06-14 21:04

BitsAndBytesConfig参数描述

示例：quantization_config=BitsAndBytesConfig(load_in_4bit=True)适用场景：需显著减少

为啥全要学·2025-05-22 13:44

AI模型压缩与优化：如何在资源受限设备上运行大模型？

https://www.captainbed.cn/north文章目录一、引言：边缘计算的挑战与机遇二、模型压缩技术全景图2.1主要压缩技术分类2.2技术选型决策树三、核心优化技术详解3.1参数量化（Quantization

北辰alk·2025-05-19 03:41

模型压缩与超参数调整：如何根据具体任务调整超参数

模型压缩有两种主要方式：剪枝（Pruning）和量化（Quantization）。下面将详细介绍这两种方法。

AI天才研究院·2025-05-16 20:22

模型量化：8-bit/4-bit 量化、PTQ 与 QAT+案例

模型量化：8-bit/4-bit量化、PTQ与QAT1.模型量化概述模型量化（Quantization）是一种减少模型存储大小和计算复杂度的方法，通常用于嵌入式设备和边缘计算。

奥德彪123·2025-05-10 04:53

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

目录前言一、模型量化（quantization）1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理

大模型八哥·2025-05-08 01:22

大模型压缩技术详解（2025最新进展）

本文将深入探讨两种主流的模型压缩技术——量化(Quantization)和蒸馏(Distillation)，揭示如何以低成本部署高性能模型。

一切皆有可能！！·2025-05-03 18:28

深度学习模型量化原理

深度学习模型量化原理深度学习模型的量化（Quantization）是一种优化技术，它通过减少模型中权重和激活值的精度来减小模型大小和提高推理速度，同时尽量保持模型的准确度。

ai产品老杨·2025-04-07 19:02

『大模型笔记』量化 vs 剪枝 vs 蒸馏：为推理优化神经网络！

1.1.量化（Quantization）1.2.剪枝（purning）1.3.知识蒸馏（KnowledgeDistillation，也称为模型蒸馏）1.4.工程优化（EngineeringOptimizations

AI大模型前沿研究·2025-04-03 05:04

大模型压缩技术主要是为了在保持模型性能的前提下，减少模型的参数量和计算复杂度，以适应更低的计算资源、更小的内存占用和更快的推理速度。以下是当前主流的模型压缩技术，包括但不限于

示例：剪掉Transformer中不重要的注意力头剪掉CNN中对特征提取贡献小的通道2.量化（Quantization）量化是指将模型的

Jeremg·2025-03-28 01:13

模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)

1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（

（initial）·2025-03-15 13:24

大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏

目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势

时光旅人01号·2025-03-14 15:40

Transformer模型量化Quantization 笔记

模型参数与显存占用计算基础为了详细说明模型的参数数量和每个参数在显存中占用的空间大小，我们以facebookOPT-6.7B模型为例。逐步推理计算过程：1.估计参数总量：OPT-6.7B模型指一个含有大约6.7Billion（67亿）个参数的模型。2.计算单个参数的显存占用：OPT-6.7B模型默认使用Float16，每个参数占用16位（即2字节）的显存。3.计算总显存占用=参数总量×每个参数的显

Foolbird123·2025-02-24 13:14

DeepSeek模型量化

技术背景大语言模型（LargeLanguageModel，LLM），可以通过量化（Quantization）操作来节约内存/显存的使用，并且降低了通讯开销，进而达到加速模型推理的效果。

快乐非自愿·2025-02-23 22:29

大模型量化概述

模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（KnowledgeDistillation）量化Quantization）本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、Sm

AI领航者·2025-02-22 04:02

AI 模型的优化与应用：大模型本体、蒸馏、量化与 GGUF

本文将探讨大模型本体（FullModel）、蒸馏（Distillation）、量化（Quantization）和GGUF（GPT-GeneratedUnifiedFormat）等优化技术，并分析它们的区别

CCSBRIDGE·2025-02-21 23:15

auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复

IT修炼家·2025-02-20 12:00

【大模型】量化、剪枝、蒸馏

下面是每种技术的详细介绍：1.量化（Quantization）量化是将浮点数表示的模型参数（通常是32位浮点数）转换为低精度表示（如8位整数）。

油泼辣子多加·2025-02-19 18:02

deepseek+python,离线api，持续对话

fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch#导入torch模块#配置4-bit量化quantization_config

守着黎明看日出·2025-02-16 05:43

模型轻量化

硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD）轻量化模型架构（也叫紧凑的模型设计）、剪枝（Pruning）、量化（Quantization

莱茶荼菜·2025-02-11 22:10

llama.cpp GGML Quantization Type

llama.cppGGMLQuantizationType1.GGMLQuantizationType2.`staticconststructggml_type_traitstype_traits[GGML_TYPE_COUNT]`3.`Q#_K_M`and`Q#_K`References什么神仙妖魔，不过是他们禁锢异族命运的枷锁！GGUFhttps://huggingface.co/docs/h

Yongqiang Cheng·2025-02-05 18:06

QLoRa使用教程

一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址：https://huggingface.co/docs/peft/main/en/developer_guides/quantization

云帆@·2024-09-13 03:12

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\quantization_kernels_parallel.so

FL1623863129·2024-03-20 14:25

pytorch_quantization/cuda_ext.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3c106detail1

pytorch_quantization/cuda_ext.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN3c106detail1pytorch_quantization

szZack·2024-02-12 12:46

【6s965-fall2022】量化 Quantization Ⅱ

什么是线性量化r=S(q−Z)r=S(q-Z)r=S(q−Z)式中，SSS是比例因子，通常是一个浮点数；qqq是rrr的量化后的表示，是一个整数；ZZZ也是一个整数，把qqq中和ZZZ相同的整数映射到rrr中零，因此ZZZ是零点偏移。如何确定参数让rmin,rmaxr_{min},r_{max}rmin,rmax为所有原始权重的最小值和最大值；让qmin,qmaxq_{min},q_{max}qm

代码缝合怪·2024-02-12 03:45

AI模型压缩技术

量化（Quantization）：将

SugarPPig·2024-01-26 06:28

论文解读--Impact of ADC clipping and quantization of phase-modulated 79GHz CMOS radar

ADC限幅和量化对相位调制79GHzCMOS雷达的影响摘要宽带调相连续波雷达具有吸引人的特性，但需要非常高速的模数转换器(ADC)。为了保持这些ADC的功耗可接受，它们的分辨率必须保持尽可能低。我们研究了典型的79GHz人员检测场景所需的ADC分辨率。该分析基于端到端的Matlab仿真链进行的仿真，考虑到波形特性、芯片实现、传播效果、目标和环境。我们得出结论，在考虑的场景中，4位ADC是足够的。这

奔袭的算法工程师·2024-01-25 17:10

改进yolov7网络（从轻量化方面的8个方法）

以下是8条关于如何从轻量化角度改进YOLOv7网络的建议：1.模型压缩：使用轻量化的模型压缩技术，如剪枝（pruning）和量化（quantization），来减小YOLOv7的模型大小。通过剪

qhchao·2024-01-21 21:30

HAQ: Hardware-Aware Automated Quantization with Mixed Precision

本文的创新点为：作者认为，在不同的平台上，以及不同的layer上，合适的量化bit数都是不同的。但是如果想认为找到这个最优值是不可能的，于是作者使用强化学习的方法来找到最合理的量化bit数。本来芯片是不支持混合精度的计算的，但随着硬件的发展，支持混合机精度计算的芯片也出现了：比如苹果的A12，NVIDIA的图灵GPU框架等，从而使得这种思路得以实现。它的优点是完全自动化，不需要专家知识和启发式规则

JachinMa·2024-01-20 19:44

关于MediaCode播放H265/hevc的总结

.265/HEVC的编码架构大致上和H.264/AVC的架构相似，主要也包含，帧内预测(intraprediction)、帧间预测(interprediction)、转换(transform)、量化(quantization

朝阳眯眼·2024-01-20 09:42

cannot import name ‘AbsmaxQuantizer‘ from ‘paddle.fluid.contrib.slim.quantization‘ (/opt/conda/envs/

愚昧之山绝望之谷开悟之坡·2024-01-18 20:31

[BUG] cannot import name ‘quantize_qat‘ from ‘onnxruntime.quantization‘

前言进行onnx模型量化出现了这个错误解决：卸载重装onnx和onnxruntime，会自动安装最新，由于版本更新取消了quantize_qat函数改为以下代码：fromonnxruntime.quantizationimportquantize_dynamic,QuantType,quantize_staticmodel_fp32='yolov5s.onnx'model_quant='yolov

犟小孩·2024-01-18 20:59

RuntimeError: floor_vml_cpu not implemented for ‘Int‘

GSNet/lib/python3.7/site-packages/MinkowskiEngine-0.5.4-py3.7-linux-x86_64.egg/MinkowskiEngine/utils/quantization.py

qq_43650421·2024-01-17 15:35

TensorRT模型优化部署 (八）--模型剪枝Pruning

优化部署（三）–ONNX注册算子第四章TensorRT模型优化部署（四）–Rooflinemodel第五章TensorRT模型优化部署（五）–模型优化部署重点注意第六章TensorRT模型优化部署（六）–Quantization

小豆包的小朋友0217·2024-01-16 22:23

Transformers 中原生支持的量化方案概述

转载自：https://huggingface.co/blog/zh/overview-quantization-transformers文章目录资源bitsandbytes与auto-gptq之比较bitsandbytes

小然爱看·2024-01-16 15:20

用 Ollama 轻松玩转本地大模型

模型量化（quantization）技术可以很大程度上降低显存要求。以4-bit量化为例，其将原

m0_54050778·2024-01-14 23:02

TensorRT模型优化模型部署（七）--Quantization量化（PTQ and QAT)（二）

优化部署（三）–ONNX注册算子第四章TensorRT模型优化部署（四）–Rooflinemodel第五章TensorRT模型优化部署（五）–模型优化部署重点注意第六章TensorRT模型优化部署（六）–Quantization

小豆包的小朋友0217·2024-01-13 08:56

TensorRT模型优化部署(四）--Roofline model

优化部署（三）–ONNX注册算子第四章TensorRT模型优化部署（四）–Rooflinemodel第五章TensorRT模型优化部署（五）–模型优化部署重点注意第六章TensorRT模型优化部署（六）–Quantization

小豆包的小朋友0217·2024-01-13 08:25

第六章 TensorRT模型优化部署（六）--Quantization量化基础（一）

优化部署（三）–ONNX注册算子第四章TensorRT模型优化部署（四）–Rooflinemodel第五章TensorRT模型优化部署（五）–模型优化部署重点注意第六章TensorRT模型优化部署（六）–Quantization

小豆包的小朋友0217·2024-01-13 08:20

NLP（十八）：LLM 的推理优化技术纵览

1.1FasterTransformerbyNVIDIA1.2DeepSpeedInferencebyMicrosoft1.3MLCLLMbyTVM二、模型压缩（ModelCompression）2.1稀疏(Sparsity)2.2量化(Quantization

javastart·2024-01-12 09:46

TensorRT优化部署（一）--TensorRT和ONNX基础

优化部署（三）------ONNX注册算子文章目录TensorRT部署优化前言一、模型部署目的二、TensorRT的模块2.1Layerfusion(层融合）2.2Kernelauto-tuning2.3Quantization

小豆包的小朋友0217·2024-01-07 10:07

模型量化 | Pytorch的模型量化基础

官方网站：Quantization—PyTorch2.1documentationPracticalQuantizationinPyTorch|PyTorch量化简介量化是指执行计算和存储的技术位宽低于浮点精度的张量

夏天｜여름이다·2023-12-27 15:04

【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision

时间：2019年级别：SCI机构：南京信息工程大学摘要随着多媒体呈现技术、图像采集技术和互联网行业的发展，远程通信的方式已经从以前的书信、音频转变为现在的音频/视频。和视频在工作、学习和娱乐中的比例不断提高，高清视频越来越受到人们的重视。由于网络环境和存储容量的限制，原始视频必须进行编码才能高效地传输和存储。高效视频编码(HEVC)需要大量的编码时间递归遍历自适应量化过程中编码单元所有可能的量化参

DogDaoDao·2023-12-23 14:22

【读点论文】A Survey of Quantization Methods for Efficient Neural Network Inference

ASurveyofQuantizationMethodsforEfficientNeuralNetworkInferenceAbstract一旦抽象的数学计算适应了数字计算机的计算，在这些计算中如何有效地表示、处理和传递数值的问题就出现了。与数字表示问题密切相关的是量化问题:一组连续的实值数应该以何种方式分布在一组固定的离散数字上，以最小化所需的位数，并最大化随之而来的计算的准确性?每当内存和/或

羞儿·2023-12-05 23:32

Overflow Aware Quantization

OverflowAwareQuantizationFrameworkNo_oo是amountofarithmeticoverflow辅助信息作者未提供代码

宇来风满楼·2023-12-05 08:37

pytorch 模型量化quantization

pytorch模型量化quantization1.workflow1.1PTQ1.2QAT2.demo2.1构建resnet101_quantization模型2.2PTQ2.3QAT参考文献pytorch

L1_Zhang·2023-12-03 20:27

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT：基于Hessian的超低精度BERT量化

论文标题：Q-BERT:HessianBasedUltraLowPrecisionQuantizationofBERT---Q-BERT：基于Hessian的超低精度BERT量化Abstract1RelatedWorkModelcompression模型压缩CompressedNLPmodel2Methodology2.1Quantizationprocess2.2Mixedprecisionqu

土豆娃potato·2023-11-30 19:29

学习向量量化 Learning Vector Quantization | LVQ

目录前言一、学习向量量化是什么？二、学习向量量化的优点和缺点三、学习向量量化的应用场景四、构建学习向量量化模型的注意事项五、学习向量量化模型的实现类库六、学习向量量化模型的评价指标七、类库scikit-learn实现学习向量量化的例子八、学习向量量化的模型参数总结前言学习向量量化是机器学习中无监督学习的一种聚类算法。一、学习向量量化是什么？学习向量量化（LearningVectorQuantiza

JasonH2021·2023-11-26 17:01

推荐频道

Quantization

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

【AI大模型学习路线】第二阶段之RAG基础与架构——第九章（向量数据库常见算法）Product Quantization？

The Quantization Model of Neural Scaling

BitsAndBytesConfig参数描述

AI模型压缩与优化：如何在资源受限设备上运行大模型？

模型压缩与超参数调整：如何根据具体任务调整超参数

模型量化：8-bit/4-bit 量化、PTQ 与 QAT+案例

大模型之大模型压缩（量化、剪枝、蒸馏、低秩分解），推理（vllm）

大模型压缩技术详解（2025最新进展）

深度学习模型量化原理

『大模型笔记』量化 vs 剪枝 vs 蒸馏：为推理优化神经网络！

大模型压缩技术主要是为了在保持模型性能的前提下，减少模型的参数量和计算复杂度，以适应更低的计算资源、更小的内存占用和更快的推理速度。以下是当前主流的模型压缩技术，包括但不限于

模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)

大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏

Transformer模型量化Quantization 笔记

DeepSeek模型量化

大模型量化概述

AI 模型的优化与应用：大模型本体、蒸馏、量化 与 GGUF

auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

【大模型】量化、剪枝、蒸馏

deepseek+python,离线api，持续对话

模型轻量化

llama.cpp GGML Quantization Type

QLoRa使用教程

chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat

pytorch_quantization/cuda_ext.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3c106detail1

【6s965-fall2022】量化 Quantization Ⅱ

AI模型压缩技术

论文解读--Impact of ADC clipping and quantization of phase-modulated 79GHz CMOS radar

改进yolov7网络（从轻量化方面的8个方法）

HAQ: Hardware-Aware Automated Quantization with Mixed Precision

关于MediaCode播放H265/hevc的总结

cannot import name ‘AbsmaxQuantizer‘ from ‘paddle.fluid.contrib.slim.quantization‘ (/opt/conda/envs/

[BUG] cannot import name ‘quantize_qat‘ from ‘onnxruntime.quantization‘

RuntimeError: floor_vml_cpu not implemented for ‘Int‘

TensorRT模型优化部署 (八）--模型剪枝Pruning

Transformers 中原生支持的量化方案概述

用 Ollama 轻松玩转本地大模型

TensorRT模型优化模型部署（七）--Quantization量化（PTQ and QAT)（二）

TensorRT模型优化部署(四）--Roofline model

第六章 TensorRT模型优化部署（六）--Quantization量化基础（一）

NLP（十八）：LLM 的推理优化技术纵览

TensorRT优化部署（一）--TensorRT和ONNX基础

模型量化 | Pytorch的模型量化基础

【论文解读】CNN-Based Fast HEVC Quantization Parameter Mode Decision

【读点论文】A Survey of Quantization Methods for Efficient Neural Network Inference

Overflow Aware Quantization

pytorch 模型量化quantization

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT：基于Hessian的超低精度BERT量化

学习向量量化 Learning Vector Quantization | LVQ

AI 模型的优化与应用：大模型本体、蒸馏、量化与 GGUF