E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Quantization
什么是 QLoRA(Quantized Low-Rank Adaptation,量化低秩适配)
QLoRA结合了4-bit量化(
quantization
)和LoRA的低秩更新技术,使超大规模模型(如70B参数的LLaMA)能够在单GPU上进行高效微调,同时保持与全参数微调相近的性能。
彬彬侠
·
2025-06-21 06:23
大模型
QLoRA
量化低秩适配
PEFT
参数高效微调
transformers
bitsandbytes
python
【AI大模型学习路线】第二阶段之RAG基础与架构——第九章(向量数据库常见算法)Product
Quantization
?
【AI大模型学习路线】第二阶段之RAG基础与架构——第九章(向量数据库常见算法)ProductQuantization?【AI大模型学习路线】第二阶段之RAG基础与架构——第九章(向量数据库常见算法)ProductQuantization?文章目录【AI大模型学习路线】第二阶段之RAG基础与架构——第九章(向量数据库常见算法)ProductQuantization?前言1.算法原理1.1向量分块与
985小水博一枚呀
·
2025-06-18 09:51
人工智能
学习
数据库
算法
语言模型
The
Quantization
Model of Neural Scaling
文章目录摘要1引言2理论3概念验证:一个玩具数据集3.1“多任务稀疏奇偶校验”数据集3.2幂律规模和新兴能力4拆解大型语言模型的规模定律4.1单token损失的分布4.2单基因(monogenic)与多基因(polygenic)的规模曲线5.1语言模型量子的自然分布6相关工作7讨论摘要我们提出了神经网络规模定律的量化模型,该模型既解释了随着模型和数据规模增加损失按幂律下降的现象,也解释了随着规模扩
绒绒毛毛雨
·
2025-06-14 21:04
语言模型
人工智能
BitsAndBytesConfig参数描述
示例:
quantization
_config=BitsAndBytesConfig(load_in_4bit=True)适用场景:需显著减少
为啥全要学
·
2025-05-22 13:44
模型量化
大模型
大模型
BitsAndBytes
AI模型压缩与优化:如何在资源受限设备上运行大模型?
https://www.captainbed.cn/north文章目录一、引言:边缘计算的挑战与机遇二、模型压缩技术全景图2.1主要压缩技术分类2.2技术选型决策树三、核心优化技术详解3.1参数量化(
Quantization
北辰alk
·
2025-05-19 03:41
AI
人工智能
模型压缩与超参数调整:如何根据具体任务调整超参数
模型压缩有两种主要方式:剪枝(Pruning)和量化(
Quantization
)。下面将详细介绍这两种方法。
AI天才研究院
·
2025-05-16 20:22
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
模型量化:8-bit/4-bit 量化、PTQ 与 QAT+案例
模型量化:8-bit/4-bit量化、PTQ与QAT1.模型量化概述模型量化(
Quantization
)是一种减少模型存储大小和计算复杂度的方法,通常用于嵌入式设备和边缘计算。
奥德彪123
·
2025-05-10 04:53
嵌入式AI
ai
深度学习
边缘计算
大模型之大模型压缩(量化、剪枝、蒸馏、低秩分解),推理(vllm)
目录前言一、模型量化(
quantization
)1.量化概念2.模型量化优点3.什么情况下应该/不应该使用模型量化4.落地挑战5.量化方法5.1量化训练(QuantAwareTraining,QAT)原理
大模型八哥
·
2025-05-08 01:22
剪枝
算法
机器学习
人工智能
agi
ai
大模型
大模型压缩技术详解(2025最新进展)
本文将深入探讨两种主流的模型压缩技术——量化(
Quantization
)和蒸馏(Distillation),揭示如何以低成本部署高性能模型。
一切皆有可能!!
·
2025-05-03 18:28
大模型
语言模型
深度学习模型量化原理
深度学习模型量化原理深度学习模型的量化(
Quantization
)是一种优化技术,它通过减少模型中权重和激活值的精度来减小模型大小和提高推理速度,同时尽量保持模型的准确度。
ai产品老杨
·
2025-04-07 19:02
深度学习
人工智能
python
开发语言
音视频
安全
『大模型笔记』量化 vs 剪枝 vs 蒸馏:为推理优化神经网络!
1.1.量化(
Quantization
)1.2.剪枝(purning)1.3.知识蒸馏(KnowledgeDistillation,也称为模型蒸馏)1.4.工程优化(EngineeringOptimizations
AI大模型前沿研究
·
2025-04-03 05:04
大模型笔记
剪枝
神经网络
大模型
量化
蒸馏
模型压缩
大模型压缩技术主要是为了在保持模型性能的前提下,减少模型的参数量和计算复杂度,以适应更低的计算资源、更小的内存占用和更快的推理速度。以下是当前主流的模型压缩技术,包括但不限于
示例:剪掉Transformer中不重要的注意力头剪掉CNN中对特征提取贡献小的通道2.量化(
Quantization
)量化是指将模型的
Jeremg
·
2025-03-28 01:13
人工智能
语言模型
模型量化 (Model
Quantization
) 算法 (Model
Quantization
Algorithms)
1模型量化的必要性:降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大,其在资源受限的设备(如移动端、嵌入式设备)上的部署面临着巨大的挑战。即使在服务器端,部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数(通常是FP32或FP16)表示的权重和激活值转换为低精度整数(
(initial)
·
2025-03-15 13:24
大模型科普
算法
人工智能
量化
大模型高效优化技术全景解析:微调、量化、剪枝、梯度裁剪与蒸馏
目录微调(Fine-tuning)量化(
Quantization
)剪枝(Pruning)梯度裁剪(GradientClipping)知识蒸馏(KnowledgeDistillation)技术对比与协同策略总结与趋势
时光旅人01号
·
2025-03-14 15:40
人工智能
剪枝
算法
深度学习
数据挖掘
人工智能
Transformer模型量化
Quantization
笔记
模型参数与显存占用计算基础为了详细说明模型的参数数量和每个参数在显存中占用的空间大小,我们以facebookOPT-6.7B模型为例。逐步推理计算过程:1.估计参数总量:OPT-6.7B模型指一个含有大约6.7Billion(67亿)个参数的模型。2.计算单个参数的显存占用:OPT-6.7B模型默认使用Float16,每个参数占用16位(即2字节)的显存。3.计算总显存占用=参数总量×每个参数的显
Foolbird123
·
2025-02-24 13:14
transformer
人工智能
深度学习
DeepSeek模型量化
技术背景大语言模型(LargeLanguageModel,LLM),可以通过量化(
Quantization
)操作来节约内存/显存的使用,并且降低了通讯开销,进而达到加速模型推理的效果。
快乐非自愿
·
2025-02-23 22:29
deepseek
大模型量化概述
模型压缩主要分为如下几类:剪枝(Pruning)知识蒸馏(KnowledgeDistillation)量化
Quantization
)本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、Sm
AI领航者
·
2025-02-22 04:02
人工智能
ai
大模型
AI 模型的优化与应用:大模型本体、蒸馏、量化 与 GGUF
本文将探讨大模型本体(FullModel)、蒸馏(Distillation)、量化(
Quantization
)和GGUF(GPT-GeneratedUnifiedFormat)等优化技术,并分析它们的区别
CCSBRIDGE
·
2025-02-21 23:15
人工智能
人工智能
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式
它的主要目标是通过量化技术(
Quantization
)将大型语言模型(LLM)等深度学习模型的大小和计算复
IT修炼家
·
2025-02-20 12:00
大模型部署
大模型
auto-gptq
cuda
【大模型】量化、剪枝、蒸馏
下面是每种技术的详细介绍:1.量化(
Quantization
)量化是将浮点数表示的模型参数(通常是32位浮点数)转换为低精度表示(如8位整数)。
油泼辣子多加
·
2025-02-19 18:02
深度学习
剪枝
人工智能
算法
deepseek+python,离线api,持续对话
fromtransformersimportAutoModelForCausalLM,AutoTokenizer,BitsAndBytesConfigimporttorch#导入torch模块#配置4-bit量化
quantization
_config
守着黎明看日出
·
2025-02-16 05:43
python
模型轻量化
硬件平台架构与特性(算力、GPU内存带宽)模型压缩工业界主流的模型压缩方法有:知识蒸馏(KnowledgeDistillation,KD)轻量化模型架构(也叫紧凑的模型设计)、剪枝(Pruning)、量化(
Quantization
莱茶荼菜
·
2025-02-11 22:10
人工智能
学习
llama.cpp GGML
Quantization
Type
llama.cppGGMLQuantizationType1.GGMLQuantizationType2.`staticconststructggml_type_traitstype_traits[GGML_TYPE_COUNT]`3.`Q#_K_M`and`Q#_K`References什么神仙妖魔,不过是他们禁锢异族命运的枷锁!GGUFhttps://huggingface.co/docs/h
Yongqiang Cheng
·
2025-02-05 18:06
ggml
-
llama.cpp
-
whisper.cpp
llama.cpp
GGML
Quantization
QLoRa使用教程
一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址:https://huggingface.co/docs/peft/main/en/developer_guides/
quantization
云帆@
·
2024-09-13 03:12
训练
peft
人工智能
chatGLM-6B部署报错
quantization
_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat
Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\
quantization
_kernels_parallel.so
FL1623863129
·
2024-03-20 14:25
环境配置
深度学习
pytorch_
quantization
/cuda_ext.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN3c106detail1
pytorch_
quantization
/cuda_ext.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN3c106detail1pytorch_
quantization
szZack
·
2024-02-12 12:46
人工智能
深度学习
多模态
pytorch
量化
【6s965-fall2022】量化
Quantization
Ⅱ
什么是线性量化r=S(q−Z)r=S(q-Z)r=S(q−Z)式中,SSS是比例因子,通常是一个浮点数;qqq是rrr的量化后的表示,是一个整数;ZZZ也是一个整数,把qqq中和ZZZ相同的整数映射到rrr中零,因此ZZZ是零点偏移。如何确定参数让rmin,rmaxr_{min},r_{max}rmin,rmax为所有原始权重的最小值和最大值;让qmin,qmaxq_{min},q_{max}qm
代码缝合怪
·
2024-02-12 03:45
机器学习+深度学习
pytorch
深度学习
算法
边缘计算
人工智能
AI模型压缩技术
量化(
Quantization
):将
SugarPPig
·
2024-01-26 06:28
人工智能
人工智能
论文解读--Impact of ADC clipping and
quantization
of phase-modulated 79GHz CMOS radar
ADC限幅和量化对相位调制79GHzCMOS雷达的影响摘要宽带调相连续波雷达具有吸引人的特性,但需要非常高速的模数转换器(ADC)。为了保持这些ADC的功耗可接受,它们的分辨率必须保持尽可能低。我们研究了典型的79GHz人员检测场景所需的ADC分辨率。该分析基于端到端的Matlab仿真链进行的仿真,考虑到波形特性、芯片实现、传播效果、目标和环境。我们得出结论,在考虑的场景中,4位ADC是足够的。这
奔袭的算法工程师
·
2024-01-25 17:10
论文解读
算法
人工智能
自动驾驶
目标检测
信号处理
改进yolov7网络(从轻量化方面的8个方法)
以下是8条关于如何从轻量化角度改进YOLOv7网络的建议:1.模型压缩:使用轻量化的模型压缩技术,如剪枝(pruning)和量化(
quantization
),来减小YOLOv7的模型大小。通过剪
qhchao
·
2024-01-21 21:30
YOLO
网络
计算机视觉
HAQ: Hardware-Aware Automated
Quantization
with Mixed Precision
本文的创新点为:作者认为,在不同的平台上,以及不同的layer上,合适的量化bit数都是不同的。但是如果想认为找到这个最优值是不可能的,于是作者使用强化学习的方法来找到最合理的量化bit数。本来芯片是不支持混合精度的计算的,但随着硬件的发展,支持混合机精度计算的芯片也出现了:比如苹果的A12,NVIDIA的图灵GPU框架等,从而使得这种思路得以实现。它的优点是完全自动化,不需要专家知识和启发式规则
JachinMa
·
2024-01-20 19:44
关于MediaCode播放H265/hevc的总结
.265/HEVC的编码架构大致上和H.264/AVC的架构相似,主要也包含,帧内预测(intraprediction)、帧间预测(interprediction)、转换(transform)、量化(
quantization
朝阳眯眼
·
2024-01-20 09:42
android
h265/HEVC
mediacode
cannot import name ‘AbsmaxQuantizer‘ from ‘paddle.fluid.contrib.slim.
quantization
‘ (/opt/conda/envs/
paddleslim最新版2.2.0报错,降级为2.1.1版本即可。开发过程用什么版本,后续就一点要保持版本一致,避免不兼容,增加多余麻烦。
愚昧之山绝望之谷开悟之坡
·
2024-01-18 20:31
各种报错
PaddlePaddle
python
[BUG] cannot import name ‘quantize_qat‘ from ‘onnxruntime.
quantization
‘
前言进行onnx模型量化出现了这个错误解决:卸载重装onnx和onnxruntime,会自动安装最新,由于版本更新取消了quantize_qat函数改为以下代码:fromonnxruntime.quantizationimportquantize_dynamic,QuantType,quantize_staticmodel_fp32='yolov5s.onnx'model_quant='yolov
犟小孩
·
2024-01-18 20:59
BUG
bug
前端
javascript
RuntimeError: floor_vml_cpu not implemented for ‘Int‘
GSNet/lib/python3.7/site-packages/MinkowskiEngine-0.5.4-py3.7-linux-x86_64.egg/MinkowskiEngine/utils/
quantization
.py
qq_43650421
·
2024-01-17 15:35
python
深度学习
开发语言
pytorch
TensorRT模型优化部署 (八)--模型剪枝Pruning
优化部署(三)–ONNX注册算子第四章TensorRT模型优化部署(四)–Rooflinemodel第五章TensorRT模型优化部署(五)–模型优化部署重点注意第六章TensorRT模型优化部署(六)–
Quantization
小豆包的小朋友0217
·
2024-01-16 22:23
TensorRT模型优化部署
剪枝
算法
机器学习
Transformers 中原生支持的量化方案概述
转载自:https://huggingface.co/blog/zh/overview-
quantization
-transformers文章目录资源bitsandbytes与auto-gptq之比较bitsandbytes
小然爱看
·
2024-01-16 15:20
LLM
人工智能
用 Ollama 轻松玩转本地大模型
模型量化(
quantization
)技术可以很大程度上降低显存要求。以4-bit量化为例,其将原
m0_54050778
·
2024-01-14 23:02
python
TensorRT模型优化模型部署(七)--
Quantization
量化(PTQ and QAT)(二)
优化部署(三)–ONNX注册算子第四章TensorRT模型优化部署(四)–Rooflinemodel第五章TensorRT模型优化部署(五)–模型优化部署重点注意第六章TensorRT模型优化部署(六)–
Quantization
小豆包的小朋友0217
·
2024-01-13 08:56
TensorRT模型优化部署
人工智能
深度学习
TensorRT模型优化部署(四)--Roofline model
优化部署(三)–ONNX注册算子第四章TensorRT模型优化部署(四)–Rooflinemodel第五章TensorRT模型优化部署(五)–模型优化部署重点注意第六章TensorRT模型优化部署(六)–
Quantization
小豆包的小朋友0217
·
2024-01-13 08:25
TensorRT模型优化部署
linux
python
第六章 TensorRT模型优化部署(六)--
Quantization
量化基础(一)
优化部署(三)–ONNX注册算子第四章TensorRT模型优化部署(四)–Rooflinemodel第五章TensorRT模型优化部署(五)–模型优化部署重点注意第六章TensorRT模型优化部署(六)–
Quantization
小豆包的小朋友0217
·
2024-01-13 08:20
TensorRT模型优化部署
linux
python
NLP(十八):LLM 的推理优化技术纵览
1.1FasterTransformerbyNVIDIA1.2DeepSpeedInferencebyMicrosoft1.3MLCLLMbyTVM二、模型压缩(ModelCompression)2.1稀疏(Sparsity)2.2量化(
Quantization
javastart
·
2024-01-12 09:46
aigc
大模型
自然语言处理
人工智能
AIGC
chatgpt
llama
TensorRT优化部署(一)--TensorRT和ONNX基础
优化部署(三)------ONNX注册算子文章目录TensorRT部署优化前言一、模型部署目的二、TensorRT的模块2.1Layerfusion(层融合)2.2Kernelauto-tuning2.3
Quantization
小豆包的小朋友0217
·
2024-01-07 10:07
TensorRT模型优化部署
python
linux
模型量化 | Pytorch的模型量化基础
官方网站:
Quantization
—PyTorch2.1documentationPracticalQuantizationinPyTorch|PyTorch量化简介量化是指执行计算和存储的技术位宽低于浮点精度的张量
夏天|여름이다
·
2023-12-27 15:04
-
实用篇
-
pytorch
人工智能
python
【论文解读】CNN-Based Fast HEVC
Quantization
Parameter Mode Decision
时间:2019年级别:SCI机构:南京信息工程大学摘要随着多媒体呈现技术、图像采集技术和互联网行业的发展,远程通信的方式已经从以前的书信、音频转变为现在的音频/视频。和视频在工作、学习和娱乐中的比例不断提高,高清视频越来越受到人们的重视。由于网络环境和存储容量的限制,原始视频必须进行编码才能高效地传输和存储。高效视频编码(HEVC)需要大量的编码时间递归遍历自适应量化过程中编码单元所有可能的量化参
DogDaoDao
·
2023-12-23 14:22
论文解读
神经网络
视频编解码
HEVC
CNN
量化编码
HM
实时音视频
【读点论文】A Survey of
Quantization
Methods for Efficient Neural Network Inference
ASurveyofQuantizationMethodsforEfficientNeuralNetworkInferenceAbstract一旦抽象的数学计算适应了数字计算机的计算,在这些计算中如何有效地表示、处理和传递数值的问题就出现了。与数字表示问题密切相关的是量化问题:一组连续的实值数应该以何种方式分布在一组固定的离散数字上,以最小化所需的位数,并最大化随之而来的计算的准确性?每当内存和/或
羞儿
·
2023-12-05 23:32
论文笔记
模型压缩
模型轻量化
深度学习
Overflow Aware
Quantization
OverflowAwareQuantizationFrameworkNo_oo是amountofarithmeticoverflow辅助信息作者未提供代码
宇来风满楼
·
2023-12-05 08:37
加速
算法
深度学习
人工智能
机器学习
神经网络
pytorch 模型量化
quantization
pytorch模型量化
quantization
1.workflow1.1PTQ1.2QAT2.demo2.1构建resnet101_
quantization
模型2.2PTQ2.3QAT参考文献pytorch
L1_Zhang
·
2023-12-03 20:27
AI部署实战
pytorch
量化
QAT
PTQ
Q-BERT: Hessian Based Ultra Low Precision
Quantization
of BERT---Q-BERT:基于Hessian的超低精度BERT量化
论文标题:Q-BERT:HessianBasedUltraLowPrecisionQuantizationofBERT---Q-BERT:基于Hessian的超低精度BERT量化Abstract1RelatedWorkModelcompression模型压缩CompressedNLPmodel2Methodology2.1Quantizationprocess2.2Mixedprecisionqu
土豆娃potato
·
2023-11-30 19:29
模型量化论文
量化论文
学习向量量化 Learning Vector
Quantization
| LVQ
目录前言一、学习向量量化是什么?二、学习向量量化的优点和缺点三、学习向量量化的应用场景四、构建学习向量量化模型的注意事项五、学习向量量化模型的实现类库六、学习向量量化模型的评价指标七、类库scikit-learn实现学习向量量化的例子八、学习向量量化的模型参数总结前言学习向量量化是机器学习中无监督学习的一种聚类算法。一、学习向量量化是什么?学习向量量化(LearningVectorQuantiza
JasonH2021
·
2023-11-26 17:01
机器学习算法
机器学习
聚类
人工智能
学习向量量化
LVQ
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他