吃果冻不吐果冻皮

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。
模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化

之前也写过一些文章涉及大模型量化相关的内容。

基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化
TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

本系列将针对大模型的一些常见训练后量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。

大模型量化概述
大模型量化技术原理-GPTQ、LLM.int8()
大模型量化技术原理-SmoothQuant
大模型量化技术原理-AWQ、AutoAWQ
大模型量化技术原理-SpQR
大模型量化技术原理-ZeroQuant系列

而本文主要针对大模型量化技术LLM.int8()、GPTQ进行讲述。

大模型量化的对象

大模型量化的对象主要有：权重、激活、KV Cache、梯度、优化器等。由于梯度量化主要在训练场景使用，用于减少反向传播时的计算和通信开销。优化器量化（如：8-Bit Optimizers Via Block-Wise Quantization）也是用于训练场景；因此，本系列仅讨论权重、激活、KV Cache量化方案。

仅权重量化，如：W4A16、AWQ及GPTQ中的W4A16，W8A16（权重量化为INT8，激活仍为BF16或FP16）
权重、激活量化，如：SmoothQuant中的W8A8
KV Cache INT8 量化，LLM 推理时，为了避免冗余计算，设计了 KV Cache 缓存机制，本质上是空间换时间，由于 KV Cache 的存在，对于支持越长的文本长度的 LLM， KV Cache 的显存占用越高。因此，KV Cache 的量化也是有很必要的。

LLM.int8()

背景

作者发现激活中存在一些离群值，它们的绝对值明显更大；并且这些离群值分布在少量的几个特征中，称为离群特征 (Emergent Features)。以激活 $\in \mathbb{R}^{[T \times h ]}$ 和权重 $\in \mathbb{R}^{[h \times h_0]}$ 的矩阵相乘为例，特征维度就是指h这个维度。不论是 per-token（针对激活 x 而言：每行对应一个量化系数）还是 per-channel （针对权重 w 而言：每列对应一个量化系数）量化，都会受到这些离群值的很大影响。既然只有少量的特征包含离群值，LLM.in8() 的思路是把这些特征拿出来单独计算，只对剩余特征做量化。

技术原理

LLM.int8()（论文：LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale）是一种采用混合精度分解的量化方法。该方案先做了一个矩阵分解，对绝大部分权重和激活用8bit量化（vector-wise）。对离群特征的几个维度保留16bit，对其做高精度的矩阵乘法。

LLM.int8() 通过三个步骤完成矩阵乘法计算:

从输入的隐含状态中，按列提取异常值 (离群特征，即大于某个阈值的值)。
对离群特征进行 FP16 矩阵运算，对非离群特征进行量化，做 INT8 矩阵运算；
反量化非离群值的矩阵乘结果，并与离群值矩阵乘结果相加，获得最终的 FP16 结果。

实验结果表明该方法效果良好。可以通过使用 LLM.int8() 的量化过程来恢复全部性能。您可以清楚地看到随着模型参数量逐渐变多 8 比特基线（即 vector-wise quantization）的性能大幅下降。而 LLM.int8() 方法使用vector-wise quantization和混合精度分解来恢复全部性能。

虽然 LLM.in8() 带来的性能下降微乎其微，但是这种分离计算的方式拖慢了推理速度。对于 BLOOM-176B，相比于 FP16，LLM.int8() 慢了大约 15% 到 23%；对于更小的模型（3B 和 11B），速度差距更为明显，LLM.int8() 慢了三倍以上。

此外，论文中测量了异常值特征对于注意力和预测性能的影响。

下图展示了 Transformer 中受模型大小或 C4 困惑度影响的大量异常值特征的层和所有序列维度的百分比。

从图中可知，当通过参数数量进行测量时，Transformer 所有层上的大幅异常值特征突然出现在 6B 和 6.7B 参数之间。受影响层的百分比从 65% 增加到 100%，受影响的序列维度数量从 35% 迅速增加到 75%。这种突然的转移与量化开始失败的点同时发生。

当通过困惑度（perplexity）进行测量时，Transformer 所有层中大量异常值特征的出现可以被视为根据困惑度递减的指数函数平滑的出现。这表明异常值的出现并不是突然的，并且通过研究较小模型中的指数趋势，我们也许能够在相移（相位移动，Phase shift，是一个物理学和工程学中常用的术语。它指的是一个波形在时间上发生的移位现象）发生之前检测到异常值出现的特征。这也表明，异常值的出现不仅与模型大小有关，还与困惑度有关，而困惑度与多个其他因素有关，例如：使用的训练数据量和数据质量。

如下图a所示，一旦异常值特征出现在Transformer的所有层中，中间的异常值特征量值就会迅速增加。大量异常值特征及其不对称分布破坏了 Int8 量化精度。这是量化方法从 6.7B 开始失败的核心原因——量化分布的范围太大，导致大多数量化 bins 为空，小的量化值被量化为零，基本上消除了信息。我们推测，除了 Int8 推理之外，由于超出 6.7B 参数范围，常规 16 位浮点训练也会因异常值而变得不稳定。如果通过向量填充乘以 60 的值，很容易偶然超过最大 16 位值 65535。

如下图b所示，离群值特征的数量相对于 C4 困惑度的降低严格单调增加，而与模型大小的关系是非单调的。这表明模型的困惑度（perplexity）决定了相移，而不仅是模型的大小。我们推测模型大小只是离散特征出现所需的众多协变量中的一个重要协变量。

目前，LLM.int8() 的实现主要在 bitsandbytes 库；之前的文章大模型微调实战（八）-使用INT8/FP4/NF4微调大模型中介绍过bitsandbytes 库，同时，transformers 库已经集成并原生支持了 bitsandbytes 这个量化库。课可以说 bitsandbytes 是量化任何模型的最简单方法之一，因为它不需要量化校准数据及校准过程 (即零样本量化)。任何模型只要含有 torch.nn.Linear 模块，就可以对其进行开箱即用的量化。每当在 transformers 库中添加新架构时，只要其可以用 accelerate 库的 device_map="auto" 加载，用户就可以直接受益于开箱即用的 bitsandbytes 量化，同时该方法对性能的影响也是最小的。量化是在模型加载时执行的，无需运行任何后处理或准备步骤。与此同时，LLM.int8() 作者提出的另一种 QAT 量化方案 QLoRA 也是基于 bitsandbytes 进行实现。

在 Transformers 中使用 LLM.int8() 只需提前安装 bitsandbytes 即可，使用 LLM.int8() 方法量化transformer模型具体示例如下：

8bit量化：

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
  'decapoda-research/llama-7b-hf',
  device_map='auto',
  load_in_8bit=True,
  max_memory={
    i: f'{int(torch.cuda.mem_get_info(i)[0]/1024**3)-2}GB'
    for i in range(torch.cuda.device_count())
  }
)

4bit量化：

from transformers import BitsAndBytesConfig

nf4_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_quant_type="nf4",
   bnb_4bit_use_double_quant=True,
   bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=nf4_config)

GPTQ

背景

GPTQ 并不是凭空出现的，它的原理来自于另一个量化方法OBQ(Optimal Brain Quantization)，而OBQ 实际上是对 OBS(Optimal Brain Surgeon，一种比较经典的剪枝方法）的魔改，而OBS则来自于OBD（Optimal Brain Damage，由 Yann LeCun 在1990年提出的剪枝方法）。

如果要在模型中去除一些参数（即剪枝），我们希望去除对目标函数 $E$ 影响小的参数。于是 OBD 作者对目标函数 $E$ 做泰勒展开，同时，作者做了一些假设（如：假设删除任意一个参数后，其他参数对目标函数的影响不变。也就是说，每个参数对目标函数的影响是独立的），对上式进行简化。最终得到一个只要计算海森矩阵 $h_{ii}$ ，就可以知道每个参数对目标的影响。

OBS 则认为，参数之间的独立性不成立，因此，还是要考虑交叉项。在OBS中，作者希望找到一种方法，假设我们要抹去一个权重记为 $w_q$ ，使得其对整体的误差增加最少，并且同时计算出一个补偿 $\delta_q$ 应用于剩余的权重上，使得抹去的这个权重增加的误差被抵消，作者找到了这样的一个方法，并通过求解海森矩阵的逆，就可以计算每个参数权重 $w_q$ 对目标的影响，然后就可以按照影响从小到大给参数排个序，这样就确定了参数剪枝的次序。同时，每次剪枝一个参数，其他的参数也更新一次从而减少误差。

OBQ 把它推广到量化中，剪枝是一种特殊的量化，常用的量化是把数值近似到一个接近的值，而剪枝实际上可以看做把数值直接近似成0，可以理解为一种特殊的量化。

OBQ 不错，但是太慢，OBQ 在一小时左右量化一个 ResNet50，在大模型（如：GPT3）上可能要数天。GPTQ 对 OBQ 做了一些算法和性能上的优化，在降低量化算法复杂度的同时保留了模型的精度，因而可以实现大模型的高效量化。可以说 GPTQ 是它的加速版，使用 GPTQ 量化一个 Bloom 模型 (176B) 则只需不到 4 个小时；并且 GPTQ 的量化有严谨的数学理论推导，所有的算法步骤都有理论支撑。

技术原理

GPTQ(论文：GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PR
E-TRAINED TRANSFORMERS) 采用 int4/fp16 (W4A16) 的混合量化方案，其中模型权重被量化为 int4 数值类型，而激活值则保留在 float16，是一种仅权重量化方法。在推理阶段，模型权重被动态地反量化回 float16 并在该数值类型下进行实际的运算；同 OBQ 一样，GPTQ还是从单层量化的角度考虑，希望找到一个量化过的权重，使的新的权重和老的权重之间输出的结果差别最小。

GPTQ 将权重分组（如：128列为一组）为多个子矩阵（block）。对某个 block 内的所有参数逐个量化，每个参数量化后，需要适当调整这个 block 内其他未量化的参数，以弥补量化造成的精度损失。因此，GPTQ 量化需要准备校准数据集。

GPTQ 量化过程如下图所示。首先，使用 Cholesky 分解中 Hessian 矩阵的逆，在给定的step中对连续列的块（粗体）进行量化，并在step结束时更新剩余的权重（蓝色）。量化过程在每个块内递归应用：白色中间列表示当前正在被量化。

GPTQ 的创新点如下：

取消贪心算法：OBS 采用贪心策略，先量化对目标影响最小的参数；但 GPTQ 发现直接按顺序做参数量化，对精度影响也不大。这项改进使得参数矩阵每一行的量化可以做并行的矩阵计算（这意味着我们可以独立地对每一行执行量化。即所谓的 per-channel quantization）。对于大模型场景，这项改进使得量化速度快了一个数量级；
Lazy Batch-Updates：OBQ 对权重一个个进行单独更新，作者发现性能瓶颈实际在于GPU的内存带宽，而且同一个特征矩阵W不同列间的权重更新是不会互相影响的。因此作者提出了延迟批处理的方法，通过延迟一部分参数的更新，一次处理多个（如：128）列，来缓解带宽的压力，大幅提升了计算速度。
Cholesky 分解：用 Cholesky 分解求海森矩阵的逆，提前计算好所有需要的信息，在增强数值稳定性的同时，后续更新的过程中再计算，进一步减少了计算量。

GPTQ的伪代码如下所示，包括了上面讨论的一些优化：

该方案有以下两方面的优点：

int4 量化能够节省接近4倍的内存，这是因为反量化操作发生在算子的计算单元附近，而不是在 GPU 的全局内存中。
由于用于权重的位宽较低，因此可以节省数据通信的时间，从而潜在地提升了推理速度。

一般来说，GPTQ推荐使用8-bit量化及groupsize = 128。

目前，社区存在一些基于 GPTQ 算法大语言模型量化工具，如：AutoGPTQ、GPTQ-for-LLaMa 、Exllama 和 llama.cpp ，其中，GPTQ-for-LLaMa 、Exllama 和 llama.cpp 主要针对 Llama 模型架构实现量化策略。相较之下，AutoGPTQ 因其对丰富的 Transformers 架构的平滑覆盖而广受欢迎。

同时，AutoGPTQ 代码库集成到了 Transformers 中，让用户使用 GPTQ 算法在 8 bit、4 bit、3 bit，甚至是 2 bit 精度下量化和运行模型成为可能。当使用 int4 量化时，精度的下降可以忽略不计，同时在小批量推理上保持着与 fp16 基线相当的速度。需要注意的是，GPTQ 方法与 bitsandbytes 提出的训练后量化方法有所不同，GPTQ 需要在量化阶段提供一个校准数据集。

在 Transformers 中使用 GPTQ 只需提前安装AutoGPTQ和Optimum即可，使用 GPTQ 方法量化transformer模型具体示例如下：

from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig

model_id = "facebook/opt-125m"
tokenizer = AutoTokenizer.from_pretrained(model_id)
quantization_config = GPTQConfig(bits=4, dataset = "c4", tokenizer=tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", quantization_config=quantization_config)

结语

本文简要介绍了两种比较常用的大模型量化方法 GPTQ、LLM.int8()；LLM.int8() 属于 round-to-nearest (RTN) 量化：舍入到最近的定点数。而 GPT-Q 则是把量化问题视作优化问题，逐层寻找最优的量化权重。目前，这两种量化方法也集成到了Transformers库中，大家可以非常方便的使用。

码字不易，如果觉得我的文章能够能够给您带来帮助，期待您的点赞收藏加关注~~

参考文档

大语言模型的模型量化(INT8/INT4)技术
https://github.com/TimDettmers/bitsandbytes
https://timdettmers.com/2022/08/17/llm-int8-and-emergent-features/
https://huggingface.co/blog/zh/hf-bitsandbytes-integration
https://huggingface.co/blog/zh/4bit-transformers-bitsandbytes
https://github.com/IST-DASLab/gptq
https://github.com/AutoGPTQ/AutoGPTQ
https://huggingface.co/blog/zh/gptq-integration
QLoRA、GPTQ：模型量化概述：https://zhuanlan.zhihu.com/p/646210009
NLP（十一）：大语言模型的模型量化(INT8/INT4)技术：https://zhuanlan.zhihu.com/p/627436535
GPTQ-for-LLaMa 量化分析和优化

FastAPI vs Flask vs Django：Python Web框架全面对比天天进步2015 python python fastapi flask
Python作为最受欢迎的编程语言之一，其Web开发生态极为丰富。FastAPI、Flask和Django是当前主流的三大PythonWeb框架，各有千秋。本文将从架构设计、开发效率、性能表现、生态支持、适用场景等方面，全面对比这三大框架，帮助开发者选择最适合自己的技术栈。目录框架简介架构设计与理念开发效率与易用性性能对比生态与扩展性典型应用场景总结与选型建议参考资料框架简介FastAPI定位：新
免费实时AI图片编辑工具-多模态大模型：GPT-4o、grok、豆包、BAGEL、MagicQuill、OmniGen2 loong_XL AIGC aigc
纯自然语言对话实现图像编辑；参考https://zhuanlan.zhihu.com/p/1890036563586577897GPT-4ohttps://chatgpt.com/geminihttps://gemini.google.com/grokhttps://grok.com/?referrer=website
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
60 python asyncio模块(异步IO) 爬呀爬的水滴 python零基础到入门 python 开发语言前端 asyncio 异步io
一、asyncio概述asyncio是Python标准库中用于编写异步I/O操作的强大模块，特别适用于处理I/O密集型任务。在传统同步编程中，当程序遇到网络请求、文件读写等I/O操作时会阻塞等待，导致资源浪费。而asyncio通过异步编程模型，让程序在等待I/O操作时能同时处理其他任务，极大提升了单线程程序的并发效率。二、asyncio核心概念2.1协程（Coroutine）协程是asyncio的
gem5-gpu教程 DSENT (Design Space Exploration of Networks Tool) 配合gem5 事橙1999 gem5-gpu 硬件架构
概述DSENT是一种建模工具，旨在快速探索电子和新兴的片上光电网络（NoC）的设计空间。它为各种网络组件提供分析和参数化模型，并可在一系列技术假设下移植。给定架构级参数，DSENT从电气和光学构建块分层构建指定的模型，并输出详细的功率和面积估计。版本当前：0.91（2012年6月26日）最新版本或其他信息可在以下网址找到https://sites.google.com/site/mitdsent系
模型性能评估实战：解密大模型准确率与召回率的计算逻辑与业务权衡
在AI项目落地过程中，模型性能评估是关键一步。想必大家都听过这样的案例：某医疗AI项目中，一个在测试集上准确率达到98%的肺癌筛查模型，实际部署后却遗漏了20%的早期癌变患者。无独有偶，某银行风控系统中，一个标榜着99.5%“高准确率”的模型，实际使用中却放过了90%的信用卡欺诈行为。这些案例都给我们敲响了警钟，模型性能评估中存在不少被忽视的致命盲区，今天就让我们一同深入探寻这其中的奥秘。第一部分
【爆款长文】RAG检索增强大模型的“记忆力”革命：Contextual Chunk Headers（CCH）实战全解析许泽宇的技术分享人工智能机器学习
大家好，我是你们的AI技术侃侃而谈小能手。今天我们来聊聊RAG（Retrieval-AugmentedGeneration）这个AI圈的“记忆力补脑丸”，以及它最近新晋的“脑白金”——ContextualChunkHeaders（CCH）。别眨眼，这可是让大模型“查资料”能力质变的秘密武器！一、RAG：让大模型不再“张口就胡说”先来个小科普。RAG是什么？简单说，就是给大模型加个“外挂”，让它在回
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
使用UmiJS框架开发React 汇智知了堂前端理论知识 react java
1、什么是Umi.js?umi，中文可发音为乌米，是一个可插拔的企业级react应用框架。你可以将它简单的理解为一个专注性能的类next.js前端框架，并通过约定、自动生成和解析代码等方式来辅助开发，减少我们开发者的代码量。2、为什么使用Umi.js?我们做react开发的时候会不会遇到以下问题？：2.1项目做大的时候，开发调试的启动和热更新时间会变得很长。2.2大应用下，网站打开很慢，有没有办法
层归一化Layer Normalization Summer_Anny python 人工智能
层归一化层归一化（LayerNormalization）是一种神经网络中常用的归一化技朧，用于在训练过程中加速收敛、稳定训练，并提高模型的泛化能力。与批归一化（BatchNormalization）类似，层归一化是一种归一化技朧，但是它是对每个样本的特征进行归一化，而不是对整个批次的特征进行归一化。层归一化的计算公式如下：[LayerNorm(x)=γx−μσ2+ϵ+β][\text{LayerN
领域驱动设计：从餐厅到代码，轻松理解 DDD 颯沓如流星架构师数据库
领域驱动设计（Domain-DrivenDesign,DDD），这是一种广泛应用于复杂系统设计的软件开发方法论。领域驱动设计（DDD）简介领域驱动设计（DDD）是由EricEvans提出的一种软件设计方法，旨在通过深入理解业务领域来构建复杂的软件系统。DDD的核心思想是将系统的设计和实现与业务领域紧密结合，通过领域模型来指导开发过程。DDD的关键概念1.领域（Domain）：领域是指软件系统所涉及
Veo 3 可以生成视频，并附带配乐 TechVision大咖圈音视频人工智能
谷歌最新的视频生成AI模型Veo3可以创建与其生成的剪辑相配的音频。周二，在谷歌I/O2025开发者大会上，谷歌发布了Veo3。该公司声称，这款产品可以生成音效、背景噪音，甚至对话，为其制作的视频增添配乐。谷歌表示，Veo3在生成的视频质量方面也比上一代Veo2有所提升。Veo3从周二开始在谷歌的Gemini聊天机器人应用程序中推出，供谷歌每月249.99美元的AIUltra计划订阅者使用，可以通
【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) XuecWu3 pytorch 分布式人工智能深度学习
最近，我在服务器上起基于PyTorch分布式框架的预训练实验，起初实验都在顺利进行，但是当我们把模型的深度与宽度调大之后，模型在训练几代之后便会出现如下的报错：WARNING:torch.distributed.elastic.multiprocessing.api:Sendingprocess41495closingsignalSIGTERMWARNING:torch.distributed.e
ARMv8-A架构参考手册：全面解析ARM架构的未来韦原策Noblewoman
ARMv8-A架构参考手册：全面解析ARM架构的未来【下载地址】ARMv8-A架构参考手册探索ARMv8-A架构的终极指南，本手册深入解析了AArch64与AArch32两种执行状态，涵盖了A32、T32及A64指令集，以及异常模型、内存管理、程序员模型等核心内容。无论您是开发者还是研究人员，都能从中获取到关于ARMv8-A架构的全面知识，助您在处理器操作、系统寄存器和安全模型等领域游刃有余。通过
终端里的AI黑魔法：OpenCode深度体验与架构揭秘许泽宇的技术分享人工智能 AICode
“你以为AI只能在网页上点点鼠标？不，真正的极客，AI要在终端里飞！”各位码农、终端党、AI爱好者们，今天我要带你们走进一个神秘的世界——OpenCode。这是一个让AI在你终端里“蹦迪”的神器。你还在用ChatGPT网页版复制粘贴代码？你还在羡慕ClaudeCode的智能补全？醒醒吧，OpenCode已经把AI搬进了终端，开源、可扩展、还不挑AI模型，关键是——它真的很酷！一、什么是OpenCo
Veo 3 视频生成大模型完整操作教程（2025）迎风斯黄音视频人工智能
随着AI多模态能力的飞跃，GoogleDeepMind发布的Veo3成为了生成视频领域的一颗重磅炸弹。它不仅能够根据文本生成高质量的视频画面，还能同步生成对白、背景音和环境音，是目前最接近真正“AI导演”的大模型。本文将带你详细了解Veo3的功能、使用方式、提示词撰写技巧，以及完整的创作流程，适合希望用AI快速生成短视频、概念片段、广告、剧情短片等内容的创作者与开发者。一、Veo3是什么？Veo3
java实现chatGPT SDK yusheng_xyb chatgpt 人工智能 java
搭建一个ChatGPT-SDK组件工程，专门用于封装对OpenAI接口的使用。由于OpenAI接口本身较多，并有各类配置的设置，所以开发一个共用的SDK组件，更合适我们在各类工程中扩展使用整个流程为：以会话模型为出口，，驱动整个服务的调用链路。并对外提供会话工厂的创建和使用。通过工厂模式，开启一个使用okhttp3封装的OpenAi会话服务，进行流程的调用。同时这里还包括请求拦截的处理，因为我们需
嵌入式环境下的C++最佳实践 is0815 c++开发语言
目标：学习嵌入式环境下的C++最佳实践内存管理优化：避免动态分配为什么避免动态分配？堆内存分配（如malloc,new）开销大，速度慢。堆内存容易导致碎片化，增加内存压力。动态分配增加内存泄漏、使用后未释放等风险。实时、高性能系统（嵌入式、游戏引擎）尤其需要优化内存管理。栈vs堆的性能对比特性栈(stack)堆(heap)分配/释放速度极快(O(1))较慢(需管理分配表，O(logn)或更慢)生命
DeepSeek R1 Android本地化部署 Dawson_Jiang 大模型 deepseek ollama AI 大模型手机部署deepseek
1.概述android手机端部署deepseek一般需要安装termux,ollama,deepseek三个大的步骤原因分析：deepseek等大模型需要类似ollama的工具去运行。ollama有macwindow和linux版本，无Android版本；termux是一个模拟linux环境的Androidapp，在此环境中即可安装运行ollamalinux版本，然后再ollama上面部署运行de
Midscene.js介绍和使用望华笙测试工具 ui 前端
Midscene.js介绍和使用由于课程任务的需要，本人去寻找了AI+软件测试的相关应用，发现了Midscene这一便利的UI自动化测试工具。本篇博客主要对Midscene作了介绍，也给出了本人在使用Midscene过程中遇到的问题及摸索到的解决方案。Midscene.js是一个开源的基于多模态大型语言模型的UI自动化测试工具，它是由字节的web-infra团队开发。它能够智能地“解析”用户界面并
配网体验大跃升！Matter 1.4.1让家居互联“一气呵成” 华普微HOPERF 华普动态科普生态物联网科技
智能家居，作为全体人类追求理想人居环境的终极愿景，具备着庞大的商业潜力，并吸引了无数企业凝聚资源投身于此。然而，在单品智能迈向全屋智能的发展路径上，除了要解决智能家居设备间的通信兼容问题外，还要在用户体验层面上去解决智能家居设备配网流程繁琐冗长的问题。近日，为提升用户体验，解决“配网焦虑”这一行业痛点，连接标准联盟（CSA）正式发布了能让用户轻松的配置智能家居设备的Matter1.4.1版本。本次
Python HTTP服务监控：Prometheus与自定义Exporter开发指南
在微服务架构中，HTTP服务的高效监控对保障系统稳定性至关重要。Prometheus作为云原生监控标杆，通过其Pull模型与灵活的指标体系，结合Python开发的自定义Exporter，可实现HTTP服务性能、可用性及业务指标的全面观测。Prometheus监控核心机制Prometheus采用时间序列数据库存储指标数据，每条数据由指标名称（如http_requests_total）、标签（如met
储能业 | 低成本部署！DolphinDB 打造抽水蓄能一体化解决方案 DolphinDB智臾科技物联网数据库大数据 DolphinDB 实时计算抽水蓄能电力
导语在电力行业抽水蓄电场景中，电力集团可以基于DolphinDB搭建轻量化实时数仓，有效破解高频数据写入、万亿级数据存储和秒级实时计算等核心难题。同时，该方案助力集团降本增效，提升运维效率，并实现对多个电站数据的统一管理与调度，加快数字化转型步伐。一、行业背景构建清洁低碳、安全高效的新型能源电力系统是实现“双碳”目标的一大关键任务。其中，抽水蓄能作为当前最成熟、最具规模化应用前景的物理储能技术，正
【C#程序设计】教学讲义——第二章：简单C#程序设计刘一哥GIS 《GIS程序设计》C#程序设计谭浩强面向对象类
教学目录2.1面向对象的概念2.2建立简单的应用程序2.3窗体和Label控件2.4文本框-属性2.5按钮控件本章小结2.1面向对象的概念2.1.1对象和类1.对象对象是客观世界中对象的模型化。对象是有着特殊数据（属性）与操作（行为）的实体，对象的操作（行为）称为方法。程序中的对象是模型化了的客观世界的对象，它是代码和数据的封装体，用数据表示属性，用代码（过程或函数）表示方法。一个程序对象的属性用
合规型区块链RWA系统解决方案报告——机构资产数字化的终极武器 Ashlee_guweng22346 区块链需求分析架构 python eclipse c#git
（跨境金融科技解决方案白皮书）一、直击机构客户四大痛点痛点传统方案缺陷我们的破局点✖️跨境资产流动性差结算周期30+天，摩擦成本超8%▶️7×24h全球实时交易（速度提升90%）✖️合规成本飙升KYC/AML人工审核占成本35%+▶️自动化合规引擎（成本降低50%）✖️资产透明度缺失多层中介导致权属不清▶️链上全生命周期溯源（100%防篡改）✖️新型资产配置难非标资产难分割、难定价▶️碎片化代币发
Django ORM 1. 创建模型（Model）博观而约取 Python django 数据库 python
1.ORM介绍什么是ORM？ORM，全称Object-RelationalMapping（对象关系映射），一种通过对象操作数据库的技术。它的核心思想是：我们不直接写SQL，而是用Python对象（类/实例）来操作数据库表和记录。ORM就像一个“翻译官”，帮我们把Python代码翻译成数据库能听懂的SQL命令。为什么使用ORM?Django中的ORM提供了一个高层次、抽象化的接口来操作数据库，它的优
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
鸿蒙线程池全揭秘：让你的应用快、稳、省资源 harmonyos
摘要在现代应用开发中，多线程已经成为提升程序性能、优化用户体验的关键手段。尤其是在HarmonyOS（鸿蒙系统）这种强调分布式、并发处理的系统架构中，合理使用多线程不仅可以让程序运行更高效，还能帮助我们处理复杂的后台任务，比如文件下载、数据库操作、网络请求等。引言鸿蒙系统作为面向多设备融合的新一代操作系统，其支持的多线程模型与传统Android十分类似。很多Java的线程操作方法在鸿蒙中依然适用。
unity如何让一个物体拥有按钮功能 Lowjin_ unity unity 游戏引擎
在Unity中，要让一个物体（例如一个3D模型、UI元素或其他对象）变成一个按钮，你需要为它添加交互功能。这通常意味着让物体能够响应点击事件，像UI按钮那样触发某些行为。对于3D物体，可以通过射线检测（Raycast）来处理点击交互，而对于UI元素，则直接使用Unity的UIButton组件。这里提供几种常见的方式来让物体变成按钮：方法1：让一个3D物体（例如模型）变成按钮如果你有一个3D物体，并
鸿蒙关系型数据库实战：高效数据存储与管理数据库harmonyos
在鸿蒙应用开发中，关系型数据库（RDB）是结构化数据存储的核心方案。通过深度实践，其基于SQLite的轻量级实现不仅性能出色，更提供了强大的事务支持和类型安全。以下是关键经验总结：三大核心优势：SQL兼容：完整支持SQL92标准语法线程安全：内置多线程读写锁机制加密存储：支持AES-256加密敏感数据关系型数据库实战封装及使用：在Utils目录下新建一个RdbUtils文件//./src/main
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

大模型量化技术原理-LLM.int8()、GPTQ

大模型量化的对象

LLM.int8()

背景

技术原理

GPTQ

背景

技术原理

结语

参考文档

你可能感兴趣的:(动手学大模型,人工智能)