Activewaste

INT8量化原理理解

INT8量化的深入理解

参考
量化几连问
INT8量化原理
- INT8量化目的
- 不饱和（最大值）映射
- 饱和映射
- INT8量化流程
- TensorRT 的INT8量化
- - TensorRT INT8量化过程
  - 编写Calibration器，进行INT8量化
关于INT8量化原理的Q&A

参考

Int8量化-介绍（一）
TensorRT INT8量化原理以及如何编写校准器类进行校准
TensorRT(5)-INT8校准原理

博主在上面文章的基础上进行合并整理，包括从这些文章的评论里提取有用的信息，帮助大家理解INT8量化的原理，加深巩固认识，也方便自己复习。
强烈推荐一下第一篇知乎回答，我自己来回看了包括评论有三遍左右进行理解加深，答主写得清晰有趣。

量化几连问

为什么量化有用？
因为CNN对噪声不敏感。（博主认为，这个回答应该是基于CNN的卷积不变性。抹掉一两个像素点的话，对CNN最终的学习没有太大影响，毕竟CNN学习的也都是概率，这个噪声只会将降低一点点最终的得分，但是CNN的大体预测方向还是对的）
为什么用量化？
模型太大，比如alexnet就200MB，存储压力大的哟，必须要降一降温；
每个层的weights范围基本都是确定的，且波动不大，适合量化压缩；
此外，既减少访存又减少计算量，优势很大的啊！
为什么不直接训练低精度的模型？
因为你训练是需要反向传播和梯度下降的，int8就非常不好做了，举个例子就是我们的学习率一般都是零点几零点几的，你一个int8怎么玩？
其次大家的生态就是浮点模型，因此直接转换有效的多啊！
为什么量化是可以保证原信息的？
这个原因就好比高清图跟低分辨率图的区别，只要你的目标是大体识别出图中是啥这一信息，那么低分辨率的图也是允许的。你看网上的视频加入马赛克后还会不会影响你的判断呢？并不会，你会脑补出额外的细节，只有当满屏的马赛克的时候才会影响你的观影体验，因此这个打码，噢不，量化其实就是一个程度的问题，一个你能否接受的程度问题。

INT8量化原理

INT8量化目的

就是把原来的float 32bit 的卷积操作（乘加指令）转换为int8的卷积操作，这样计算就变为原来的1/4，但是访存并没有变少哈，因为我们是在kernel里面才把float32变为int8进行计算的。

不饱和（最大值）映射

简单的将一个tensor 中的 -|max| 和 |max| FP32 value 映射为 -127 和 127 ，中间值按照线性关系进行映射。但是试验结果显示这样做会导致比较大的精度损失。

把一个layer的激活值范围的给圈出来，然后按照绝对值最大值作为阀值（因此当正负分布不均匀的时候，是有一部分是空缺的，也就是一部分值域被浪费了；这里有个小坑就是，假如我的激活值全是正的，没有负值，那么你怎么映射呢？），然后把这个范围直接按比例给映射到正负127的范围内来，公式如下：

FP32 Tensor (T) = scale_factor(sf) * 8-bit Tensor(t) + FP32_bias (b)

缺点：这是针对均匀分布的，很明显的可以知道，只要数据分布的不是很均匀，那么精度损失是很大很明显的（因为不均匀的地方就会出现空缺，值域也被浪费掉）。

为什么说最大值映射会精度损失严重？？？

你看值的分布，由于正负分布很不均匀，如果按照对称最大值映射（原意是为了尽可能多地保留原信息）的话，那么+max那边有一块区域就浪费了，也就是说scale到int8后，int8的动态范围就更小了，举个极端的例子就是量化后原本int8的动态范围只剩1bit了（就是正的样本没有，负的全部扎堆在一个很小的值附近），就是上面说到的满屏马赛克～这种情况下。。。那还表示个毛的原信息啊！
（这里其实没映射前这个值很详细吗，32bit呢，虽然都聚集到一个部分（使得最后映射到负的一个很小值附近），但是没有映射前仍然表示了很多信息啊，现在你映射了，就这么一小块信息，肯定表示不了了呀）

官方给的图：
下面这张图展示的是不同网络结构的不同layer的激活值分布，有卷积层，有池化层，他们之间的分布很不一样，因此合理的量化方式应该适用于不同的激活值分布，并且减小信息损失。因为从FP32到INT8其实就是一种信息再编码的过程。

该文博主的理解的直接使用线性量化的方式导致精度损失比较大的原因是：

上图是一些网络模型中间层的激活值统计，横坐标是激活值，纵坐标是统计数量的归一化表示，这里是归一化表示，不是绝对数值统计；

这个激活值统计针对的是一批图片，不同的图片输出的激活值不完全相同。所以图上并不是一条曲线而是多条曲线（一张图片（输入到网络进行学习的图片）会对应一条曲线（或者说一条散点线）），只不过前面一部分重复在一块了（红色虚线圈起来的部分），说明对于不同图片生成的大部分激活值其分布是相似的；但是在激活值比较大时（红色实线圈起来的部分），曲线不重复了，一个激活值对应多个不同的统计量，这时的激活值分布就比较乱了。

后面这一部分在整个层中是占少数的（占比很小，比如10^-9, 10^-7, 10^-3），因此后面这一段完全可以不考虑到映射关系中去，保留激活值分布的主方向。开始我以为网络之所以能把不同类别的图片分开是由于后面红色实线圈起来的部分的差异导致的，后来想了一下：这个并不包含空间位置的分布，只是数值上的分布，所以后面的应该对结果影响不大。

饱和映射

存在一个阈值 |T| ，将 ±|T| 映射为±127，显然这里 |T|<|max|。（当T取max就是非饱和映射咯，那可不可能取得到吗？？博主认为是可能的（或者可以接近于max），毕竟模型自己校准的过程中，T落在max附近使得相对熵最小是有可能的，比如激活值分布均匀的时候）
超出阈值 ±|T| 外的直接映射为阈值 ±127。比如上图中的三个红色点，直接映射为-127。
只要阈值选取得当，就能将分布散乱的较大的激活值舍弃掉，也就有可能使精度损失不至于降低太多。

那现在的问题是如何确定|T|？我们来思考一下，现在有一个FP32的tensor，FP32肯定是能够表达这个tensor的最佳分布。现在我们要用一个不同的分布（INT8）来表达这个tensor，这个 INT8 分布不是一个最佳的分布。饱和的INT8分布由于阈值 |T|的取值会有很多种情况（128−|max|），其中肯定有一种情况是相对其他最接近FP32的，我们就是要把这种情况找出来。

为什么说这个阈值在128-|max|之间？你想啊，如果你的激活值在128之内的话，那直接线性映射了，不需要找阈值了，所以我们考虑的情况自然是阈值在128-|max|之间的

既然如此，我们就需要一个衡量指标来衡量不同的 INT8 分布与原来的FP3F2分布之间的差异程度。这个衡量指标就是相对熵（relative entropy），又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain）。叫法实在太多了，最常见的就是相对熵。

INT8量化流程

宏观处理流程
如下，首先准备一个校准数据集，然后对每一层：

收集激活值的直方图；
基于不同的阀址产生不同的量化分布；
然后计算每个分布与原分布的相对熵，然后选择熵最小的一个，也就是跟原分布最像的一个。此时阀值就选出来啦，对应的scale值也就出来了。

这个过程同时也告诉了我们，要做INT8量化，需要准备哪些东西——原来的未量化的模型、一个校准数据集、进行量化过程的校准器。

Calibration Dataset
KL散度越小代表 INT8编码后的信息损失越少。如何根据KL散度寻找最佳INT8分布？其实前面我们也已经提到了，如果要让最后的精度损失不大，是要考虑一些先验知识的，这个先验知识就是每一层在 FP32精度下的激活值分布，只有根据这个才能找到更加合理的阈值|T|。

也就是说首先得有一个以FP32精度训练好的模型。那激活值分布如何得到？难道我们要将FP32的模型先在所有的测试集（或验证集）上跑一边记录下每一层的FP32激活值，然后再去推断 |T|?

基本上现有的深度学习框架都是默认FP32精度的。有些模型还支持FP16精度训练，貌似 Caffe2和MXNet是支持FP16的，其他的不太清楚。所以基本上只要没有特别设定，训练出来的模型肯定是 FP32 的。

这里的做法是从验证集选取一个子集作为校准集（Calibration Dataset ），校准集应该具有代表性，多样性，最好是验证集的一个子集，不应该只是分类类别的一小部分。激活值分布就是从校准集中得到的。

由上面的处理流程得出每一层网络的阈值|T|，创建 CalibrationTable 。后面在INT8上面推断的时候，直接取table里的阈值进行量化。

每一层获取阈值|T|的详细做法：

首先不断地截断参考样本P，长度从128开始到2048，为什么从128开始呢？因为截断的长度为128的话，那么我们直接一一对应就好了，完全不用衰减因子了；
将截断区外的值全部求和；
截断区外的值加到截断样本P的最后一个值之上；（截断区之外的值为什么要加到截断区内最后一个值呢？我个人理解就是有两个原因，其一是求P的概率分布时，需要总的P总值，其二将截断区之外的加到截断P的最后，这样是尽可能地将截断后的信息给加进来。）
求得样本P的概率分布；
创建样本Q，其元素的值为截断样本P的int8量化值；
将Q样本长度拓展到 i ，使得和原样本P具有相同长度；
求得Q的概率分布；
然后就求P、Q的KL散度值就好啦~

上面就是一个循环，不断地构造P和Q，并计算相对熵，然后找到最小（截断长度为m）的相对熵，此时表示Q能极好地拟合P分布了。

而阀值就等于（m + 0.5）*一个bin的长度；

+0.5是因为选取每组bin的中间值进行遍历，所以后面计算具体的阈值时，就要算进去。（每个bin里面有很多值的）

伪代码：

//首先分成 2048个组，每组包含多个数值（基本都是小数）
Input: FP32 histogram H with 2048 bins: bin[ 0 ], …, bin[ 2047 ] 
  
For i in range( 128 , 2048 ): // |T|的取值肯定在 第128-2047 组之间,取每组的中点
	reference_distribution_P = [ bin[ 0 ] , ..., bin[ i-1 ] ] // 选取前 i 组构成P，i>=128
	outliers_count = sum( bin[ i ] , bin[ i+1 ] , … , bin[ 2047 ] ) //边界外的组
	reference_distribution_P[ i-1 ] += outliers_count //边界外的组加到边界P[i-1]上，没有直接丢掉
	P /= sum(P) // 归一化
      
    // 将前面的P（包含i个组，i>=128），映射到 0-128 上，映射后的称为Q，Q包含128个组，
    // 一个整数是一组
	candidate_distribution_Q = quantize [ bin[ 0 ], …, bin[ i-1 ] ] into 128 levels
	
	//这时的P（包含i个组，i>=128）和Q向量（包含128个组）的大小是不一样的，无法直接计算二者的KL散度
	//因此需要将Q扩展为 i 个组，以保证跟P大小一样
	expand candidate_distribution_Q to ‘ i ’ bins 
	
	Q /= sum(Q) // 归一化
	//计算P和Q的KL散度
	divergence[ i ] = KL_divergence( reference_distribution_P, candidate_distribution_Q)
End For
//找出 divergence[ i ] 最小的数值，假设 divergence[m] 最小，
//那么|T|=( m + 0.5 ) * ( width of a bin )
Find index ‘m’ for which divergence[ m ] is minimal
threshold = ( m + 0.5 ) * ( width of a bin )

TensorRT 的INT8量化

众所周知，一个训练好的深度学习模型，其数据包含了权重（weights）和偏移（biases）两部分，在其进行前向推理（forward）时，中间会根据权重和偏移产生激活值（activation）。

TensorRT在进行INT8量化时，对权重直接使用了最大值量化，对偏移直接忽略，对前向计算中的激活值的量化是重点；

网络的前向计算涉及到两部分数值：权值和激活值（weights 和activation，二者要做乘法运算），Szymon Migacz 也提到他们曾经做过实验，说对weights 做saturation 没有什么变化，因此对于weights的int8量化就使用的是不饱和的方式；而对activation做saturation就有比较显著的性能提升，因此对activation使用的是饱和的量化方式。
这其实很好理解，因为权重通常分别较为均匀直接最大值非饱和映射和费劲力气找阈值再进行饱和映射，其量化后的分布很可能是极其相似的，而激活值分布不均，寻找一个合适的阈值进行饱和映射就显得比较重要了；

对激活值进行INT8量化采用饱和量化：因为激活值通常分布不均匀，直接使用非饱和量化会使得量化后的值都挤在一个很小的范围从而浪费了INT8范围内的其他空间，也就是说没有充分利用INT8（-128 ~ +127）的值域；而进行饱和量化后，使得映射后的-128 ~ +127范围内分布相对均匀，这相当于去掉了一些不重要的因素，保留了主要成分。

TensorRT INT8量化过程

上图可以看出，校准过程我们是不用参与的，全部都由TensorRT内部完成，但是，我们需要告诉校准器如何获取一个batch的数据，也就是说，我们需要重写校准器类中的一些方法。

编写Calibration器，进行INT8量化

这一部分博主将结合使用tensorRT进行INT8量化来加速yolov5这个过程来详细讲如何编写，顺便介绍相关知识。

【干货】使用tensorRT进行INT8量化来加速yolov5（待完成）

关于INT8量化原理的Q&A

1. 为什么右边的饱和截取就ok呢？

因为非饱和截取的问题是当数据分布极不均匀的时候，有很多动态范围是被浪费的，也就是说打的马赛克很大！而饱和截取就是弥补这个问题的。

当你数据分布很不均匀的时候，如图左边比右边多，那么我把原始信息在影射之前就截断一部分，然后构成对称且分布良好的截断信息，再把这个信息映射到int8上去，那么就不会有动态范围资源被浪费了，也就是说马赛克打的比较细腻了～你可以估摸着脑补出细节画面了（我说的是商标打码～你们想到哪去了？！！黑人问号.jpg）～

像上图这样，先找一个阀值T，然后低于最低阀值的就全部都饱和映射到-127上，如上图的左边的三个红色的点就是这么处理的。

2. 对称量化和非对称量化
其实量化过程很简单，更高精度的向低精度的范围进行映射。

公式（1）中的bias，在nvidia的文章中，bias=0（在他的文章中提到并不需要偏置）就是对称量化的概念，0量化后还是0； bias /= 0 的情况就是非对称量化，但是这其中需要注意的是bias的需要是整型，因为在深度学习的模型中，有太多的0-padding存在了，若是bias非整型，那么在量化过程中会有大量的数值0的精度收到损失。

对称量化的话就是量化零点需要跟浮点零点对齐，不然padding做起来会很难受

3. 逐层量化和逐通道量化
从字面非常容易理解两个量化的区别，我们也看到在nvidia的方法中使用了逐层量化的方法，每一层采用同一个阈值来进行量化。逐通道量化就是对每一层每个通道都有各自的阈值，对精度有一个很好的提升。

4. 这里的2048bins指的是正范围还是负范围呢？后面都是量化的128bins里面去的，也就是说只管了int8(256)的一半？
是因为数据收集的都是ReLU之后的，暂时实测问题不大啊，所以直接管正半边就好啦~但是严谨的做法就是正负数据都收集，分bins的时候正负都得考虑，参考maxnet的实现

5. 对激活值的量化，通过kl确定阈值，那么权重本身如何量化？
谷歌白皮书，还有英伟达官方是这么说的：他们做了大量的测试发现，weights直接最大值量化就好。
尝试解释一下：因为weights的分布一般比较均匀因此直接最大值量化也是没问题。

6. 前面说“我们的目的是把原来的float 32bit 的卷积操作（乘加指令）转换为int8的卷积操作，这样计算就变为原来的1/4，但是访存并没有变少哈，因为我们是在kernel里面才把float32变为int8进行计算的。”这是存储的时候还是32位吗？这样是不是意味着存储没有减少还是以float32存储
weights存储是以float32存储的，但是计算的时候是先转为int8然后计算的。
（所以我们可以提前把这个给转好嘛，放到某个位置，后面计算卷积的时候来取就行了，这样就是：转换一次无限使用，这样来看总体的带宽不就提高了吗！？

我们所谓的模型对移动端部署来说其实就是一堆的weights值而已，这些weights你可以存为float格式，也可以存为int8格式，精度不一样而已，现在我们为了最大的灵活性就直接存为float，然后inference的时候可以灵活配置是跑量化还是跑非量化模式！

7. 为什么量化只用在conv呢？这样不是每做一次conv都有一次量化和反量化？不能后面的op都支持量化运算?在整个网络里减少量化和反量化的操作？还是必须每做一次量化都必须反量化一次降低精度损失
对啊，因为每一层的数据分布都是不一样的，因此其scale必须不一样才能降低量化损失，比如每一层的的weights，假如有N个，其分布的差异也是很大的呀，这也就是为什么我们在weights上是做per-channel量化的了

全自动量化交易软件是否真的可靠？使用过程中有哪些潜在风险需要注意财云量化 python炒股自动化量化交易程序化交易全自动量化交易软件可靠性潜在风险数据准确性股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
(学习总结28)Linux 基本命令3 瞌睡不来学习 linux
Linux基本命令3工具使用命令使用vim编辑器命令vim使用nano文本编辑器命令nano使用gcc/g++编译器命令gcc/g++使用gdb/cgdb调试器命令gdb/cgdb使用自动化构建命令make使用版本控制器命令git系统或进程相关命令读取输入并赋值给变量命令read设置或修改shell环境命令set设置环境变量命令export测试网络连接命令ping显示系统登录记录命令last显示失
審單人員效率 PPP 模型 chenchihwen 网络 sql 数据库
审单人员效率PPP模型的目的审单人员效率PPP模型的主要目的是通过系统化的计算和分析，评估审单人员的工作效率，并为管理决策提供数据支持。具体包括以下几个方面：1.量化审单人员的工作效率目的:通过审单数量、工时、折算率等指标，量化审单人员的工作效率。实现方式:计算每个审单人员的审单量（vol_o）。根据标准工时表（t_dash_ppp_checker_std_v）折算审单数量（vol_c）。结合有效
Milvus 本地Ollama向量化markdown文件慌雨 milvus 数据库
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言代码测试注意前言提示：这里可以添加本文要记录的大概内容：我在局域网内安装了milvus服务，现在需要把一个文件夹里所有的markdown文档都向量化到milvus数据库中。所用的切分方法是langchain中自带的markdown按照标题切分，且带有标题的metadata，非常清晰。但是用langchain提供的milvu
Spring Cloud 与微服务学习总结（14）—— 云原生时代，如何从 Java 开发者转型微服务？一杯甜酒 Spring Cloud与微服务 java 云原生 spring cloud 微服务微服务架构
前言根据维基百科定义，微服务不是整体应用程序中的一个层。相反，微服务是一个独立的业务功能，具有清晰的接口，并且可以通过内部组件实现分层架构。从战略角度来看，微服务架构基本上遵循“做一件事，就要做得好”的Unix哲学。为了应对传统单体架构的缺陷，微服务架构被企业广泛应用。然而，实践之前有很多问题都需要提前考虑清楚，比如Java背景的开发者是否更有优势？微服务、容器化、DevOps和CI/CD之间的关
Git学习总结（9）——如何构建你自己的 Git 服务器一杯甜酒 Git
现在我们将开始学习如何构建一个Git服务器，如何在具体的事件中写一个针对特定的触发操作的自定义Git（例如通告），如何发布你的代码到一个网站。
嵌入式软件工程师为什么要撰写博客？——开启技术进阶与职业发展的双重大门 Electron-er 软件需求嵌入式硬件架构单片机人工智能
目录一、技术沉淀：构建嵌入式知识复利系统知识沉淀的三层架构二、职业发展：量化个人技术品牌价值职业价值评估模型三、社区贡献：推动嵌入式技术生态演进知识传播的涟漪效应四、写作方法论：打造专业级技术博客内容开发五步法可视化增强技术五、数据验证：博客投资回报率分析六、实践指南：从入门到专家的路径规划博客运营路线图关键成功要素结语一、技术沉淀：构建嵌入式知识复利系统在嵌入式开发领域，寄存器操作、RTOS调度
阿里云国际站代理商：怎样量化虚拟世界的QoE体验指标？ linglideman 阿里云
1.沉浸体验质量（QImE）沉浸体验质量主要衡量虚拟世界中视觉和听觉的沉浸感，包括以下几个关键指标：视频质量（QP）：考虑视频的平均码率（Brv）、帧率（FR）、分辨率（Rh、Rv）、视场角（FoVh）以及编码标准（Codecv）等因素。音频质量（QA）：涉及音频的平均码率（Bra）、声道数（NAC）、采样率（Sra）和编码标准（Codeca）。音视频同步时延（Tasyn）：衡量音视频的同步性，影
大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏时光旅人01号人工智能剪枝算法深度学习数据挖掘人工智能
目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势1.微调（Fine-tuning）核心思想在预训练模型（如BERT、GPT）基础上，通过领域数据调整参数，适配下游任务。方法流程预训练模型加载：加载通用模型权重（如HuggingFace
【2025年35期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股当天分价成交占比数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言股票API 股票数据接口股票数据
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
AI学习指南RAG篇(5)-RAG的系统架构俞兆鹏 AI学习指南 ai
文章目录一、引言二、RAG系统的四个核心组件1.知识库处理模块1.1文档收集1.2文档预处理1.3示例代码2.向量化模块2.1文本嵌入2.2向量数据库2.3示例代码3.检索引擎3.1检索算法3.2检索结果排序3.3示例代码4.生成模块4.1生成模型4.2提示工程4.3示例代码三、RAG系统的架构图四、总结一、引言RAG（Retrieval-AugmentedGeneration，检索增强生成）技术
C# WPF学习总结战族狼魂 WPF C#c#wpf 学习
经过一段时间的学习和实践，我对C#WPF（WindowsPresentationFoundation）有了更深入的理解。WPF作为一个强大的桌面应用程序开发框架，为开发者提供了丰富的UI控件、强大的数据绑定和灵活的布局系统。以下是我对C#WPF学习的一些总结：目录1.基础知识2.UI设计3.数据绑定4.动画和特效5.命令和路由事件6.自定义控件和扩展性7.性能优化和内存管理8.实战项目经验9.学习
Excel中怎样通过网站获取股票实时数据？股票程序化交易接口量化交易股票API接口 Python股票量化交易 excel 股票实时数据网站数据源股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>财经新闻网站是获取股票信息的常见来源。像新浪财经、腾讯财经等网站，它们提供了大量的股票数据。这些网站数据更新较为及时，包含股票的实时价格、成交量等基本信息。从这类网站获取数据到Excel可能相对复杂一些，因为它们的页面结构主要是为了方
股票接口有哪些类型？不同类型的股票接口在数据获取上有何差异？财云量化 python炒股自动化量化交易程序化交易股票接口数据获取类型差异股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
PyTorch深度学习框架60天进阶学习计划 - 第18天：模型压缩技术凡人的AI工具箱深度学习 pytorch 学习 python 人工智能
PyTorch深度学习框架60天进阶学习计划-第18天：模型压缩技术目录模型压缩技术概述知识蒸馏详解软标签生成策略KL散度损失推导温度参数调节结构化剪枝技术通道剪枝评估准则L1-norm剪枝算法APoZ剪枝算法量化训练基础量化类型与精度PyTorch量化API剪枝与量化协同优化Torch.fx动态计算图修改自动化模型压缩流程实现实战案例：ResNet模型压缩性能评估与分析进阶挑战与思考1.模型压缩
playWright学习总结 one day321 python 开发语言
注意，这里并没有学过selenium自动化。playwright对比selenium来说，不需要不断下载驱动。且playWright最大的优点是可以录制操作，并自动生成自动化脚本。视频：快速上手-3-示例_哔哩哔哩_bilibili资料：Xpath/Role/视觉定位方法-白月黑羽安装：直接使用命令安装：pipinstallplaywright安装需要的浏览器：playwrightinstall安
本地部署时，如何通过硬件加速（如 CUDA、TensorRT）提升 DeepSeek 的推理性能？不同显卡型号的兼容性如何测试？百态老人人工智能科技算法 vscode
本地部署DeepSeek模型的硬件加速优化与显卡兼容性测试指南一、硬件加速技术实现路径CUDA基础环境搭建版本匹配原则：根据显卡架构选择CUDA版本（如NVIDIARTX50系列需CUDA12+，V100需CUDA11.x），并通过nvcc--version验证安装。GPU加速验证：运行以下代码检查硬件加速状态：importtensorflowastfprint("可用GPU数量：",len(tf
人工智能 - TensorRT与DeepDP终极指南：释放GPU潜能的深度学习推理优化之道天机️灵韵具身智能 VLA 人工智能人工智能算法深度学习 pytorch
TensorRTTensorRT（TensorRuntime）是英伟达（NVIDIA）推出的高性能深度学习推理（Inference）优化器和运行时库，专为在NVIDIAGPU上高效部署深度学习模型而设计。它通过模型压缩、计算图优化、硬件级加速等技术，显著提升推理速度并降低资源消耗，广泛应用于自动驾驶、工业检测、实时视频分析等对延迟敏感的领域。一、TensorRT的核心功能模型优化与加速层融合（La
Unity3D 着色器优化（Shader Optimization） Thomas_YXQ 着色器 Unity3D 游戏开发 Shader
前言Unity3D着色器（Shader）优化是提升渲染性能的关键环节，尤其是在移动设备或复杂场景中。以下是系统的优化策略和实践建议：对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀！1.减少计算复杂度简化数学运算：优先使用mad（乘加）指令代替单独的乘法和加法。避免复杂函数（如sin,pow,exp），改用近似计算或查值纹理（LookupTexture）。利用向量化操作
onnx处理和TensorRT量化推理相关代码工具天亮换季人工智能算法深度学习
一.说明在模型量化过程中，经常要使用一些工具对onnx或者量化后的模型（这里以TensorRT为例）进行推理，往往需要一些处理工具，比如：拆分或者合并onnx；修改onnx中的量算子QuantizeLinear的scale值；以及使用onnxruntime进行推理；TensorRT的序列化文件的inference；隐式量化生成量化校准表…现提供一些封装好的工具，作为记录，方便日后查阅使用"
教你如何免费获取股票数据用python、JavaScript (Node.js)、JAVA等多种语言的实例代码演示（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明蝶澈乐乐 python javascript node.js 数据仓库金融
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
YOLOv8改进策略【注意力机制篇】| EMA 即插即用模块，提高远距离建模依赖（含C2f二次创新） Limiiiing YOLOv8改进专栏 YOLO 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于EMA模块的YOLOv8目标检测改进方法研究。EMA认为跨维度交互有助于通道或空间注意力预测，并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。在改进YOLOv8的过程中能够为高级特征图产生更好的像素级注意力，能够建模长程依赖并嵌入精确的位置信息。专栏目录：YOLOv8改进目录一览|涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Ne
论文学习：基于机器学习的光声图像分析1 superace7911 基于机器学习的光声图像处理机器学习人工智能图像处理
3/25——3/31期间论文学习笔记，关于基于机器学习的光声图像分析的6篇1区论文血管结构模拟&分割：Quantificationofvascularnetworksinphotoacousticmesoscopy链接数据集链接摘要这篇论文提出了一种新的方法，利用中观光声成像（MesoscopicPhotoacousticImaging,PAI）技术和高级图像分析技术，来非侵入性地定量化和分析活体
CUDA12.1 cudnn9.0.1 python3.10.12配置TensorRT8.6.1，完成yolov12tensorRT推理完整过程李卓璐算法实战 YOLO
一、配置TensorRT8.6.11.下载TensorRT8.6.1包TensorRT完全依赖CUDA，因此下载其版本时一定要考虑CUDA的版本。具体应该下载哪一版本的TensorRT呢，这里我问的秘塔AI，你们也可以问问它。官网地址-tensorRT8.6.1安装包下载2.解压安装包这里要注意，如果你和我一样是给win下的但是要在Linux服务器上使用。千万不要在win的环境下进行安装包的解压操
YOLOv12改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进 Limiiiing YOLOv12改进专栏 YOLOv12 目标检测深度学习计算机视觉
必读内容船新的YOLOv12改进专栏~1️⃣什么！不知道如何改进模型⁉️本专栏所使用并改进的每一个模块均包含详细的模块分析、原理讲解、个人总结、多种改进方式以及完整的修改流程，所有改进100%可直接运行，性价比极高。2️⃣找不到合适的模块⁉️所有改进点均为近三年顶会，顶刊提出的先进算法，将其融入到YOLOv12中，并进行二次创新，新颖度高，创新度高，能够适应不同的任务场景。3️⃣不确定自己改进的步
如何更有效管理项目风险项目管理
有效管理项目风险的核心在于全面识别风险、科学评估风险、动态监控调整。其中，全面识别风险要求在项目启动前就对内外部潜在风险进行详细排查；科学评估风险则需依托数据和模型量化风险概率与影响，为决策提供依据；动态监控调整强调在项目执行中实时跟踪风险变化，迅速采取应对措施，确保项目平稳推进。一、风险识别的重要性与方法在项目管理过程中，风险识别始终是整个风险管理体系的起点。全面识别风险不仅能够为后续定量评估提
K8S Calico网络插件 u012804784 android 网络 flask python 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统目录0.前言1.Calico概述1.1.Calico组件1.2.Calico网络实现1.3.了解Calico对CIDR子网
量化交易中用到的回测评估指标（策略收益、基准收益、Alpha比率、Beta比率、夏普比率、索提诺比率）详解林不更新量化交易 python
前言近日在做A股的过程中接触到了量化交易。通过一个月时间的了解发现并非全自动印钞机，也有可能有全自动接盘侠的潜质。故现阶段以学习量化交易的知识为主，多学多问总是没错的嘛~现阶段使用Python爬取交易数据来验证自己的一些选股逻辑，笔者目前去一家民营的券商开户后，券商赠送了Ptrade作为量化软件供客户使用，可回测可交易（后续详细讲解记录该软件的使用过程）。目前是作为辅助选股使用，开启自动交易为时尚
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文