追梦苦旅

神经网络量化----TensorRT深刻解读

前言

一、TensorRT简介

二、难点

1.架构

2.功能

三、实现

1.conv和ReLU的融合

2.conv和ReLU的融合

quant_utils.py

3.调用示例

总结

前言

本文将聚焦于英伟达TensorRT训练后量化的算法。
论文地址为：https://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf
代码地址为：官方好像没有公布代码，可以参考的有https://github.com/deepglint/EasyQuant，https://github.com//apache/incubator-mxnet/blob/master/python/mxnet/contrib/quantization.py

一、TensorRT简介

整个量化算法使用对称量化（-max, max）-> (-127, 127)

权重的量化所需的最值直接统计得出，激活值的量化使用饱和映射的方式，设置最佳的阈值作为最值来进行量化。

计算最佳阈值的方法：1. 统计激活值的直方图，2. 采用遍历的方法找到量化后KL散度最小时对应的最佳阈值。伪代码如下：

二、难点

1.架构

以上所给的参考代码语言分别为caffe和mxnet，caffe代码里有保存和加载文件的操作，对于量化后的参数不能直观地和网络架构联系在一起，mxnet代码里的功能较全，但是语言比较小众化，开发新的算法难度较大。

故计划采用pytorch来进行量化参数的计算和保存，且跟网络是一个整体，新建module即可，比较方便。

2.功能

有的卷积后有激活和BN，所以还要将其考虑在内。

所以在处理之前需要将网络中的卷积、BN、ReLU融合在一起。

在量化时，不考虑是否有ReLU，全部量化在（-max, max）之间。（格林深瞳算法只考虑了带有ReLU的，即将（0，max）量化到（0,127）），这样就简化了运算，不用再分情况了。

三、实现

1.conv和ReLU的融合

from torch import nn
import torch

# the module that replace BN layer
class DummyModule(nn.Module):
    def __init__(self):
        super(DummyModule, self).__init__()

    def forward(self, x):
        return x

# BN flod
def bn_folding(conv, bn):
    
    # ******************** BN parameter *********************
    mean = bn.running_mean
    std = torch.sqrt(bn.running_var + bn.eps)
    gamma = bn.weight
    beta = bn.bias
    # ******************* conv parameter********************
    w = conv.weight
    w_fold = w.clone()
    if conv.bias is not None:
        b = conv.bias
    else:
        b = mean.new_zeros(mean.shape)
    b_fold = b.clone()
    
    w_fold = w * (gamma / std).reshape([conv.out_channels, 1, 1, 1])
    b_fold = beta + (b - mean) * (gamma / std) 
    
    bnfold_conv = nn.Conv2d(conv.in_channels,
                         conv.out_channels,
                         conv.kernel_size,
                         conv.stride,
                         conv.padding,
                         groups=conv.groups,
                         bias=True)
    bnfold_conv.weight.data = w_fold
    bnfold_conv.bias.data = b_fold
    return bnfold_conv

'''BN must be after convolution'''
def model_bn_folding(model):
    children = list(model.named_children())
    # children = list(model.named_modules())
    #print(children)
    name_temp = None
    child_temp = None
    for name, child in children:
        #print(name, '   ', child)
        if isinstance(child, nn.BatchNorm2d):
            bnfold_conv = bn_folding(child_temp, child) # BN融合
            model._modules[name_temp] = bnfold_conv
            model._modules[name] = DummyModule()
            child_temp = None
        elif isinstance(child, nn.Conv2d):
            name_temp = name
            child_temp = child
        else:
            
            model_bn_folding(child)
    return model

2.conv和ReLU的融合

新建一个module将卷积和ReLU包含在内了。

import torch
from torch import nn

import torch.nn.functional as F
from quant_utils import ConvRelu, LinearRelu, DummyModule

# device = torch.device("cpu")
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

'''BN must be after convolution'''
def model_relu_folding(model):
    children = list(model.named_children())
    
    # children = list(model.named_modules())
    #print(children)
    name_temp = None
    child_temp = None
    is_conv = True
    for name, child in children:
        print(name, '   ', child)
        if isinstance(child, nn.ReLU):
            if is_conv:
                model._modules[name_temp] = ConvRelu(child_temp, is_relu=1).to(device)
               
            else: 
                model._modules[name_temp] = LinearRelu(child_temp, is_relu=1).to(device)
            
            model._modules[name] = DummyModule().to(device)
            
            # child_temp = None
            # name_temp = None
        elif isinstance(child, nn.Conv2d):
            name_temp = name
            child_temp = child               
            
            model._modules[name] = ConvRelu(child, is_relu=0).to(device)            
            is_conv = True
            
        elif isinstance(child, nn.Linear):
            name_temp = name
            child_temp = child            
            model._modules[name] = LinearRelu(child, is_relu=0).to(device)
            is_conv = False
            
        else:
            model_relu_folding(child)
    return model

quant_utils.py

在ConvRelu中，使用register_buffer申请了权重和激活值量化相关的变量，采用model.train()的形式创建了一些mode，用来进行不同阶段的TensorRT算法。

weight_quant（）：统计权重的绝对值的最大值，量化的scale

initial_activate_max（）：统计激活值的最值，这个需要在校准集上跑一遍才能统计出的。

initial_histograms（）：统计激活值的直方图，这个也需要跑一遍校准集，需要注意的一点，如果有ReLU的话，0值对应的直方图数量很多，会减小其他值的权重，由于采用对称映射，0几乎无误差，所以将0值对应的直方图设置为0.

get_optimal_threshold（）：计算KL散度，获取最佳的阈值。

from torch import nn
import torch
import torch.nn.functional as F
import copy
from collections import OrderedDict
import numpy as np


INTERVAL_NUM = 4001
QUANTIZE_NUM = 127    # 7bit
STATISTIC = 1.0


device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# the module that replace relu layer
class DummyModule(nn.Module):
    def __init__(self):
        super(DummyModule, self).__init__()

    def forward(self, x):
        return x
    
    
# the module that replace conv layer
class ConvRelu(nn.Module):
    def __init__(self, conv, is_relu=0, bits=8, threshold=204800):
        super(ConvRelu, self).__init__()
        
        #self.conv_relu_fold = conv
        self.threshold = threshold
        self.bits = bits
        self.is_relu = is_relu
        self.kernel_size = conv.kernel_size
        self.stride = conv.stride
        self.padding = conv.padding
        self.groups = conv.groups
        self.bias = conv.bias
        self.weight = conv.weight
        '''mode : Normal, TRT_weight_quant, TRT_activate_collection_max, TRT_activate_collection_hist, TRT_activate_KL, Normal_TRT'''
        self.mode = 'TRT_weight_quant'         
        
        
        #self.register_buffer('is_relu', torch.tensor(is_relu))
        self.register_buffer('quant_num', torch.tensor((1 << bits) - 1))
        
        '''activation_para'''
        self.register_buffer('activate_flag', torch.zeros(1))
        self.register_buffer('activate_distubution', torch.zeros(INTERVAL_NUM))
        self.register_buffer('activate_distubution_edges', torch.zeros(INTERVAL_NUM+1))
        self.register_buffer('activate_max', torch.zeros(1))
        self.register_buffer('th', torch.zeros(1))
        self.register_buffer('optimal_th', torch.zeros(1))
        # self.register_buffer('activate_distubution_interval', torch.zeros(1))
        '''weight_para'''
        self.register_buffer('weight_flag', torch.zeros(1))
        self.register_buffer('weight_scale', torch.zeros(conv.weight.data.shape[0]))
        self.register_buffer('weight_zero', torch.zeros(conv.weight.data.shape[0]))
        self.register_buffer('weight_max', torch.zeros(conv.weight.data.shape[0]))
        
    def initial_activate_max(self, input):
        max_val = torch.max(input)
        min_val = torch.min(input)
        self.activate_max = torch.max(self.activate_max, torch.max(torch.abs(max_val), torch.abs(min_val)))
        # Avoid unusually large activation by clip blob_max with threshold
        self.th= min(self.activate_max, self.threshold)
        # print('test: ', self.th)
        
    def weight_quant(self):
        '''Avoid multiple operations caused by multiple identification of the module'''
        self.weight_flag = torch.ones(1).to(device)
        
        weight_max = torch.max(torch.max(torch.max(self.weight, 3, keepdim=True)[0], 2, keepdim=True)[0], 1, keepdim=True)[0]
        weight_min = torch.min(torch.min(torch.min(self.weight, 3, keepdim=True)[0], 2, keepdim=True)[0], 1, keepdim=True)[0]
        # weight_max_min = torch.cat((torch.abs(weight_max), torch.abs(weight_min)), 0).view([2,-1])
        # self.weight_max = torch.max(weight_max_min,0,keepdim=True)[0]
        weight_threshold = torch.max(torch.abs(weight_max), torch.abs(weight_min))
        self.weight_max = weight_threshold
        # print('weight_shape: ', weight_threshold.shape)   
        self.weight_scale = torch.where(weight_threshold < torch.tensor(0.0001).to(device), torch.tensor(0.0).to(device), ((1 << (self.bits-1))-1) / weight_threshold)
        # print('weight_scale111: ', self.weight_scale)
        self.weight_zero = torch.where(weight_threshold < torch.tensor(0.0001).to(device), torch.tensor(1.0).to(device), torch.tensor(0.0).to(device))
            
        
    # def initial_activate_distubution_interval(self):
    #     self.activate_distubution_interval = (torch.tensor(STATISTIC).to(device)) * self.th / torch.tensor(INTERVAL_NUM).to(device).astype(float)
        
    def initial_histograms(self, input):
        # Truncate the boundary of the active hist graph,
        # so the number exceeding the boundary value will not fall into statistics.
        # print('id0: ', id(input))
        input_cpu = input.cpu()
        # print('id1: ', id(input_cpu))
        # print(input_cpu)
        input_cpu_numpy = input_cpu.numpy().flatten()
        th = self.th.cpu().item()
        # print(th)
        hist, hist_edges = np.histogram(input_cpu_numpy, bins=INTERVAL_NUM, range=(-th, th))
        
        #hist = torch.histc(input, bins=INTERVAL_NUM, min=-self.th, max=self.th)
        
        self.activate_distubution += torch.from_numpy(hist).to(device)
        self.activate_distubution[2000] = torch.tensor(0).to(device)
        self.activate_distubution_edges = torch.from_numpy(hist_edges).to(device)
        
    def plot_hist(self, optimal_th=None):
        a = self.activate_distubution_edges.cpu().numpy()[:-1]
        b = self.activate_distubution.cpu().numpy()
        print('hist: ', a)
        print('hist_edge: ', b)
        import matplotlib.pyplot as plt
        plt.plot(self.activate_distubution_edges.cpu().numpy()[:-1], self.activate_distubution.cpu().numpy())
        if optimal_th is not None:
            plt.plot(optimal_th, 0, 'om')
            plt.annotate('optimal_th', xy=(optimal_th, 0), xytext=(optimal_th+1, 10000), arrowprops=dict(arrowstyle='->'))
        plt.ylabel('activate distubution')
        plt.show()
        
    def get_optimal_threshold(self):
        '''Avoid multiple operations caused by multiple identification of the module'''
        self.activate_flag = torch.ones(1).to(device)
        
        length = self.activate_distubution.shape[0]
        assert (length % 2 == 1)
        hist = self.activate_distubution.cpu().numpy()
        hist_edge = self.activate_distubution_edges.cpu().numpy()
        num_quantized_bins = self.quant_num.cpu().item()
        
        optimal_threshold = calibrate(hist, hist_edge, num_quantized_bins)
        self.optimal_th = torch.tensor(optimal_threshold).to(device)
        print('th: ', self.th)
        print('optimal_th: ', self.optimal_th)
        self.plot_hist(optimal_th=optimal_threshold)
    
        
    

    def forward(self, x):
        assert self.training is False
        
        
        
        # print('test')
        x  = F.conv2d(x, self.weight, self.bias, self.stride, self.padding, self.groups)
        # x = self.conv_relu_fold(x)
        if self.is_relu:
            x = F.relu(x)
            
        if self.mode == 'TRT_activate_collection_max':
            '''collect max,min,threshold'''
            self.initial_activate_max(x)
            
        elif self.mode == 'TRT_activate_collection_hist':
            '''collect histograms'''
            self.initial_histograms(x) 
 
        elif self.mode == 'TRT_activate_KL':
            '''calibrate for optimal_threshold'''
            #self.initial_activate_distubution_interval()            
            # self.get_optimal_threshold()
                    
            pass
        elif self.mode == 'Normal_TRT':
            pass
        elif self.mode != 'TRT_weight_quant':
            
            raise ValueError("mode error")
        return x

以下代码是第二个参考代码中调用的C++代码，该C++代码有点错误，处理边界存在叠加，问题在：merge hist into num_quantized_bins bins部分，注意区分（已修改）。

def calibrate(hist, hist_edge, num_quantized_bins=255):
    num_bins = hist.size
    
    assert num_bins+1 == hist_edge.size
    zero_bin_idx = num_bins // 2
    num_half_quantized_bins = num_quantized_bins // 2
    thresholds = np.zeros(zero_bin_idx + 1 - num_half_quantized_bins)
    divergence = np.zeros(zero_bin_idx + 1 - num_half_quantized_bins)
    
    for i in range(num_half_quantized_bins, zero_bin_idx+1, 1):
        p_bin_index_start = zero_bin_idx - i
        p_bin_index_stop = zero_bin_idx + i + 1
        thresholds[i - num_half_quantized_bins] = hist_edge[p_bin_index_stop];
        
        
        sliced_nd_hist = np.zeros(p_bin_index_stop - p_bin_index_start)
        p = np.zeros(p_bin_index_stop - p_bin_index_start)
        
        # for j in range(num_bins):
        #     if j <= p_bin_index_start:
        #         p[0] +=
        
        p[1:] = hist[p_bin_index_start+1 : p_bin_index_stop]
        sliced_nd_hist[1:] = hist[p_bin_index_start+1 : p_bin_index_stop]
        p[0] = np.sum(hist[:p_bin_index_start+1])
        p[-1] = p[-1] + np.sum(hist[p_bin_index_stop:])
        # print(p)
        # print(sliced_nd_hist)
        
        '''calculate how many bins should be merged to generate quantized distribution q'''
        num_merged_bins = sliced_nd_hist.size // num_quantized_bins
        '''merge hist into num_quantized_bins bins'''
        quantized_bins = np.zeros(num_quantized_bins)
        for j in range(num_quantized_bins):
            start = j * num_merged_bins
            stop = (j+1) * num_merged_bins
            quantized_bins[j] = np.sum(sliced_nd_hist[start:stop])
            
        quantized_bins[-1] = quantized_bins[-1] + np.sum(sliced_nd_hist[num_quantized_bins * num_merged_bins : ])
        '''expand quantized_bins into p.size bins'''
        q = np.zeros(p_bin_index_stop - p_bin_index_start)
        is_nonzeros = (p != 0).astype(np.int64)
        for j in range(num_quantized_bins):
            start = j * num_merged_bins
            stop = q.size if (j == num_quantized_bins-1)  else (j+1) * num_merged_bins
            norm = is_nonzeros[start:stop].sum()
            if norm != 0:
                q[start:stop] = float(quantized_bins[j]) / float(norm)
        q[p == 0] = 0
        p = _smooth_distribution(p);
        q = _smooth_distribution(q);
        # p[p == 0] = 0.0001
        # q[q == 0] = 0.0001
        # print('p: ', p)
        # print('q: ', q)
        divergence[i - num_half_quantized_bins] = ComputeEntropy(p, q)
        # print(divergence[i - num_half_quantized_bins])
        # print('done')
    
    min_kl_divergence = np.argmin(divergence)
    return thresholds[min_kl_divergence]
        
            
            
            
def _smooth_distribution(p, eps=0.0001):
    
    is_zeros = (p == 0).astype(np.float32)
    is_nonzeros = (p != 0).astype(np.float32)
    n_zeros = is_zeros.sum()
    n_nonzeros = p.size - n_zeros
    if not n_nonzeros:
        raise ValueError('The discrete probability distribution is malformed. All entries are 0.')
    eps1 = eps * float(n_zeros) / float(n_nonzeros)
    assert eps1 < 1.0, 'n_zeros=%d, n_nonzeros=%d, eps1=%f' % (n_zeros, n_nonzeros, eps1)
    hist = p.astype(np.float32)
    hist += eps * is_zeros + (-eps1) * is_nonzeros
    assert (hist <= 0).sum() == 0
    return hist

#from scipy import *
def ComputeEntropy(p, q):
    assert p.size == q.size 
    p_sum = np.sum(p)
    q_sum = np.sum(q)
    p = p / p_sum
    q = q / q_sum
    KL_dis = np.sum(p * np.lib.scimath.log(p / q))
    return KL_dis

3.调用示例

import torch
import sys
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "1"
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
sys.path.append('vgg')
from VggNet import * 
from datetime import datetime
from torch.utils.data import DataLoader

from torchvision import datasets,transforms

from ConvReluFold import model_relu_folding

from ConvBNFold import model_bn_folding
from quant_utils import ConvRelu, LinearRelu, DummyModule, TRT_Quantizer

model = torch.load('./model/vgg0.904_bnrelufold.pth')
model.eval()

'''---------------------------------------------------------------------------------------'''
'''---------------------- TRT_weight_quant ------------------------------------'''
TRT_Quantizer(model, mode='TRT_weight_quant')

'''---------------------------------------------------------------------------------------'''
'''---------------------- TRT_activate_collection_max ------------------------------------'''
TRT_Quantizer(model, mode='TRT_activate_collection_max')

model.eval()
correct = 0.0
total = 0
num = 0
with torch.no_grad():  
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device) 
  
        outputs = model(inputs)
        pred = outputs.argmax(dim = 1)  # 
        total += inputs.size(0)
        correct += torch.eq(pred,labels).sum().item()
        num += 1
        if num > 20:
            break
print('Accuracy of the network on the 10000 test images: %.2f %%' % (100.0 * correct / total))

'''---------------------------------------------------------------------------------------'''
'''---------------------- TRT_activate_collection_hist ------------------------------------'''
TRT_Quantizer(model, mode='TRT_activate_collection_hist')
correct = 0.0
total = 0
num = 0
with torch.no_grad():  # 训练集不需要反向传播
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device) 
  
        outputs = model(inputs)
        pred = outputs.argmax(dim = 1)  
        total += inputs.size(0)
        correct += torch.eq(pred,labels).sum().item()
        num += 1
        if num > 20:
            break
print('Accuracy of the network on the 10000 test images: %.2f %%' % (100.0 * correct / total))

'''---------------------------------------------------------------------------------------'''
'''---------------------- TRT_activate_KL ------------------------------------'''
TRT_Quantizer(model, mode='TRT_activate_KL')

注意：在使用融合后的模型时，必须import之前的model，否则会报错：缺少某个组件。（相当于在之前的方法的基础上新建了方法，所以还需要导入之前的方法才行）。

总结

这次编程让我对pytorch的了解又加深了一步，另外之前学的C++现在派上了用场，否则关于直方图那部分还真的不好编写，真的是学无止境呀。

高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
上位机知识篇---Prompt&PowerShell Prompt Atticus-Orion 上位机知识篇 prompt powershell
在Anaconda环境中，AnacondaPrompt和AnacondaPowerShellPrompt是两个常用的命令行工具，它们的核心功能都是为了方便管理Python环境和执行相关命令，但底层依赖的命令行解释器不同，因此在使用场景和语法上存在一些区别。下面详细介绍两者的差异：1.底层依赖的命令行解释器不同这是两者最根本的区别，决定了它们的语法规则和功能范围：AnacondaPrompt基于Wi
后端校招 | 高分简历 + 高频 C++ 面试题整理（附GitHub题库推荐）壹張先森 c++java 开发语言
一、为什么专门做一期C++面试题分享？我发现很多后端同学在面试准备时：Java岗位题资源非常多但C++后端面试内容分散、缺少整合所以我整理了GitHub上高频C++后端面试题+答案解析，今天精选5道送给你：二、精选高频C++面试题（附答题技巧）1.new和malloc的区别？特性newmalloc返回类型指定类型指针void*构造函数会调用构造函数不会调用释放方式deletefree重载支持支持重
中国电子学会(CIE)2021.6 c++一级考级真题
#数的输入和输出(a/b)*c的值大写字母的判断特殊求和硬币翻转一、数的输入和输出题目描述输入一个整数和双精度浮点数，先将浮点数保留2位小数输出，然后输出整数。输入格式一行两个数，分别为整数N（不超过整型范围），双精度浮点数F，以一个空格分开。输出格式一行两个数，分别为保留2位小数输出的F,以及整数N，以一个空格分开。输入输出样例输入#1100123.456789输出#1123.46100代码样例
数据结构排序算法总结（C语言实现） xienda 排序算法数据结构算法
以下是常见排序算法的总结及C语言实现，包含时间复杂度、空间复杂度和稳定性分析：1.冒泡排序(BubbleSort)思想：重复比较相邻元素，将较大元素向后移动。时间复杂度：O(n²)（最好O(n)，最坏O(n²))空间复杂度：O(1)稳定性：稳定voidbubbleSort(intarr[],intn){for(inti=0;iarr[j+1]){//交换相邻元素inttemp=arr[j];arr
分治算法---归并
1、排序数组classSolution{vectortmp;public:vectorsortArray(vector&nums){tmp.resize(nums.size());mergeSort(nums,0,nums.size()-1);returnnums;}voidmergeSort(vector&nums,intleft,intright){if(left>=right)return;
virtualenv 小小怪吃吃吃
virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。(1)用pip安装virtualenv:pip3installvirtualenv(2)创建开发项目目录:mkdirprojectcdproject/(3)创建一个独立的Python运行环境，命名为venv:virtualenv--no-site-packagesvenv命令virtualenv就可以创建一个独立的Pyt
WSL介绍 bigleek 树莓派pico开发 linux
WSL（WindowsSubsystemforLinux）是微软为Windows系统开发的一项功能，允许用户在Windows上直接运行原生的Linux环境，而无需传统的虚拟机或双系统。它通过轻量化技术将Linux工具、命令行和应用程序无缝集成到Windows中，是开发者、运维人员和Linux学习者的高效工具。一、WSL的核心特点1.无需虚拟机：直接在Windows中运行Linux二进制文件（如Ba
排序算法—交换排序（冒泡、快速）（动图演示）每天都要进步1 排序算法排序算法算法
目录十大排序算法分类编辑冒泡排序算法步骤：动图演示：性能分析：代码实现（Java）：快速排序（挖坑法）算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的冒泡排序与快速排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）冒泡排序冒泡排序是一种非常直观的排序算法，遍历数组，每次比较两个元素，如果后者比前者小则交换位置，重复的进行直至没有再需
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
python虚拟环境打包_python项目打包虚拟环境 weixin_39933356 python虚拟环境打包
python项目打包时，需要将虚拟环境与python自身安装路径下的lib包整合在一起，将该文件保存为packvenv.sh，放入虚拟环境目录下，chmod+xpackvenv.sh，./packvenv.sh执行即可#!/bin/bashPYTHON_PATH=/usr/local/python2.7VENV_PATH=~/.virtualenvs/venv-linux6VENV_NAME=`b
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
pycharm2023，修改文件夹路径，venv解释器无法新增 day_323 python pycharm
pycharm2023，修改文件夹路径，venv解释器无法新增1问题描述2处理方法1问题描述我的pycharm版本为2023.1.2。原有代码所在文件夹路径变更后，再用pycharm打开代码，然后进入setting-pythoninterpreter中，新增venv虚拟环境，pycharm无反应，venv环境一直无法新增。2处理方法1关闭pycharm。然后进入代码文件夹，删除.idea文件夹和v
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
python 连接数据库小鱼拉灯 mysql 数据库 python
一.连接MYSQL1.下载PyMySql模块2.在MYSQL中创建数据库并连接importpymysqlconn=pymysql.connect(host='localhost',user='root',password='123456',database='ikun',charset='utf8',port=3306)3.创建表importpymysqlconn=pymysql.connect(
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
RocketMQ 高可用集群架构与一致性机制解析乘风破浪~~ rocketmq 架构
分布式场景中一致性问题：1.服务器不稳定：随时泵机的可能2.网络问题：导致请求丢失3.网速问题：难以保证请求顺序性，最终结果数据一致性需要操作顺序性保证4.快速响应：不能因为一致性，导致响应以集群中最慢的为准。常见的算法弱一致性算法：DNS系统，Gossip协议（RedisCluster）强一致性算法：Basic-Paxos、Multi-Paxos包括Raft系列(Nacos的JRaft，Kafk
python基础笔记大大的大大笔记 python 前端数据库
输入就是print()；#括号里面双引号(“xxxx”)=单引号('xxxx')必须在一行；但是三引号"""xxxx"""='''xxx'''可以换行输出；#'''xxxnnn'''xx=open(('C:\py\py笔记.txt','a+')print('hello',file=xx)xx.close()可以在python中新建文本文本档等(看后缀)："xx"=open('C:\py\py笔记.
python venv不适合变更路径（路径变更）的几种解决方案（venvpack、pip download、pip install --no-index --find-links=packages）
文章目录**为什么会出现路径问题？**1.**`pyvenv.cfg`文件**：该文件记录了虚拟环境的Python解释器路径（`home`字段）。如果源和目标机器的Python安装路径不一致，虚拟环境将无法找到正确的解释器。2.**脚本路径硬编码**：虚拟环境中的激活脚本（如`activate`）和可执行文件（如`python`）可能包含绝对路径或硬编码的相对路径，导致路径不匹配时失效。**解决方
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
【农业模型】GPT地学领域应用、AquaCrop、R贝叶斯生态、Copula函数、DSSAT、APSIM、WOFOST、DNDC、CERRES、SWACRO、RZWQM、POTATO、SOLANUM weixin_贾遥感数据与作物模型地理遥感生态模型 ChatGPT4/DeepSeek gpt r语言无人机经验分享
农业模型依据研究对象分为农业生物模型、农业环境模型、农业技术模型、农业经济模型作物模型，即作物生长模拟模型(或称作物生长模型)，是从系统科学的角度，基于作物生理过程机制，将气候、土壤、作物品种和管理措施等对作物生长的影响因素作为一个整体系统的数值模拟系统。能够以特定时间步长对作物在单点尺度上生长发育的生物学参数以及作物产量进行动态模拟，定量化研究环境因子以及田间管理措施对作物生长发育的影响。通用型
python-程序编程-实例“温度转换”
实例：温度刻画的两种不同的体系。摄氏度、华氏度需求：将两种不同的摄氏度进行转换。问题分析：输入：输入一个华氏度的温度或者摄氏度的温度值处理：根据温度标志进行温度转换。输出：输出一个带华氏度或者摄氏度的温度值。(f代表华氏度，c代表是摄氏度)c=(f-32)/1.8f=c*1.8+32代码如下：temp=input("请输入有符号的温度值")iftemp[-1]in['f','F']:c=(eval
基于Docker构建Python后端项目落地总结
Docker使用总结基于Dockerfile的镜像构建示例dockerfile解析#加载centos7的最小镜像源FROMcentos:7RUNyumcleanallRUNyum-yupdate#修改时区RUNln-sf/usr/share/zoneinfo/Asia/Shanghai/etc/localtime&&echo"Asia/Shanghai">/etc/timezone#安装中文支持R
python集合常用函数 Lo-Y-eH python
Python集合是一种无序、可变且不重复的数据类型，常用于处理一组唯一的数据。下面是常用的Python集合函数及其用法：add()：向集合添加一个元素。s=set()s.add(1)s.add(2)s.add(3)print(s)#输出{1,2,3}clear()：移除集合中的所有元素。s=set([1,2,3])s.clear()print(s)#输出set()copy()：返回集合的一个浅拷贝
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
C++基础问题
C++基础问题掌握形参默认带缺省值的函数函数调用时#includeintsum(inta,intb=20){returna+b;}intmain(){inta=10,b=20;intret=sum(a,b);coutusingnamespacestd;#defineIS_INLINE1#ifIS_INLINEinline#endifintsum(inta,intb=20){returna+b;}i
C++ 面向对象 _Chipen c++开发语言
C++面向对象编程一个类可以定义无数个对象，每一个对象都有自己的成员变量，但是他们共享一套成员方法。构造函数的初始化列表和直接在构造函数中构造的区别：初始化列表是用来初始化成员类的，用来调用成员的构造函数的一个是先调用默认构造后初始化，一个是调用构造函数初始化即：inta=10和inta;a=10的区别。对于普通类型区别不大。初始化列表的默认初始化顺序：成员函数的定义顺序。静态成员变量：类内声明，
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

神经网络量化----TensorRT深刻解读

神经网络量化----TensorRT深刻解读

前言

一、TensorRT简介

二、难点

1.架构

2.功能

三、实现

1.conv和ReLU的融合

2.conv和ReLU的融合

quant_utils.py

3.调用示例

总结

你可能感兴趣的:(神经网络量化,pytorch,C++,算法,python,深度学习)