爱听歌的周童鞋

YOLOv5-QAT量化部署

- 前言
- 一、QAT量化浅析
- 二、YOLOv5模型训练
- - 1. 项目的克隆和必要的环境依赖
  - - 1.1 项目克隆
    - 1.2 项目代码结构整体介绍
    - 1.3 环境安装
  - 2. 数据集和预训练权重的准备
  - - 2.1 数据集
    - 2.2 预训练权重准备
  - 3. 训练模型
  - - 3.1 修改数据配置文件
    - 3.2 修改模型配置文件
    - 3.3 训练模型
    - 3.4 mAP测试
- 三、YOLOv5-QAT准备工作
- - 1. 项目克隆
  - 2. 安装依赖
  - 3. 数据集和权重准备
  - 4. 代码修改
- 四、YOLOv5-QAT微调导出-方案1
- - 1. QAT微调
  - 2. QAT模型导出
  - 3. QAT模型转换
- 五、YOLOv5-QAT微调导出-方案2
- - 1. QAT微调
  - 2. QAT模型导出
  - 3. QAT模型转换
- 六、YOLOv5-QAT部署
- - 1. 源码下载
  - 2. 环境配置
  - - 2.1 配置CMakeLists.txt
    - 2.2 配置Makefile
  - 3. INT8模型生成
  - 4. QAT模型mAP测试
  - 5. 补充-INT8模型生成
- 七、讨论
- - 1. 基本概念
  - 2. 不同精度模型对比
  - 3. QAT方案对比
  - 4. PTQ vs. QAT
  - 5. INT8模型生成方式对比
- 结语
- 下载链接
- 参考

前言

学习 cuDLA-samples 项目中的 YOLOv5-QAT 量化，本文主要是学习项目中的 YOLOv5 QAT 量化的方法，其他部分如 DLA 博主并未关注，部署使用的 repo 依旧是 tensorRT_Pro，博主在这里简单的过一遍流程，不涉及任何的原理性分析。

博主为初学者，欢迎交流讨论，若有问题欢迎各位看官批评指正！！！

一、QAT量化浅析

在正式开始之前我们先来回顾下关于 QAT 量化的一些知识，具体可参考：TensorRT量化第四课：PTQ与QAT

TensorRT 有两种量化模式，分别是隐式（implicitly）量化和显式（explicitly）量化。前者在 TRT7 版本之前用得比较多，而后者在 TRT8 版本后才完全支持，具体就是可以加载带有 QDQ 信息的模型然后生成对应量化版本的 engine。

这篇文章主要分享显式量化即 QAT 量化，关于隐式量化即 PTQ 量化可以查看上篇文章：YOLOv5-PTQ量化部署。

QAT（Quantization Aware Training）即训练中量化也叫显式量化。它是 tensorRT8 的一个新特性，这个特性其实是指 tensorRT 有直接加载 QAT 模型的能力。而 QAT 模型在这里是指包含 QDQ 操作的量化模型，而 QDQ 操作就是指量化和反量化操作。

实际上 QAT 过程和 tensorRT 没有太大关系，tensorRT 只是一个推理框架，实际的训练中量化即 QAT 操作一般都是在训练框架中去做的，比如我们熟悉的 Pytorch。（当然也不排除之后一些推理框架也会有训练功能，因此同样可以在推理框架中做）

tensorRT8 可以显式地加载包含有 QAT 量化信息的 ONNX 模型，实现一系列优化后，可以生成 INT8 的 engine。

QAT 量化需要插入 QAT 算子且需要训练进行微调，大概流程如下：

准备一个预训练模型
在模型中添加 QAT 算子
微调带有 QAT 算子的模型
将微调后模型的量化参数即 q-params 存储下来
量化模型执行推理

带有 QAT 量化信息的模型如下图所示：

从上图中我们可以看到带有 QAT 量化信息的模型中有 QuantizeLinear 和 DequantizeLinear 模块，也就是对应的 QDQ 模块，它包含了该层和该激活值的量化 scale 和 zero-point。什么是 QDQ 呢？QDQ 其实就是 Q（量化）和 DQ（反量化）两个 op，在网络中通常作为模拟量化的 op，如下图所示：

QDQ 模块会参与训练，负责将输入的 FP32 张量量化为 INT8，随后再进行反量化将 INT8 的张量再变为 FP32。值得注意的是，实际网络中训练使用的精度还是 FP32，只不过这个量化算子在训练中可以学习到量化和反量化的尺度信息，这样训练的时候就可以让模型权重和量化参数更好地适应量化过程，量化后地精度也相对更高一些。

QDQ 模块的用途主要体现在两方面：

第一个是可以存储量化信息，比如 scale 和 zero_point，这些信息可以放在 Q 和 DQ 操作中
第二个是可以当作是显示指定哪一层是量化层，我们可以默认认为包在 QDQ 操作中间的 op 都是 INT8 类型的 op，也就是我们需要量化的 op

因此对比显式量化（即 QAT 量化），tensorRT 的隐式量化（即 PTQ 量化）就没有那么直接，在 tensorRT-8 版本之前我们一般都是借助 tensorRT 的内部量化算法去量化（闭源），在构建 engine 的时候传入图像进行校准，执行的是训练后量化（PTQ）的过程。
而有了 QDQ 信息，tensorRT 在解析模型的时候会根据 QDQ 的位置找到可量化的 op，然后与 QDQ 融合(吸收尺度信息 scale 到 op 中)，融合后的算子就是实打实的 INT8 算子，经过一系列的融合优化后，最终生成量化版的 engine。

OK！关于 QAT 量化我们就简单聊下，让我们开始具体的实现吧！！！

二、YOLOv5模型训练

首先我们需要训练一个 YOLOv5 模型，当然拿官方的预训练权重也行，博主这边为了完整性还是整体走一遍流程，熟悉 YOLOv5 模型训练的看官可以跳过直接到量化部分。

1. 项目的克隆和必要的环境依赖

1.1 项目克隆

yolov5 的代码是开源的可直接从 github 官网上下载，源码下载地址是 https://github.com/ultralytics/yolov5/tree/master，由于 yolov5 版本较多，本次采用 yolov5-v7.0 分支进行模型的训练和量化部署工作。

Linux 下代码克隆指令如下：

git clone -b v7.0 https://github.com/ultralytics/yolov5.git

也可以手动点击下载，首先点击左上角切换成 v7.0 分支，如下图所示：

然后点击右上角的 Code 按键将代码下载下来，如下图所示：

至此整个项目就已经准备好了，也可以点击 here【pwd:yolo】下载博主准备好的代码。

1.2 项目代码结构整体介绍

将下载后的 yolov5-7.0 的代码解压，其代码目录如下图：

现在来对代码的整体目录做一个介绍

|-classify：用于存放使用 yolov5 做分类的一些文件
|-data：主要是存放一些超参数的配置文件（如yaml文件、sh脚本文件），用来配置训练集和验证集还要测试集的路径的；还要一些官方提供的测试图片，后续我们要训练自己的数据集需要修改其中的 yaml 文件。
|-models：这里面主要是一些网络构建的配置文件和模块文件，其中包含了 n、s、m、l、x 五个不同的版本，它们的检测速度从快到慢，但精度从低到高。如果训练自己的数据集，需要修改对应的 yaml 文件
|-segment：用于存放使用 yolov5 做分割的一些文件
|-utils：主要存放工具类函数，比如 loss 损失函数，plot 绘图函数，metrics 函数等等
detect.py：该文件主要功能是利用训练好的模型进行推理检测，可以进行图像、视频和摄像头的检测
export.py：该文件主要功能是将训练好的 pytorch 模型导出为其它格式的模型，如 ONNX、TensorRT、OpenVINO 等等
train.py：该文件主要功能是利用 yolov5 训练自己的数据集
val.py：该文件主要功能是测试训练好的 yolov5 模型的 mAP
requirements.txt：这是一个文本文件，包含使用 yolov5 项目所依赖的第三方库的版本

以上就是 yolov5 项目代码的整体介绍，我们训练和量化部署基本使用上面的代码就够了

1.3 环境安装

关于深度学习的环境安装可参考炮哥的利用Anaconda安装pytorch和paddle深度学习环境+pycharm安装—免额外安装CUDA和cudnn(适合小白的保姆级教学)，这里不再赘述。

2. 数据集和预训练权重的准备

2.1 数据集

这里训练采用的数据集是 PASCAL VOC 数据集，但博主并没有使用完整的 VOC 数据集，而是选用了部分数据，具体分布如下：

训练集：(VOC2007train + VOC2007val) x 80% = 4013
验证集：(VOC2007train + VOC2007val) x 20% = 998
测试集：0

这里给出下载链接 Baidu Drive【pwd:yolo】下载解压后整个数据集文件夹内容如下图所示：

其中 images 存放训练集和验证集的图片文件，labels 存放着对应的 YOLO 格式的 .txt 文件。

完整的 VOC 数据集的相关介绍和下载可参考：目标检测：PASCAL VOC 数据集简介

由于大家可能从其它地方拿到的是 XML 格式的标签文件，这里提供一个 XML2YOLO 转换的代码，如下所示：(from chatGPT)

import os
import cv2
import xml.etree.ElementTree as ET
import shutil
from multiprocessing import Pool, cpu_count
from tqdm import tqdm
import numpy as np
from functools import partial

def process_xml(xml_filename, img_path, xml_path, img_save_path, label_save_path, class_dict, ratio):
    # 解析 xml 文件
    xml_file_path = os.path.join(xml_path, xml_filename)
    tree = ET.parse(xml_file_path)
    root = tree.getroot()

    # 获取图像的宽度和高度
    img_filename = os.path.splitext(xml_filename)[0] + ".jpg"
    img = cv2.imread(os.path.join(img_path, img_filename))
    height, width = img.shape[:2]

    # 随机决定当前图像和标签是属于训练集还是验证集
    subset = "train" if np.random.random() < ratio else "val"

    # 打开对应的标签文件进行写入
    label_file = os.path.join(label_save_path, subset, os.path.splitext(xml_filename)[0] + ".txt")
    with open(label_file, "w") as file:
        for obj in root.iter('object'):
            # 获取类别名并转换为类别ID
            class_name = obj.find('name').text
            class_id = class_dict[class_name]

            # 获取并处理边界框的坐标
            xmlbox = obj.find('bndbox')
            x1 = float(xmlbox.find('xmin').text)
            y1 = float(xmlbox.find('ymin').text)
            x2 = float(xmlbox.find('xmax').text)
            y2 = float(xmlbox.find('ymax').text)

            # 计算中心点坐标和宽高，并归一化
            x_center = (x1 + x2) / 2 / width
            y_center = (y1 + y2) / 2 / height
            w = (x2 - x1) / width
            h = (y2 - y1) / height

            # 写入文件
            file.write(f"{class_id} {x_center} {y_center} {w} {h}\n")

    # 将图像文件复制到对应的训练集或验证集目录
    shutil.copy(os.path.join(img_path, img_filename), os.path.join(img_save_path, subset, img_filename))

def check_and_create_dir(path):
    # 检查并创建 train 和 val 目录
    for subset in ['train', 'val']:
        if not os.path.exists(os.path.join(path, subset)):
            os.makedirs(os.path.join(path, subset))

if __name__ == "__main__":
    # 1. 定义路径和类别字典，不要使用中文路径
    img_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\JPEGImages"
    xml_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\Annotations"
    img_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\images"
    label_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\labels"

    class_dict = {
    "aeroplane": 0,
    "bicycle": 1,
    "bird": 2,
    "boat": 3,
    "bottle": 4,
    "bus": 5,
    "car": 6,
    "cat": 7,
    "chair": 8,
    "cow": 9,
    "diningtable": 10,
    "dog": 11,
    "horse": 12,
    "motorbike": 13,
    "person": 14,
    "pottedplant": 15,
    "sheep": 16,
    "sofa": 17,
    "train": 18,
    "tvmonitor": 19
    }

    train_val_ratio = 0.8  # 2. 定义训练集和验证集的比例

    # 检查并创建必要的目录
    check_and_create_dir(img_save_path)
    check_and_create_dir(label_save_path)

    # 获取 xml 文件列表
    xml_filenames = os.listdir(xml_path)

    # 创建进程池并执行
    with Pool(cpu_count()) as p:
        list(tqdm(p.imap(partial(process_xml, img_path=img_path, xml_path=xml_path, img_save_path=img_save_path, label_save_path=label_save_path, 
                                 class_dict=class_dict, ratio=train_val_ratio), xml_filenames), total=len(xml_filenames)))

上述代码的功能是将 PASCAL VOC 格式的数据集（包括 JPEG 图像和 XML 格式的标签文件）转换为 YOLO 需要的 .txt 标签格式，同时会将转换后的数据集按照比例随机划分为训练集和验证集。

你需要修改以下几项：

img_path：需要转换的图像文件路径
xml_path：需要转换的 xml 标签文件路径
img_save_path：转换后保存的图像路径
label_save_path：转换后保存的 txt 标签路径
class_dict：数据集类别字典
train_val_ratio：训练集和验证集划分的比例
注意：以上路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

XML 标签文件中目标框保存的格式是 [xmin, ymin, xmax, ymax] 四个变量，分别代表着未经归一化的左上角和右下角坐标。

YOLO 标签中目标框保存的格式是每一行代表一个目标框信息，每一行共包含 [label_id, x_center, y_center, w, h] 五个变量，分别代表着标签 ID，经过归一化后的中心点坐标和目标框宽高。

关于代码的分析可以参考：tensorRT模型性能测试

至此，数据集的准备工作完毕。

2.2 预训练权重准备

yolov5-7.0 预训练权重可以通过 here 下载，博主也提供了下载好的预训练权重 Baidu Drive【pwd:yolo】，注意这是 yolov5-v7.0 版本的预训练权重，如果你使用的是其它版本，记得替换。本次训练 PASCAL VOC 数据集使用的预训练权重为 yolov5s.pt。

3. 训练模型

将准备好的数据集文件夹即 VOC 复制到 yolov5 项目环境中，将准备好的预训练权重 yolov5s.pt 复制到 yolov5 项目环境中，完整的项目结构如下图所示。训练目标检测模型主要修改 data 文件夹下的数据配置文件 data/VOC.yaml 以及 models 文件夹下的模型配置文件 models/yolov5s.yaml

3.1 修改数据配置文件

修改 data 目录下相应的 yaml 文件，找到目录下的 VOC.yaml 文件，主要修改如下：

1. 修改第 11 行数据集路径
2. 修改第 12 行训练集
3. 修改第 17 行验证集
4. 注释第 19 行测试集，未使用到
5. 第 23 行类别数不用修改，如果是其它自定义数据记得修改
6. 注释第 47 行自动下载

3.2 修改模型配置文件

由于该项目使用的是 yolov5s.pt 这个预训练权重，所以需要修改 models/yolov5s.yaml 这个文件（由于不同的预训练权重对应不同的网络结构，所以用错预训练权重会报错）。主要修改 yolov5s.yaml 文件的第 4 行，即需要识别的类别数，由于 PASCAL VOC 数据集识别 20 个类别，故修改为 20 即可，如下所示：

3.3 训练模型

在终端执行如下指令即可开始训练：

python train.py --weights=./yolov5s.pt --cfg=./models/yolov5s.yaml --data=./data/VOC.yaml --epochs=100 --batch-size=16

博主训练的模型为 p5 models 且使用的是单个 GPU 进行训练，显卡为 RTX3060，操作系统为 Ubuntu20.04，pytorch 版本为 1.12.0，训练时长大概 1 小时左右。训练的参数简要解释如下：

–weights 预训练权重路径
–cfg 模型配置文件路径
–data 数据配置文件路径
–epochs 训练轮数
–batch_size 每次输入到网络的图片数

还要其它参数博主并未设置，如 –img 图像尺寸 等，大家一定要根据自己的实际情况（如显卡算力）指定不同的参数，如果你之前训练过模型，那我相信这对你来说应该是小 case

训练完成后的模型权重保存在 runs/train/exp/weights 文件夹下，我们使用 best.pt 进行后续模型量化部署即可，这里提供博主训练好的权重文件下载链接 Baidu Drive【pwd:yolo】

3.4 mAP测试

由于后续我们要对模型进行 QAT 量化，需要一些指标来衡量模型的性能，mAP 是一个重要的衡量指标。我们需要对比量化前后模型的 mAP，首先来看量化前原始 pytorch 模型的 mAP，测试的数据集直接选用验证集的 998 张图片。

我们将置信度阈值设置为 0.001，NMS 阈值设置为 0.65，方便与后续 QAT 量化模型对比。

mAP 测试的指令如下：

python val.py --weights runs/train/exp/weights/best.pt --data data/VOC.yaml --img 640 --conf-thres 0.001 --iou-thres 0.65

测试完成后的结果会保存在 runs/val/exp 文件夹下，这里总结下原始 pytorch 模型的性能

Model	Size	mAP^val 0.5:0.95	mAP^val 0.5	Params ^(M)	FLOPs ^(G)
YOLOv5s	640	0.471	0.711	7.2	16.5

三、YOLOv5-QAT准备工作

参考自：https://github.com/NVIDIA-AI-IOT/cuDLA-samples/tree/main/export/README.md

描述：在正式开始 QAT 量化之前我们需要做一些准备工作，比如安装一些必要的依赖库，准备好用于量化训练的权重和数据集，以及简单修改部分代码等等。请大家务必熟读对应的 README 文档，将博主实现的流程对照着 README 文档来看可能更方便理解。

1. 项目克隆

克隆 yolov5-v7.0 项目

git clone -b v7.0 https://github.com/ultralytics/yolov5

克隆 cuDLA-samples 项目

git clone --recursive https://github.com/NVIDIA-AI-IOT/cuDLA-samples.git

也可以点击 here【pwd:yolo】下载博主准备好的代码（注意该代码下载于 2023/10/6 日，若有改动请参考最新）

将 cuDLA-samples 项目中的 yolov5-qat 文件夹和 qdq_translator 文件夹复制到 yolov5 项目中，指令如下：

cp -r cuDLA-samples/export/yolov5-qat/* yolov5-7.0/
cp -r cuDLA-samples/export/qdq_translator yolov5-7.0/

完整的目录如下：

2. 安装依赖

QAT 量化需要使用到 NVIDIA 为 TensorRT 提供的 pytorch-quantization 工具，安装指令如下：

pip install pytorch-quantization --extra-index-url https://pypi.ngc.nvidia.com

此外还需要一些用于 QDQ 节点转换的第三方库，安装指令如下：

cd cuDLA-samples/export/qdq_translator
pip install -r requirements.txt

3. 数据集和权重准备

我们需要准备一个数据集用于 QAT 模型的微调，数据集直接拿之前用于训练的数据集即可，此外我们还需要提供两个 txt 文档，一个是 train2017.txt 里面包含所有训练集图片的完整路径，一个是 val2017.txt 里面包含所有验证集图片的完整路径。

txt 文档生成代码如下：

import os

save_dir  = "/home/jarvis/Learn/Datasets/VOC_QAT"
train_dir = "/home/jarvis/Learn/Datasets/VOC_QAT/images/train"
train_txt_path = os.path.join(save_dir, "train2017.txt")

with open(train_txt_path, "w") as f:
    for filename in os.listdir(train_dir):
        if filename.endswith(".jpg") or filename.endswith(".png"): # 添加你的图像文件扩展名
            file_path = os.path.join(train_dir, filename)
            f.write(file_path + "\n")

print(f"train2017.txt has been created at {train_txt_path}")

val_dir = "/home/jarvis/Learn/Datasets/VOC_QAT/images/val"
val_txt_path = os.path.join(save_dir, "val2017.txt")

with open(val_txt_path, "w") as f:
    for filename in os.listdir(val_dir):
        if filename.endswith(".jpg") or filename.endswith(".png"): # 添加你的图像文件扩展名
            file_path = os.path.join(val_dir, filename)
            f.write(file_path + "\n")

print(f"val2017.txt has been created at {val_txt_path}")

你需要修改以下几项：

save_dir：txt 文档保存的路径，应该与 images 和 labels 文件夹在同一级目录
train_dir：训练集图片路径
val_dir：验证集图片路径

执行完成后会在对应目录下生成 train2017.txt 和 val2017.txt 两个文件。

数据集完整的目录结构如下：

.
├── images
│   ├── train
│   └── val
├── labels
│   ├── train
│   └── val
├── train2017.txt
└── val2017.txt

6 directories, 2 files

除数据集外我们还需要准备一个权重文件用于 QAT 量化训练，权重直接选取之前 yolov5 训练 VOC 数据集的 best.pt 文件即可。可以点击 here【pwd:yolo】下载博主准备好的数据集和权重。

我们可以将准备好的数据集和权重都放在 yolov5 项目下，方便后续操作。

4. 代码修改

由于 QAT 量化过程需要训练，因此我们还需要修改下 yolov5 目录下的配置文件方便后续训练。

主要修改数据配置文件 data/VOC.yaml 以及模型配置文件 models/yolov5s.yaml，我们在之前模型训练中有详细提到过，这边不再赘述。

除此之外还需要修改下 scripts/qat.py 中的数据配置文件指定，具体修改如下：

# scripts/qat.py 121 行
# return val.run(
#     check_dataset("data/coco.yaml"), 
#     save_dir=Path(save_dir),
#     dataloader=dataloader, conf_thres=conf_thres,iou_thres=iou_thres,model=model,
#     plots=False,save_json=using_cocotools)[0][3]

return val.run(
    check_dataset("data/VOC.yaml"), 
    save_dir=Path(save_dir),
    dataloader=dataloader, conf_thres=conf_thres,iou_thres=iou_thres,model=model,
    plots=False,save_json=using_cocotools)[0][3]

至此，YOLOv5-QAT 的准备工作到这里就结束了，下面我们正式开始 QAT 量化训练和部署

四、YOLOv5-QAT微调导出-方案1

在正式开始 QAT 量化训练之前，请务必确保完成了三中的准备工作，这对我们后续的量化训练部署非常重要。

cuDLA-samples 这个 repo 为 YOLOv5 QAT 量化的 Q/DQ 节点插入提供了两种可能的方法。这两种方法各有优势，在 cuDLA-samples 项目中实现了对这两种方法的支持。

我们先来看方案一，方案一是按照 TensorRT Processing of Q/DQ Networks 中的建议放置 Q/DQ 节点，这种方法符合 TensorRT 的 D/DQ 层融合策略。下面我们开始方案一的具体实现。

1. QAT微调

将代码、数据集、权重准备好后我们就可以来进行 QAT 量化了，进入 yolov5 主目录执行如下指令：

python scripts/qat.py quantize best.pt --ptq=ptq.pt --qat=qat.pt --cocodir=/home/jarvis/Learn/Datasets/VOC_QAT --eval-ptq --eval-origin

注意将 cocodir 替换成你自己的路径

该指令会利用 best.pt 权重和对应的数据集进行量化，量化过程如下图所示：

量化完成后在当前目录下会生成 ptq.pt 和 qat.pt 模型文件，分别对应着 PTQ 模型和 QAT 模型，后续我们只需要 qat.pt 模型并将其导出为 ONNX 即可。

2. QAT模型导出

我们需要将上面生成的 qat.pt 导出为 ONNX，在导出之前我们需要修改下源代码让其导出的 ONNX 模型尽可能的简单，并能够适配 tensorRT_Pro。为此我们需要修改 scripts/qat.py 以及 models/yolo.py 两个文件。

1. 修改输出节点名

# srcipts/qat.py第153行，export_onnx函数
# quantize.export_onnx(model, dummy, file, opset_version=13, 
#     input_names=["images"], output_names=["outputs"], 
#     dynamic_axes={"images": {0: "batch"}, "outputs": {0: "batch"}} if dynamic_batch else None
# )
# 修改为：

quantize.export_onnx(model, dummy, file, opset_version=13, 
    input_names=["images"], output_names=["output"], 
    dynamic_axes={"images": {0: "batch"}, "output": {0: "batch"}} if dynamic_batch else None
)

2. 导出的 ONNX 尽可能简单

# yolov5-7.0/models/yolo.py第60行，forward函数
# bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
# x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()
# 修改为：

bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
bs = -1
ny = int(ny)
nx = int(nx)
x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

# yolov5-7.0/models/yolo.py第79行，forward函数
# return x if self.training else (torch.cat(z, 1),) if self.export else (torch.cat(z, 1), x)
# 修改为：

return (torch.cat(z, 1),)

修改完成后我们就可以导出 qat.pt 模型了，指令如下：

python scripts/qat.py export qat.pt --size=640 --save=yolov5_trimmed_qat.onnx --dynamic

输出如下：

值得注意的是与 cuDLA-samples 的 README 做法不同，博主并没有指定 –noanchor 参数，而是将 anchor 节点放到了导出的 ONNX 模型中，此外 README 中有提到如果需要测试模型的 mAP 需要将 size 设置为 672，而在后续 QAT 模型的 mAP 测试中博主均采用的是 size 为 640 的模型。

导出的 onnx 模型如下图所示：

3. QAT模型转换

将导出的 QAT 模型转换为 PTQ 模型和 INT8 Cache 缓存文件，指令如下：

python qdq_translator/qdq_translator.py --input_onnx_models=yolov5_trimmed_qat.onnx --output_dir=./ --infer_concat_scales --infer_mul_scales

你可能会遇到下面的问题：

提示如下错误信息：

RuntimeError: Expected QuantizeLinear operator's scale and zero_point arguments to be parsed as gs.Variables filled by gs.Constant operators, but got ('Constant', 'Identity') operators. This is possibly caused by symbolic variables were not converted to tensors during PyTorch to ONNX exporting.

我们从错误信息中可以分析得出是由于 Pytorch 模型导出 ONNX 模型时出现了符号变量转换的问题，具体是 Identity 算子引起的，这说明我们之前导出的 ONNX 模型是存在问题的。

我们可以利用 Netron 可视化工具查看下之前导出的 ONNX 模型如下所示：

可以发现算子中除了插入 Q/DQ 节点外，还引入了 Identity 节点，这并不是我们希望看到的。

那引起多余 Identity 节点的原因是什么呢？如何正确导出 ONNX 模型呢？

量化训练导出步骤都是正确的，都是按照 README 文档来进行的，但是最终导出的模型却存在差异。经过博主测试发现，主要是由于安装的软件包版本差异引起的，具体是量化工具库 pytorch_quantization 和 pytorch 版本的适配问题导致的多余节点存在。

博主原本的软件版本是：pytorch_quantization==2.1.3, pytorch==1.12.1

发现可能是 pytorch 版本太低的原因，于是重新创建了新的虚拟环境，并安装了高版本的 pytorch

博主修改后的软件版本是：pytorch_quantization==2.1.3, pytorch==2.0.1

修改后重新再去按照第 3 小节中的指令导出 qat.pt 模型，此时导出的 ONNX 模型如下：

可以看到此时干净了不少，每个节点之间只有 Q/DQ 节点，并没有多余的部分，将正确导出的 ONNX 模型再执行模型转换的指令，正常输入如下：

执行成功后在当前目录下会生成几个文件，我们来简单分析下它们各种的用途

1. yolov5_trimmed_qat_noqdq.onnx

这个文件是经过优化后的模型，其中 QDQ 节点被移除。QDQ 节点是与量化有关的节点，移除它们意味着模型已准备好进行后量化（PTQ）
其实就是普通的 ONNX 模型，没有什么区别，只不过进行了 onnxsim 所以整个模型看起来非常干净

2. yolov5_trimmed_qat_precision_config_calib.cache

该文件是由 export_to_trt_calib 函数生成的，它包含了 TensorRT 的校准信息。它使用了从 .json 文件中的 int8_tensor_scales 部分提取的数据。这个文件将被用于 TensorRT 的 INT8 量化。
其实就是我们所说的 INT8 Cache 缓存文件，里面存储着每层的量化信息即 scale 和 zero_point

3. yolov5_trimmed_qat_precision_config_layer_arg.txt

同样由 export_to_trt_calib 函数生成。它包含了需要以 FP16 格式运行的层的列表。这个文件可以用于指导 TensorRT 在 FP16 精度模式下执行哪些层
这个文件中应该是敏感层分析后的结果，具体就是某些层不建议使用 INT8 精度，推荐 FP16，后续在利用 trtexec 工具生成 INT8 模型时需要使用到。

4. yolov5_trimmed_qat_precision_config.json

这个文件内容包含了两个主要部分：int8_tensor_scales 和 fp16_nodes。int8_tensor_scales 部分包含了层的名字和对应的缩放因子，而 fp16_node 部分包含了需要以 FP16 格式运行的层的列表。这个文件是量化过程的一个中间产物，用于保存模型中每个层的缩放因子和敏感层的信息
cache 缓存文件和 txt 敏感层文件的都是由 json 文件生成的

至此，YOLOv5-QAT 微调导出的方案一到这里就结束了。

后续 INT8 模型的生成和部署需要使用到这里生成的 ONNX 模型、量化信息缓存文件以及敏感层信息文件。

可以点击 here【pwd:yolo】下载博主 QAT 量化训练好的模型和中间文件。

五、YOLOv5-QAT微调导出-方案2

接着我们来看下第二种方案，方案二会在每一层都插入 Q/DQ 节点，确保所有的 tensor 都有 INT8 尺度信息。与方案一相比，所有层的 scale 都可以在模型微调时获得。但如果在 GPU 上运行推理，这种方法可能会破坏 TensorRT 中的 Q/DQ 层的融合策略。这也就是为什么在使用方案二导入带有 Q/DQ 节点的 ONNX 模型时在 GPU 上的延迟可能会更高的原因。

1. QAT微调

将代码、数据集、权重准备好后我们就可以来进行 QAT 量化了，进入 yolov5 主目录执行如下指令：

python scripts/qat.py quantize best.pt --ptq=ptq.pt --qat=qat.pt --cocodir=/home/jarvis/Learn/Datasets/VOC_QAT --eval-ptq --eval-origin --all-node-with-qdq

注意将 cocodir 替换成你自己的路径，与方案一不同的是我们加上了 –all-node-with-qdq 参数，意味着在所有节点上都会插入 Q/DQ 节点。

该指令会利用 best.pt 权重和对应的数据集进行量化，量化过程如下图所示：

量化完成后在当前目录下会生成 ptq.pt 和 qat.pt 模型文件，分别对应着 PTQ 模型和 QAT 模型，后续我们只需要 qat.pt 模型并将其导出为 ONNX 即可。

2. QAT模型导出

1. 修改输出节点名

# srcipts/qat.py第153行，export_onnx函数
# quantize.export_onnx(model, dummy, file, opset_version=13, 
#     input_names=["images"], output_names=["outputs"], 
#     dynamic_axes={"images": {0: "batch"}, "outputs": {0: "batch"}} if dynamic_batch else None
# )
# 修改为：

quantize.export_onnx(model, dummy, file, opset_version=13, 
    input_names=["images"], output_names=["output"], 
    dynamic_axes={"images": {0: "batch"}, "output": {0: "batch"}} if dynamic_batch else None
)

2. 导出的 ONNX 尽可能简单

# yolov5-7.0/models/yolo.py第60行，forward函数
# bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
# x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()
# 修改为：

bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
bs = -1
ny = int(ny)
nx = int(nx)
x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

# yolov5-7.0/models/yolo.py第79行，forward函数
# return x if self.training else (torch.cat(z, 1),) if self.export else (torch.cat(z, 1), x)
# 修改为：

return (torch.cat(z, 1),)

修改完成后我们就可以导出 qat.pt 模型了，指令如下：

python scripts/qat.py export qat.pt --size=640 --save=yolov5_trimmed_qat.onnx --dynamic

输出如下：

导出的 onnx 模型如下图所示：

与方案一对比可以发现方案二导出的 ONNX 模型中的每个节点都被插入了 Q/DQ 节点。

注：如果导出的 ONNX 模型包含 Identity 节点，导致后面的 QAT 模型转换失败，可查看方案一中的解决方法，这里不再赘述。

3. QAT模型转换

将导出的 QAT 模型转换为 PTQ 模型和 INT8 Cache 缓存文件，指令如下：

python qdq_translator/qdq_translator.py --input_onnx_models=yolov5_trimmed_qat.onnx --output_dir=./

与方案一相比，少了 –infer_concat_scales 和 –infer_mul_scales 参数的指定。

输入如下：

至此，YOLOv5-QAT 微调导出的方案二到这里就结束了。

可以点击 here【pwd:yolo】下载博主 QAT 量化训练好的模型和中间文件。

六、YOLOv5-QAT部署

由于博主手头没有合适的 Jetson 嵌入式设备，因此打算使用自己的主机完成 YOLOv5-QAT 部署工作，部署使用的 repo 是 tensorRT_Pro。

接下来我们主要是针对 tensorRT_Pro 项目中的 YOLOv5 完成 QAT 的模型部署，本次部署的模型是 YOLOv5s.pt，数据集为 VOC，类别数为 20。

1. 源码下载

tensorRT_Pro 的代码可以直接从 GitHub 官网上下载，源码下载地址是 https://github.com/shouxieai/tensorRT_Pro，Linux 下代码克隆指令如下：

$ git clone https://github.com/shouxieai/tensorRT_Pro

也可手动点击下载，点击右上角的 Code 按键，将代码下载下来。至此整个项目就已经准备好了。也可以点击 Baidu Drive【pwd:yolo】下载博主准备好的源代码（注意该代码下载于 2023/10/6 日，若有改动请参考最新）

2. 环境配置

需要使用的软件环境有 TensorRT、CUDA、cuDNN、OpenCV、Protobuf，所有软件环境的安装可以参考 Ubuntu20.04部署YOLOv5，这里不再赘述，需要各位看官自行配置好相关环境，外网访问较慢，这里提供下博主安装过程中的软件安装包下载链接 Baidu Drive【pwd:yolo】

tensorRT_Pro 提供 CMakeLists.txt 和 Makefile 两种方式编译，二者选一即可

2.1 配置CMakeLists.txt

主要修改六处

1. 修改第 10 行，选择不支持 python (也可选择支持)

set(HAS_PYTHON OFF)

2. 修改第 18 行，修改 OpenCV 路径

set(OpenCV_DIR   "/usr/local/include/opencv4/")

3. 修改第 20 行，修改 CUDA 路径

set(CUDA_TOOLKIT_ROOT_DIR     "/usr/local/cuda-11.6")

4. 修改第 21 行，修改 cuDNN 路径

set(CUDNN_DIR    "/usr/local/cudnn8.4.0.27-cuda11.6")

5. 修改第 22 行，修改 tensorRT 路径

set(TENSORRT_DIR "/opt/TensorRT-8.4.1.5")

6. 修改第 33 行，修改 protobuf 路径

set(PROTOBUF_DIR "/home/jarvis/protobuf")

完整的 CMakeLists.txt 的内容如下：

cmake_minimum_required(VERSION 2.6)
project(pro)

option(CUDA_USE_STATIC_CUDA_RUNTIME OFF)
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_BUILD_TYPE Debug)
set(EXECUTABLE_OUTPUT_PATH ${PROJECT_SOURCE_DIR}/workspace)

# 如果要支持python则设置python路径
set(HAS_PYTHON OFF)                                         # ===== 修改 1 =====
set(PythonRoot "/datav/software/anaconda3")
set(PythonName "python3.9")

# 如果你是不同显卡，请设置为显卡对应的号码参考这里：https://developer.nvidia.com/zh-cn/cuda-gpus#compute
#set(CUDA_GEN_CODE "-gencode=arch=compute_75,code=sm_75")

# 如果你的opencv找不到，可以自己指定目录
set(OpenCV_DIR   "/usr/local/include/opencv4/")             # ===== 修改 2 =====

set(CUDA_TOOLKIT_ROOT_DIR     "/usr/local/cuda-11.6")       # ===== 修改 3 =====
set(CUDNN_DIR    "/usr/local/cudnn8.4.0.27-cuda11.6")       # ===== 修改 4 =====
set(TENSORRT_DIR "/opt/TensorRT-8.4.1.5")                   # ===== 修改 5 =====

# set(CUDA_TOOLKIT_ROOT_DIR     "/data/sxai/lean/cuda-10.2")
# set(CUDNN_DIR    "/data/sxai/lean/cudnn7.6.5.32-cuda10.2")
# set(TENSORRT_DIR "/data/sxai/lean/TensorRT-7.0.0.11")

# set(CUDA_TOOLKIT_ROOT_DIR  "/data/sxai/lean/cuda-11.1")
# set(CUDNN_DIR    "/data/sxai/lean/cudnn8.2.2.26")
# set(TENSORRT_DIR "/data/sxai/lean/TensorRT-7.2.1.6")

# 因为protobuf，需要用特定版本，所以这里指定路径
set(PROTOBUF_DIR "/home/jarvis/protobuf")                   # ===== 修改 6 ======


find_package(CUDA REQUIRED)
find_package(OpenCV)

include_directories(
    ${PROJECT_SOURCE_DIR}/src
    ${PROJECT_SOURCE_DIR}/src/application
    ${PROJECT_SOURCE_DIR}/src/tensorRT
    ${PROJECT_SOURCE_DIR}/src/tensorRT/common
    ${OpenCV_INCLUDE_DIRS}
    ${CUDA_TOOLKIT_ROOT_DIR}/include
    ${PROTOBUF_DIR}/include
    ${TENSORRT_DIR}/include
    ${CUDNN_DIR}/include
)

# 切记，protobuf的lib目录一定要比tensorRT目录前面，因为tensorRTlib下带有protobuf的so文件
# 这可能带来错误
link_directories(
    ${PROTOBUF_DIR}/lib
    ${TENSORRT_DIR}/lib
    ${CUDA_TOOLKIT_ROOT_DIR}/lib64
    ${CUDNN_DIR}/lib
)

if("${HAS_PYTHON}" STREQUAL "ON")
    message("Usage Python ${PythonRoot}")
    include_directories(${PythonRoot}/include/${PythonName})
    link_directories(${PythonRoot}/lib)
    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DHAS_PYTHON")
endif()

set(CMAKE_CXX_FLAGS  "${CMAKE_CXX_FLAGS} -std=c++11 -Wall -O0 -Wfatal-errors -pthread -w -g")
set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -std=c++11 -O0 -Xcompiler -fPIC -g -w ${CUDA_GEN_CODE}")
file(GLOB_RECURSE cpp_srcs ${PROJECT_SOURCE_DIR}/src/*.cpp)
file(GLOB_RECURSE cuda_srcs ${PROJECT_SOURCE_DIR}/src/*.cu)
cuda_add_library(plugin_list SHARED ${cuda_srcs})
target_link_libraries(plugin_list nvinfer nvinfer_plugin)
target_link_libraries(plugin_list cuda cublas cudart cudnn)
target_link_libraries(plugin_list protobuf pthread)
target_link_libraries(plugin_list ${OpenCV_LIBS})

add_executable(pro ${cpp_srcs})

# 如果提示插件找不到，请使用dlopen(xxx.so, NOW)的方式手动加载可以解决插件找不到问题
target_link_libraries(pro nvinfer nvinfer_plugin)
target_link_libraries(pro cuda cublas cudart cudnn)
target_link_libraries(pro protobuf pthread plugin_list)
target_link_libraries(pro ${OpenCV_LIBS})

if("${HAS_PYTHON}" STREQUAL "ON")
    set(LIBRARY_OUTPUT_PATH ${PROJECT_SOURCE_DIR}/example-python/pytrt)
    add_library(pytrtc SHARED ${cpp_srcs})
    target_link_libraries(pytrtc nvinfer nvinfer_plugin)
    target_link_libraries(pytrtc cuda cublas cudart cudnn)
    target_link_libraries(pytrtc protobuf pthread plugin_list)
    target_link_libraries(pytrtc ${OpenCV_LIBS})
    target_link_libraries(pytrtc "${PythonName}")
    target_link_libraries(pro "${PythonName}")
endif()

add_custom_target(
    yolo
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo
)

add_custom_target(
    yolo_gpuptr
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo_gpuptr
)

add_custom_target(
    yolo_fast
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo_fast
)

add_custom_target(
    centernet
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro centernet
)

add_custom_target(
    alphapose 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro alphapose
)

add_custom_target(
    retinaface
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro retinaface
)

add_custom_target(
    dbface
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro dbface
)

add_custom_target(
    arcface 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro arcface
)

add_custom_target(
    bert 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro bert
)

add_custom_target(
    fall
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro fall_recognize
)

add_custom_target(
    scrfd
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro scrfd
)

add_custom_target(
    lesson
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro lesson
)

add_custom_target(
    pyscrfd
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_scrfd.py
)

add_custom_target(
    pyinstall
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python setup.py install
)

add_custom_target(
    pytorch
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_torch.py
)

add_custom_target(
    pyyolov5
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_yolov5.py
)

add_custom_target(
    pycenternet
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_centernet.py
)

2.2 配置Makefile

主要修改六处

1. 修改第 4 行，修改 protobuf 路径

lean_protobuf  := /home/jarvis/protobuf

2. 修改第 5 行，修改 tensorRT 路径

lean_tensor_rt := /opt/TensorRT-8.4.1.5

3. 修改第 6 行，修改 cuDNN 路径

lean_cudnn     := /usr/local/cudnn8.4.0.27-cuda11.6

4. 修改第 7 行，修改 OpenCV 路径

lean_opencv    := /usr/local

5. 修改第 8 行，修改 CUDA 路径

lean_cuda      := /usr/local/cuda-11.6

6. 修改第 9 行，选择不支持 python (也可选择支持)

use_python     := false

完整的 Makefile 的内容如下：

cc        := g++
nvcc      = ${lean_cuda}/bin/nvcc

lean_protobuf  := /home/jarvis/protobuf		# ===== 修改 1 =====
lean_tensor_rt := /opt/TensorRT-8.4.1.5		# ===== 修改 2 =====
lean_cudnn     := /usr/local/cudnn8.4.0.27-cuda11.6	# ===== 修改 3 =====
lean_opencv    := /usr/local				# ===== 修改 4 =====
lean_cuda      := /usr/local/cuda-11.6		# ===== 修改 5 =====
use_python     := false						# ===== 修改 6 =====
python_root    := /datav/software/anaconda3

# python_root指向的lib目录下有个libpython3.9.so，因此这里写python3.9
# 对于有些版本，so名字是libpython3.7m.so，你需要填写python3.7m
# /datav/software/anaconda3/lib/libpython3.9.so
python_name    := python3.9

# 如果是其他显卡，请修改-gencode=arch=compute_75,code=sm_75为对应显卡的能力
# 显卡对应的号码参考这里：https://developer.nvidia.com/zh-cn/cuda-gpus#compute
cuda_arch := # -gencode=arch=compute_75,code=sm_75

cpp_srcs  := $(shell find src -name "*.cpp")
cpp_objs  := $(cpp_srcs:.cpp=.cpp.o)
cpp_objs  := $(cpp_objs:src/%=objs/%)
cpp_mk    := $(cpp_objs:.cpp.o=.cpp.mk)

cu_srcs  := $(shell find src -name "*.cu")
cu_objs  := $(cu_srcs:.cu=.cu.o)
cu_objs  := $(cu_objs:src/%=objs/%)
cu_mk    := $(cu_objs:.cu.o=.cu.mk)

include_paths := src        \
			src/application \
			src/tensorRT	\
			src/tensorRT/common  \
			$(lean_protobuf)/include \
			$(lean_opencv)/include/opencv4 \
			$(lean_tensor_rt)/include \
			$(lean_cuda)/include  \
			$(lean_cudnn)/include 

library_paths := $(lean_protobuf)/lib \
			$(lean_opencv)/lib    \
			$(lean_tensor_rt)/lib \
			$(lean_cuda)/lib64  \
			$(lean_cudnn)/lib

link_librarys := opencv_core opencv_imgproc opencv_videoio opencv_imgcodecs \
			nvinfer nvinfer_plugin \
			cuda cublas cudart cudnn \
			stdc++ protobuf dl


# HAS_PYTHON表示是否编译python支持
support_define    := 

ifeq ($(use_python), true) 
include_paths  += $(python_root)/include/$(python_name)
library_paths  += $(python_root)/lib
link_librarys  += $(python_name)
support_define += -DHAS_PYTHON
endif

empty         :=
export_path   := $(subst $(empty) $(empty),:,$(library_paths))

run_paths     := $(foreach item,$(library_paths),-Wl,-rpath=$(item))
include_paths := $(foreach item,$(include_paths),-I$(item))
library_paths := $(foreach item,$(library_paths),-L$(item))
link_librarys := $(foreach item,$(link_librarys),-l$(item))

cpp_compile_flags := -std=c++11 -g -w -O0 -fPIC -pthread -fopenmp $(support_define)
cu_compile_flags  := -std=c++11 -g -w -O0 -Xcompiler "$(cpp_compile_flags)" $(cuda_arch) $(support_define)
link_flags        := -pthread -fopenmp -Wl,-rpath='$$ORIGIN'

cpp_compile_flags += $(include_paths)
cu_compile_flags  += $(include_paths)
link_flags        += $(library_paths) $(link_librarys) $(run_paths)

ifneq ($(MAKECMDGOALS), clean)
-include $(cpp_mk) $(cu_mk)
endif

pro    : workspace/pro
pytrtc : example-python/pytrt/libpytrtc.so
expath : library_path.txt

library_path.txt : 
	@echo LD_LIBRARY_PATH=$(export_path):"$$"LD_LIBRARY_PATH > $@

workspace/pro : $(cpp_objs) $(cu_objs)
	@echo Link $@
	@mkdir -p $(dir $@)
	@$(cc) $^ -o $@ $(link_flags)

example-python/pytrt/libpytrtc.so : $(cpp_objs) $(cu_objs)
	@echo Link $@
	@mkdir -p $(dir $@)
	@$(cc) -shared $^ -o $@ $(link_flags)

objs/%.cpp.o : src/%.cpp
	@echo Compile CXX $<
	@mkdir -p $(dir $@)
	@$(cc) -c $< -o $@ $(cpp_compile_flags)

objs/%.cu.o : src/%.cu
	@echo Compile CUDA $<
	@mkdir -p $(dir $@)
	@$(nvcc) -c $< -o $@ $(cu_compile_flags)

objs/%.cpp.mk : src/%.cpp
	@echo Compile depends CXX $<
	@mkdir -p $(dir $@)
	@$(cc) -M $< -MF $@ -MT $(@:.cpp.mk=.cpp.o) $(cpp_compile_flags)
	
objs/%.cu.mk : src/%.cu
	@echo Compile depends CUDA $<
	@mkdir -p $(dir $@)
	@$(nvcc) -M $< -MF $@ -MT $(@:.cu.mk=.cu.o) $(cu_compile_flags)

yolo : workspace/pro
	@cd workspace && ./pro yolo

yolo_gpuptr : workspace/pro
	@cd workspace && ./pro yolo_gpuptr

dyolo : workspace/pro
	@cd workspace && ./pro dyolo

dunet : workspace/pro
	@cd workspace && ./pro dunet

dmae : workspace/pro
	@cd workspace && ./pro dmae

dclassifier : workspace/pro
	@cd workspace && ./pro dclassifier

yolo_fast : workspace/pro
	@cd workspace && ./pro yolo_fast

bert : workspace/pro
	@cd workspace && ./pro bert

alphapose : workspace/pro
	@cd workspace && ./pro alphapose

fall : workspace/pro
	@cd workspace && ./pro fall_recognize

retinaface : workspace/pro
	@cd workspace && ./pro retinaface

arcface    : workspace/pro
	@cd workspace && ./pro arcface

test_warpaffine    : workspace/pro
	@cd workspace && ./pro test_warpaffine

test_yolo_map    : workspace/pro
	@cd workspace && ./pro test_yolo_map

arcface_video    : workspace/pro
	@cd workspace && ./pro arcface_video

arcface_tracker    : workspace/pro
	@cd workspace && ./pro arcface_tracker

test_all : workspace/pro
	@cd workspace && ./pro test_all

scrfd : workspace/pro
	@cd workspace && ./pro scrfd

centernet : workspace/pro
	@cd workspace && ./pro centernet

dbface : workspace/pro
	@cd workspace && ./pro dbface

high_perf : workspace/pro
	@cd workspace && ./pro high_perf

lesson : workspace/pro
	@cd workspace && ./pro lesson

plugin : workspace/pro
	@cd workspace && ./pro plugin

pytorch : pytrtc
	@cd example-python && python test_torch.py

pyscrfd : pytrtc
	@cd example-python && python test_scrfd.py

pyretinaface : pytrtc
	@cd example-python && python test_retinaface.py

pycenternet : pytrtc
	@cd example-python && python test_centernet.py

pyyolov5 : pytrtc
	@cd example-python && python test_yolov5.py

pyyolov7 : pytrtc
	@cd example-python && python test_yolov7.py

pyyolox : pytrtc
	@cd example-python && python test_yolox.py

pyarcface : pytrtc
	@cd example-python && python test_arcface.py

pyinstall : pytrtc
	@cd example-python && python setup.py install

clean :
	@rm -rf objs workspace/pro example-python/pytrt/libpytrtc.so example-python/build example-python/dist example-python/pytrt.egg-info example-python/pytrt/__pycache__
	@rm -rf workspace/single_inference
	@rm -rf workspace/scrfd_result workspace/retinaface_result
	@rm -rf workspace/YoloV5_result workspace/YoloX_result
	@rm -rf workspace/face/library_draw workspace/face/result
	@rm -rf build
	@rm -rf example-python/pytrt/libplugin_list.so
	@rm -rf library_path.txt

.PHONY : clean yolo alphapose fall debug

# 导出符号，使得运行时能够链接上
export LD_LIBRARY_PATH:=$(export_path):$(LD_LIBRARY_PATH)

3. INT8模型生成

参考自：cuDLA-samples/blob/main/data/model/build_dla_standalone_loadable_v2.sh

我们在之前拿到了经过 QAT 量化训练后的 ONNX 模型和对应的量化参数缓存文件，还没有生成具体的 INT8 模型，需要通过 trtexec 工具和对应的指令生成。对于 trtexec 有困惑的可以参考：如何熟练的使用trtexec

由于指令比较复杂，因此我们新建一个 build.sh 脚本文件专门用于生成 engine，其内容如下：

echo "Build FP32 Model"

TRTEXEC=/opt/TensorRT-8.4.1.5/bin/trtexec
${TRTEXEC} --onnx=yolov5_trimmed_qat_noqdq.onnx  --minShapes=images:1x3x640x640 --optShapes=images:1x3x640x640 --maxShapes=images:16x3x640x640 --saveEngine=yolov5_trimmed_qat_noqdq.FP32.trtmodel

echo "Build FP16 Model"

TRTEXEC=/opt/TensorRT-8.4.1.5/bin/trtexec
${TRTEXEC} --onnx=yolov5_trimmed_qat_noqdq.onnx  --minShapes=images:1x3x640x640 --optShapes=images:1x3x640x640 --maxShapes=images:16x3x640x640 --fp16 --saveEngine=yolov5_trimmed_qat_noqdq.FP16.trtmodel

echo "Build INT8 Model"

TRTEXEC=/opt/TensorRT-8.4.1.5/bin/trtexec
${TRTEXEC} --onnx=yolov5_trimmed_qat_noqdq.onnx  --minShapes=images:1x3x640x640 --optShapes=images:1x3x640x640 --maxShapes=images:16x3x640x640 --fp16 --int8 --saveEngine=yolov5_trimmed_qat_noqdq.INT8.trtmodel --calib=yolov5_trimmed_qat_precision_config_calib.cache --precisionConstraints=obey --layerPrecisions="/model.24/Reshape":fp16,"/model.24/Transpose":fp16,"/model.24/Sigmoid":fp16,"/model.24/Split":fp16,"/model.24/Mul":fp16,"/model.24/Add":fp16,"/model.24/Pow":fp16,"/model.24/Mul_1":fp16,"/model.24/Mul_3":fp16,"/model.24/Concat":fp16,"/model.24/Concat":fp16,"/model.24/Reshape_1":fp16,"/model.24/Concat_3":fp16,"/model.24/Reshape_2":fp16,"/model.24/Transpose_1":fp16,"/model.24/Sigmoid_1":fp16,"/model.24/Split_1":fp16,"/model.24/Mul_4":fp16,"/model.24/Add_1":fp16,"/model.24/Pow_1":fp16,"/model.24/Mul_5":fp16,"/model.24/Mul_7":fp16,"/model.24/Concat_1":fp16,"/model.24/Concat_1":fp16,"/model.24/Reshape_3":fp16,"/model.24/Concat_3":fp16,"/model.24/Reshape_4":fp16,"/model.24/Transpose_2":fp16,"/model.24/Sigmoid_2":fp16,"/model.24/Split_2":fp16,"/model.24/Mul_8":fp16,"/model.24/Add_2":fp16,"/model.24/Pow_2":fp16,"/model.24/Mul_9":fp16,"/model.24/Mul_11":fp16,"/model.24/Concat_2":fp16,"/model.24/Concat_2":fp16,"/model.24/Reshape_5":fp16,"/model.24/Concat_3":fp16

注意上述脚本文件可以同时生成 FP32、FP16、INT8 模型，如果只需要其中某一个则单独复制即可

我们主要是来看 INT8 模型生成的指令，分析如下：

1. TRTEXEC 路径：

TRTEXEC=/opt/TensorRT-8.4.1.5/bin/trtexec 这定义了 trtexec 工具的路径。
需要修改为你自己的 trtexec 路径

2. ONNX 模型：

–onnx=yolov5_trimmed_qat_noqdq.onnx 这指定了要转换的 ONNX 模型。
这里指定的 ONNX 模型是我们在之前通过 QAT 模型转换生成的不带 Q/DQ 节点的 ONNX 模型，也就是一个普通的 ONNX 模型。

3. 输入形状定义：

–minShapes=images:1x3x640x640：定义了模型输入的最小 shape。
–optShapes=images:1x3x640x640：定义了模型输入的最佳 shape（对于性能优化很有帮助）。
–maxShapes=images:16x3x640x640：定义了模型输入的最大 shape。
这些形状参数允许 TensorRT 构建一个动态 shape 的 engine，这意味着引擎可以处理不同大小的输入批次，但在上述指定的范围内。
可以根据自己的需求修改

4. 精度模式：

–fp16：启用半精度 (FP16) 优化。
–int8：启用 INT8 量化优化。
我们同时启动了 FP16 和 INT8 两种精度模式，这是因为我们在 QAT 量化训练中通过敏感层分析得出需要将某些特定层设置为 FP16 精度，具体的层信息可以通过 yolov5_trimmed_qat_precision_config_layer_arg.txt 文件获得。

5. 保存引擎：

–saveEngine=yolov5_trimmed_qat_noqdq.INT8.trtmodel 这指定了生成的 TensorRT 引擎的保存路径。

6. 量化校准：

–calib=yolov5_trimmed_qat_precision_config_calib.cache 为 INT8 量化提供了一个校准缓存文件。
该文件存储了模型中各个层的量化信息，用于指导 TensorRT 的 INT8 量化。

7. 精度约束：

–precisionConstraints=obey 这要求 TensorRT 严格遵循下面指定的每层精度。

8. 每层精度：

–layerPrecisions=“/model.24/Reshape”:fp16,“/model.24/Transpose”:fp16,… 这为特定的网络层指定了期望的精度。在这里，某些层被设置为 FP16 精度。

在之前 QAT 量化训练过程中生成的 .txt 文件中就包含了哪些层需要指定为 FP16 精度，大家可以直接复制到 –layerPrecisions 参数后面，但注意对应的节点名需要加上 “”，我们可以写个简单的脚本对每个节点自动加上 “” 避免手动加 “” 的繁琐，具体代码如下：


src_path = "yolov5_trimmed_qat_precision_config_layer_arg.txt"
dst_path = "yolov5_trimmed_qat_precision_config_layer_arg_dst.txt"

# Step 1: Reading the .txt file content
with open(src_path, "r") as txt_file:
    content = txt_file.read().strip()

# Step 2: Splitting the content by comma to get individual items
items = content.split(',')[:-1]

# Step 3: Adding double quotes to each node in each item
modified_items = []
for item in items:
    # Splitting each item at the ':' to separate the node from the precision
    node, precision = item.split(':')
    # Adding double quotes around the node
    modified_item = f'"{node}":{precision}'
    modified_items.append(modified_item)

# Step 4: Joining the modified items back to a single string
modified_content = ",".join(modified_items)

# Step 5: Saving the modified content to a new .txt file
with open(dst_path, "w") as output_file:
    output_file.write(modified_content)

将 build.sh 脚本文件准备好后，我们可以在终端执行如下指令生成对应的 INT8 模型：

bash build.sh

输出如下图所示：

执行成功后会在当前目录下生成 yolov5_trimmed_qat_noqdq.INT8.trtmodel 文件，拿到 INT8 模型文件后我们就可以使用 tensorRT_Pro 完成对应的部署工作了。

注：其实还有另外一种 INT8 模型生成方法，具体可以参考第 5 小节内容

4. QAT模型mAP测试

经过 QAT 量化训练后的模型性能到底怎么样呢？

下面我们来测试下经过 QAT 量化后模型的 mAP，开始之前你需要将两个文件放到 tensorRT_Pro/workspace 文件夹下。这两个文件是 yolov5_trimmed_qat_noqdq.onnx 模型以及 yolov5_trimmed_qat_noqdq.INT8.trtmodel 模型。

将模型准备好后我们还需要适当修改下对应 mAP 测试的代码，在 src/application/test_yolo_map.cpp 文件中，我们就只需要修改这一个文件中的内容即可，源码修改较简单主要有以下几点：

1. test_yolo_map.cpp 172 行，修改要测试的验证集文件夹路径
2. test_yolo_map.cpp 175 行，修改要测试的 INT8 模型，yolov5s 修改为 yolov5_trimmed_qat_noqdq
3. test_yolo_map.cpp 176 行，TRT::Mode 修改为 INT8
4. test_yolo_map.cpp 125 行，将 save_to_json 函数简单修改下

修改后完整的 test_yolo_map.cpp 如下所示：

#include 
#include 
#include 
#include 
#include "app_yolo/yolo.hpp"
#include 
#include 

using namespace std;

bool requires(const char* name);

struct BoxLabel{
    int label;
    float cx, cy, width, height;
    float confidence;
};

struct ImageItem{
    string image_file;
    Yolo::BoxArray detections;
};

vector<ImageItem> scan_dataset(const string& images_root){

    vector<ImageItem> output;
    auto image_files = iLogger::find_files(images_root, "*.jpg");

    for(int i = 0; i < image_files.size(); ++i){
        auto& image_file = image_files[i];

        if(!iLogger::exists(image_file)){
            INFOW("Not found: %s", image_file.c_str());
            continue;
        }

        ImageItem item;
        item.image_file = image_file;
        output.emplace_back(item);
    }
    return output;
}

static void inference(vector<ImageItem>& images, int deviceid, const string& engine_file, TRT::Mode mode, Yolo::Type type, const string& model_name){

    auto engine = Yolo::create_infer(
        engine_file, type, deviceid, 0.001f, 0.65f,
        Yolo::NMSMethod::CPU, 10000
    );
    if(engine == nullptr){
        INFOE("Engine is nullptr");
        return;
    }

    int nimages = images.size();
    vector<shared_future<Yolo::BoxArray>> image_results(nimages);
    for(int i = 0; i < nimages; ++i){
        if(i % 100 == 0){
            INFO("Commit %d / %d", i+1, nimages);
        }
        image_results[i] = engine->commit(cv::imread(images[i].image_file));
    }
    
    for(int i = 0; i < nimages; ++i)
        images[i].detections = image_results[i].get();
}

void detect_images(vector<ImageItem>& images, Yolo::Type type, TRT::Mode mode, const string& model){

    int deviceid = 0;
    auto mode_name = TRT::mode_string(mode);
    TRT::set_device(deviceid);

    auto int8process = [=](int current, int count, const vector<string>& files, shared_ptr<TRT::Tensor>& tensor){

        INFO("Int8 %d / %d", current, count);

        for(int i = 0; i < files.size(); ++i){
            auto image = cv::imread(files[i]);
            Yolo::image_to_tensor(image, tensor, type, i);
        }
    };

    const char* name = model.c_str();
    INFO("===================== test %s %s %s ==================================", Yolo::type_name(type), mode_name, name);

    if(not requires(name))
        return;

    string onnx_file = iLogger::format("%s.onnx", name);
    string model_file = iLogger::format("%s.%s.trtmodel", name, mode_name);
    int test_batch_size = 16;
    
    if(not iLogger::exists(model_file)){
        TRT::compile(
            mode,                       // FP32、FP16、INT8
            test_batch_size,            // max batch size
            onnx_file,                  // source 
            model_file,                 // save to
            {},
            int8process,
            "inference"
        );
    }
    inference(images, deviceid, model_file, mode, type, name);
}

bool save_to_json(const vector<ImageItem>& images, const string& file){

    Json::Value predictions(Json::arrayValue);
    for(int i = 0; i < images.size(); ++i){
        auto& image = images[i];
        auto file_name = iLogger::file_name(image.image_file, false);
        string image_id = file_name;

        auto& boxes = image.detections;
        for(auto& box : boxes){
            Json::Value jitem;
            jitem["image_id"] = image_id;
            jitem["category_id"] = box.class_label;
            jitem["score"] = box.confidence;

            auto& bbox = jitem["bbox"];
            bbox.append(box.left);
            bbox.append(box.top);
            bbox.append(box.right - box.left);
            bbox.append(box.bottom - box.top);
            predictions.append(jitem);
        }
    }
    return iLogger::save_file(file, predictions.toStyledString());
}

int test_yolo_map(){
    
    /*
    结论：
    1. YoloV5在tensorRT下和pytorch下，只要输入一样，输出的差距最大值是1e-3
    2. YoloV5-6.0的mAP，官方代码跑下来是[email protected]:.95 = 0.367, [email protected] = 0.554，与官方声称的有差距
    3. 这里的tensorRT版本测试的精度为：[email protected]:.95 = 0.357, [email protected] = 0.539，与pytorch结果有差距
    4. cv2.imread与cv::imread，在操作jpeg图像时，在我这里测试读出的图像值不同，最大差距有19。而png图像不会有这个问题
        若想完全一致，请用png图像
    5. 预处理部分，若采用letterbox的方式做预处理，由于tensorRT这里是固定640x640大小，测试采用letterbox并把多余部分
        设置为0. 其推理结果与pytorch相近，但是依旧有差别
    6. 采用warpAffine和letterbox两种方式的预处理结果，在mAP上没有太大变化（小数点后三位差）
    7. mAP差一个点的原因可能在固定分辨率这件事上，还有是pytorch实现的所有细节并非完全加入进来。这些细节可能有没有
        找到的部分
    */

    auto images = scan_dataset("/home/jarvis/Learn/Datasets/VOC_QAT/images/val");
    INFO("images.size = %d", images.size());

    string model = "yolov5_trimmed_qat_noqdq";
    detect_images(images, Yolo::Type::V5, TRT::Mode::INT8, model);
    save_to_json(images, model + ".prediction.json");
    return 0;
}

上述代码会将 INT8 模型在验证集中所有图像的检测结果存储到一个 JSON 文件中，每个检测到的物体都被序列化为 JSON 格式信息，包括图像 ID、类别 ID、置信度和边界框坐标。后续我们就可以拿着这个预测结果的 JSON 文件和我们真实标签的 JSON 文件通过 COCO Python API 去计算 mAP 指标。

有以下几点需要注意：

博主将 JSON 文件中的 image_id 保存为一个字符串，考虑到图片命名的差异性
博主将 JSON 文件中的 category_id 直接保存为类别标签，没有做转换
mAP 测试使用的 NMS_threshold = 0.65f，Conf_threshold = 0.001f 与 pytorch 保持一致
关于 mAP 的相关原理介绍可参考目标检测mAP计算以及coco评价标准

将源码修改好后，直接在终端执行如下指令即可：

make test_yolo_map

图解如下所示：

运行成功后在 workspace 文件夹下会生成 yolov5_trimmed_qat_noqdq.prediction.json 文件，该 JSON 文件中保存着 INT8 模型在验证集上的推理结果。

我们拿到了模型预测结果的 JSON 文件后，还需要拿到真实标签的 JSON 文件，但是现在我们只有验证集真实的 YOLO 标签文件，因此需要将 YOLO 标签转换为 JSON 文件，转换代码如下：(from chatGPT)

import os
import cv2
import json
import logging
import os.path as osp
from tqdm import tqdm
from functools import partial
from multiprocessing import Pool, cpu_count

def set_logging(name=None):
    rank = int(os.getenv('RANK', -1))
    logging.basicConfig(format="%(message)s", level=logging.INFO if (rank in (-1, 0)) else logging.WARNING)
    return logging.getLogger(name)

LOGGER = set_logging(__name__)

def process_img(image_filename, data_path, label_path):
    # Open the image file to get its size
    image_path = os.path.join(data_path, image_filename)
    img = cv2.imread(image_path)
    height, width = img.shape[:2]

    # Open the corresponding label file
    label_file = os.path.join(label_path, os.path.splitext(image_filename)[0] + ".txt")
    with open(label_file, "r") as file:
        lines = file.readlines()

    # Process the labels
    labels = []
    for line in lines:
        category, x, y, w, h = map(float, line.strip().split())
        labels.append((category, x, y, w, h))

    return image_filename, {"shape": (height, width), "labels": labels}

def get_img_info(data_path, label_path):
    LOGGER.info(f"Get img info")

    image_filenames = os.listdir(data_path)

    with Pool(cpu_count()) as p:
        results = list(tqdm(p.imap(partial(process_img, data_path=data_path, label_path=label_path), image_filenames), total=len(image_filenames)))

    img_info = {image_filename: info for image_filename, info in results}
    return img_info


def generate_coco_format_labels(img_info, class_names, save_path):
    # for evaluation with pycocotools
    dataset = {"categories": [], "annotations": [], "images": []}
    for i, class_name in enumerate(class_names):
        dataset["categories"].append(
            {"id": i, "name": class_name, "supercategory": ""}
        )

    ann_id = 0
    LOGGER.info(f"Convert to COCO format")
    for i, (img_path, info) in enumerate(tqdm(img_info.items())):
        labels = info["labels"] if info["labels"] else []
        img_id = osp.splitext(osp.basename(img_path))[0]
        img_h, img_w = info["shape"]
        dataset["images"].append(
            {
                "file_name": os.path.basename(img_path),
                "id": img_id,
                "width": img_w,
                "height": img_h,
            }
        )
        if labels:
            for label in labels:
                c, x, y, w, h = label[:5]
                # convert x,y,w,h to x1,y1,x2,y2
                x1 = (x - w / 2) * img_w
                y1 = (y - h / 2) * img_h
                x2 = (x + w / 2) * img_w
                y2 = (y + h / 2) * img_h
                # cls_id starts from 0
                cls_id = int(c)
                w = max(0, x2 - x1)
                h = max(0, y2 - y1)
                dataset["annotations"].append(
                    {
                        "area": h * w,
                        "bbox": [x1, y1, w, h],
                        "category_id": cls_id,
                        "id": ann_id,
                        "image_id": img_id,
                        "iscrowd": 0,
                        # mask
                        "segmentation": [],
                    }
                )
                ann_id += 1

    with open(save_path, "w") as f:
        json.dump(dataset, f)
        LOGGER.info(
            f"Convert to COCO format finished. Resutls saved in {save_path}"
        )


if __name__ == "__main__":
    
    # Define the paths
    data_path   = "/home/jarvis/Learn/Datasets/VOC_PTQ/images/val"
    label_path  = "/home/jarvis/Learn/Datasets/VOC_PTQ/labels/val"

    class_names = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus",
                   "car", "cat", "chair", "cow", "diningtable", "dog", "horse",
                   "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]  # 类别名称请务必与 YOLO 格式的标签对应
    save_path   = "./val.json"

    img_info = get_img_info(data_path, label_path)
    generate_coco_format_labels(img_info, class_names, save_path)

上述代码的功能是将 YOLO 格式的数据集（包括图像文件和对应的 .txt 标签文件）转换成 COCO JSON 格式的标注。转换后的数据包括一个 JSON 标签文件，JSON 标签文件中包含了每个图像的所有物体的类别和边界框信息。

你需要修改以下几项：

data_path：需要转换的图像文件路径
label_path：需要转换的 txt 标签文件路径
class_names：数据集的类别列表，请务必与 YOLO 标签的相对应
save_path：转换后 JSON 文件保存的路径
注意：以上路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

JSON 文件中目标框保存的格式是 [x，y，w，h] 四个变量，分别代表着经过归一化的左上角坐标和目标框宽高。

关于代码的分析可以参考：tensorRT模型性能测试

至此，两个 JSON 文件都准备好了，一个是模型推理的预测结果，一个是真实结果。拿到两个 JSON 文件后我们就可以进行 mAP 测试了，具体代码如下：

from pycocotools.coco import COCO
from pycocotools.cocoeval import COCOeval

# Run COCO mAP evaluation
# Reference: https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoEvalDemo.ipynb

annotations_path = "val.json"
results_file = "yolov5_trimmed_qat_noqdq.prediction.json"
cocoGt = COCO(annotation_file=annotations_path)
cocoDt = cocoGt.loadRes(results_file)
imgIds = sorted(cocoGt.getImgIds())
cocoEval = COCOeval(cocoGt, cocoDt, 'bbox')
cocoEval.params.imgIds = imgIds
cocoEval.evaluate()
cocoEval.accumulate()
cocoEval.summarize()

你需要修改以下几项：

annotations_path：真实标签的 JSON 文件路径
results_file：模型预测结果的 JSON 文件路径

执行后测试结果如下图所示：

我们将它与原始 pytorch 的模型放在一起进行对比下：

Model	Size	mAP^val 0.5:0.95	mAP^val 0.5	Params ^(M)	FLOPs ^(G)
YOLOv5s	640	0.471	0.711	7.2	16.5
YOLOv5s-INT8	640	0.412	0.660	-	-

可以看到相比于原始 pytorch 模型，QAT 量化后的模型 mAP 下降了近 5 个点

OK！至此 YOLOv5 模型的 QAT 量化到这里结束了，各位看官可以在自己的数据集测试下 QAT 量化后模型的性能。

5. 补充-INT8模型生成

除了利用 trxexec 工具生成 INT8 模型外，我们还可以通过 tensorRT_Pro 生成，首先你需要准备两个文件，一个是 yolov5_trimmed_qat_noqdq.onnx 模型，一个是 yolov5_trimmed_qat_precision_config_calib.cache 校准缓存文件，把它们都放到 tensorRT_Pro/workspace 文件夹下。

将上述模型和校准缓存文件准备好后还要修改下源码，yolo 模型的推理代码主要在 src/application/app_yolo.cpp 文件中，我们就只需要修改这一个文件中的内容即可，源码修改较简单主要有以下几点：

1. app_yolo.cpp 177 行，Yolo::Type 修改为 V5，TRT::Mode 修改为 INT8，“yolov7” 改成 “yolov5_trimmed_qat_noqdq”
2. app_yolo.cpp 25 行，新增 voclabels 数组，添加 voc 数据集的类别名称
3. app_yolo.cpp 100 行，cocolabels 修改为 voclabels
4. app_yolo.cpp 149 行，TRT::complie 函数新增校准缓存文件参数 yolov5_trimmed_qat_precision_config_calib.cache

具体修改如下：

test(Yolo::Type::V5, TRT::Mode::INT8, "yolov5_trimmed_qat_noqdq") // 修改1 177行 "yolov7"改成"yolov5_trimmed_qat_noqdq"

static const char *voclabels[] = {"aeroplane",   "bicycle", "bird",   "boat",       "bottle",
                                  "bus",         "car",     "cat",    "chair",      "cow",
                                  "diningtable", "dog",     "horse",  "motorbike",  "person",
                                  "pottedplant", "sheep",   "sofa",   "train",      "tvmonitor"}; // 修改2 25行新增代码，为自训练模型的类别名称
    
for(auto& obj : boxes){
     ...
     auto name    = voclabels[obj.class_label]; // 修改3 100行cocolabels修改为voclabels
	 ...
}

TRT::compile(
    mode,                       // FP32、FP16、INT8
    test_batch_size,            // max batch size
    onnx_file,                  // source 
    model_file,                 // save to
    {},
    int8process,
    "inference",
    "yolov5_trimmed_qat_precision_config_calib.cache" // 修改4 149行，新增校准文件参数
);

修改完成后在终端执行如下指令即可：

make yolo

图解如下所示：

编译运行后在 workspace 文件夹下会生成 INT8 的 engine 模型 yolov5_trimmed_qat_noqdq.INT8.trtmodel 用于模型推理，同时它还会生成 yolov5_trimmed_qat_noqdq_Yolov5_INT8_result 文件夹，该文件夹下保存了推理的图片。

模型推理效果如下图所示：

值得注意的是与上篇文章 PTQ 的 INT8 模型生成不同的是，由于我们之前将 QAT 模型转换成了 PTQ 模型和对应的量化缓存文件，而 tensorRT_Pro 中可以直接加载校准缓存文件生成对应的 INT8 模型，因此不再需要校准图片去统计每一层的 scale 和 zero_point 了。

七、讨论

1. 基本概念

流程虽然说是走通了，但是博主还是有好多概念理不清，这里我们来讨论下，博主主要结合自己的理解和 ChatGPT 来回答一些概念问题，若有错误的地方请各位看官指正！！！

以下内容均来自博主与 ChatGPT 之间的对话。

问题1：带有 QAT 量化信息的 ONNX 模型中有 QDQ 模块，它包含了该层和该激活值的量化 scale 和 zero_point。这是不是意味着从 Float32 到 INT8 只需要乘以 scale 再加上 zero_point，类似于一条直线，是不是可以理解为一种线性量化方式？

回答：

这种理解是正确的。

ONNX 中的 QuantizeLinear 和 DequantizeLinear 操作（也称为 QDQ 操作）确实为模型的线性量化提供了支持。线性量化过程通常涉及将浮点数值转换为整数，这是通过使用一个缩放因子（scale）和一个零点（zero_point）来实现的。

对于给定的浮点数值 $f$ ，其量化到整数 $q$ 的公式为：
$q=\text{round}(\frac{f}{\text{scale}})+\text{zero}\_\text{point}$
同样地，从整数 $q$ 反量化回浮点数值 $f^{'}$ 的公式为：
$zero_point ) ) f' = (\text{scale} \times (q-\text{zero\_point}))$
这里，scale 通常是一个浮点数，而 zero_point 是一个整数。在量化到 int8 的情况下，zero_point 通常是一个介于 -128 和 127 之间的整数。

这种量化方法确实意味着在浮点数值和整数之间的映射可以被看作是一条直线，其中 scale 表示斜率，zero_point 表示截距。

值得注意的是，当使用线性量化从浮点数 $f$ 转换为整数 $q$ 并从 $q$ 反量化回 $f^{'}$ 时，由于 round 操作和量化本身的离散性， $f^{'}$ 可能与原始的 $f$ 不完全相同。这种差异就被称为量化误差，具体来说，量化误差是 $f^{'} - f$

我们的目的当然就是希望量化误差尽可能地小，这样，当我们运行量化模型时，它的输出与未量化模型的输出会非常的接近，从而保持了模型的性能。

为了最小化这种误差，我们需要为每一层找到合适的 scale 和 zero_point 来确保原始浮点数据的大部分信息在量化后仍然得以保留，因此如何选择合适的 scale 和 zero_point 成为了我们急需解决的问题。

问题2：PTQ 量化中的校准算法如 Entropy Calibration 的目的是什么？Entropy Calibration 过程是进行了量化吗？

回答：

Entropy Calibration 是一种校准方法，目的是确定 scale 和 zero_point 的最佳值，它通过最大化量化数据的熵来最小化量化误差。熵是一个信息论的概念，它表示随机变量的不确定性。通过最大化熵，我们可以确保量化后的数据尽可能多地保留原始数据的信息。

Entropy Calibration 本身并不进行量化，它只是一个为量化准备的步骤，用于确定量化的参数（即 scale 和 zero_point）。这些参数随后可用于线性量化。

有一个比较形象的比喻，假设现在你有一个音响系统，量化就像是调整音量的旋钮，它实际地改变音量。而 Entropy Calibration 就像是一个专家，告诉你应该将音量设置为多少以获得最佳的听觉体验。

所以，Entropy Calibration 和量化的工作是不同的：

Entropy Calibration

校准步骤
它的目的是确定最佳的 scale 和 zero_point 这些参数
使用数据集的子集（通常是验证集）来确定这些参数的最佳值，以便在量化时最小化信息损失

量化

实际的量化步骤
使用从 Entropy Calibration（或其他校准方法）中得到的 scale 和 zero_point 参数将浮点值转换为整数

问题3：我懂了 Entropy Calibration 校准的目的是确定 scale 和 zero_point，为了后面的量化。那这个 scale 和 zero_point 是每一层的 scale 和 zero_point 还是所有层统一的 scale 和 zero_point 呢？

回答：

在进行量化时，scale 和 zero_point 的选择可以是针对每一层的，也可以是全局的，这取决于量化策略和具体的量化工具。但在实际的深度学习模型量化中，通常每一层或每一组层都有其自己的 scale 和 zero_point，因为这样可以更好地适应每一层的数据分布，从而减少量化误差。

问题4：我还有个问题，既然 PTQ 量化是通过 Entropy Calibration 确定 scale 和 zero_point 的，那 QAT 量化是如何确定每一层的 scale 和 zero_point 的呢？

回答：

很好的问题。PTQ（Post-training Quantization）和 QAT（Quantization Aware Training）是两种主要的量化方法，它们确定 scale 和 zero_point 的方式是不同的。

1. PTQ（Post-training Quantization）

正如之前所提到的，PTQ 是在模型训练完成后进行的量化。在这种方法中，scale 和 zero_point 通常是通过某种校准方法（如 Entropy Calibration）确定的。
校准过程使用一个数据子集（通常是验证集）来确定这些参数的最佳值。

2. QAT（Quantization Aware Training）

QAT 在模型训练过程中考虑量化效果。也就是说，量化操作（和它可能引入的误差）在训练过程中就被模拟和纳入考虑。
为了模拟量化效果，scale 和 zero_point 是动态计算的。具体的策略可能因不同的实现而异，但常见的做法是使用移动平均来跟踪权重和激活的数据分布，并据此动态调整 scale 和 zero_point
另一种常见的方法是使用某种形式的直方图或统计数据来确定最佳的量化参数。
由于量化误差是在训练过程中模拟的，因此模型可以学习适应这些误差，并可能获得更好的量化后的性能。

总的来说，QAT 与 PTQ 的主要区别在于其训练过程中就模拟了量化效果，而 PTQ 是在训练完成后进行的。这也意味着 QAT 需要更多的计算资源，因为它需要进行额外的前向和反向传播考虑量化误差，但通常可以获得更好的量化后的模型性能。

问题5：那对称量化和非对称量化在这其中又扮演了什么角色，它和 PTQ 量化和 QAT 量化这种又有什么联系？

回答：

对称量化和非对称量化是描述量化方式的术语，而 PTQ（Post-training Quantization）和 QAT（Quantization Aware Training）描述的是量化时机。这两组概念是正交的，也就是说，你可以在 PTQ 或 QAT 的情境下使用对称或非对称量化。

1. 对称量化 (Symmetric Quantization)：

在对称量化中，量化的范围是对称的，也就是说，它以 0 为中心。
对于 int8 量化，范围是 [-127, 127]（注意，-128 通常不被使用以保持对称性）
zero_point 在对称量化中总是 0。
由于这种对称性，对称量化有时可以简化某些硬件上的计算，从而提高性能。

2. 非对称量化 (Asymmetric Quantization)：

在非对称量化中，量化的范围不一定是对称的。
zero_point 可以是任意值，因此可以更好地适应数据的实际分布。
非对称量化可能为某些数据分布提供更好的量化精度，但在硬件上可能不如对称量化高效。

与 PTQ 和 QAT 的关系：

1. PTQ：

在训练后量化中，你可以选择使用对称量化或非对称量化。选择哪种量化方式取决于您的目标：是追求更高的性能还是更低的量化误差。
校准步骤（例如 Entropy Calibration）可以为每种量化方式确定最佳的 scale 和 zero_point。

2. QAT：

在训练中，你同样可以选择模拟对称或非对称量化的效果。
例如，对于对称量化，您可以在训练过程中固定 zero_point 为 0，我们上面采用的 YOLOv5-QAT 方案貌似都是使用的对称量化方式。
而对于非对称量化，您可能会动态地调整 zero_point，以便更好地适应每个 mini-batch 的数据分布。

总的来说，对称和非对称量化描述的是量化方式，而 PTQ 和 QAT 描述的是量化时机。这两组概念是独立的，你可以根据需求和目标选择合适的组合。

问题6：在之前的 QAT 量化中的 QDQ 操作中，从 $f$ 到 $q$ 再从 $q$ 到 $f^{'}$ 的过程中由于 round 操作会存在一定的误差，这个误差是不是我们所说的量化误差？我们的目的是不是使得量化误差最小？最终的目的是不是要找到合适的 scale 和 zero-point 使得它最小？

回答：

是的，你完全正确。

1. 量化误差：

当你使用线性量化从浮点数 $f$ 转换为整数 $q$ 并从 $q$ 反量化回 $f^{'}$ 时，由于 round 操作和量化本身的离散性， $f^{'}$ 可能与原始的 $f$ 不完全相同。这种差异被称为量化误差。
具体地说，量化误差是 $f^{'} - f$ 。

2. 目标：

我们的确希望使量化误差尽可能小。这样，当我们运行量化模型时，它的输出与未量化模型的输出会非常接近，从而保持了模型的性能。
为了最小化这种误差，我们需要为每一层（或每个张量）找到合适的 scale 和 zero_point。这是校准步骤的主要目的，无论是在 PTQ 的上下文中还是在 QAT 的上下文中。

3. 如何选择 scale 和 zero_point：

选择合适的 scale 和 zero_point 可以确保原始浮点数据的大部分信息在量化后仍然得以保留。
对于非对称量化，选择 scale 和 zero_point 的目标是使浮点数据的范围尽可能地映射到整数的范围。
对于对称量化，只需选择合适的 scale，因为 zero_point 总是 0。

总之，量化误差是由于量化操作引入的误差，我们的目标确实是尽量减小这种误差。为此，我们需要为每个待量化的张量选择合适的 scale 和 zero_point。

问题7：之前我有学习过动态范围的常用计算方法，包括 Max 方法，Histogram 直方图统计方法，Entropy 方法，这些方法的目的是什么？它们是不是用来最小化量化误差的方法？还是说它们只是统计量化误差？它们在量化过程中又扮演了什么角色？

回答：

这些您提到的方法（Max、Histogram、Entropy）都是用于校准的方法，它们的主要目的是确定合适的 scale 和 zero_point，以便在量化过程中最小化量化误差。校准是量化流程中的一个关键步骤，尤其是在 Post-training Quantization (PTQ) 中。

1. Max 方法：

这是最简单的方法。它使用待量化数据的最大绝对值来确定 scale
例如，对于对称量化，如果 max_abs_value 是数据的最大绝对值，那么 scale 可能被设置为 max_abs_value/127（对于 int8）
尽管这种方法简单，但它可能不是最优的，因为它不考虑数据的整体分布

2. Histogram 方法：

在这种方法中，首先构建数据的直方图，然后确定一个量化范围，使得大部分数据都落在这个范围内
这样 scale 和 zero_point 可以根据这个范围来确定
直方图方法考虑了数据的整体分布，因此通常比 Max 方法更准确

3. Entropy 方法：

这种方法的目标是找到一个量化范围，使得量化数据的熵最大化。
熵是一个信息论的概念，表示随机变量的不确定性。通过最大化熵，我们尝试确保量化数据尽可能多地保留原始数据的信息。
这也是一种在数据的整体分布下选择 scale 和 zero_point 的方法。

在量化流程中，这些校准方法的角色是：

在 PTQ 中，首先运行模型的推理部分（使用校准数据集），收集需要量化的层的激活值。
使用上述方法之一（或其他方法）来确定每个层的 scale 和 zero_point。
使用确定的 scale 和 zero_point 进行实际的量化。

总之，这些方法的目的是确定合适的 scale 和 zero_point，从而最小化量化误差。它们不仅仅是统计量化误差，而是帮助我们在量化过程中做出最佳的决策。

问题8：PTQ 量化中是不是常常使用 Entropy 方法确定合适的 scale 和 zero-point，而 QAT 量化是不是没有用到这些方法，它是通过模型的训练来确定 scale 和 zero-point 的，和 PTQ 的方式完全不一样，是吗？还是说 QAT 量化中也会用到诸如直方图统计这种方法呢？

回答：

你的观点基本上是对的，但让我们更详细地探讨这两种方法。

PTQ (Post-training Quantization)：

在 PTQ 中，模型首先完成训练，然后进行量化。
在校准步骤中，通常使用一种方法（如 Entropy、Histogram 或 Max）来确定合适的 scale 和 zero_point。其中，Entropy 方法是一个比较受欢迎的选择，因为它考虑了数据的整体分布。
这些方法都是基于校准数据集上的模型推理来进行的。

QAT (Quantization Aware Training)：

QAT 在训练过程中模拟量化的效果，从而允许模型适应量化误差。
由于量化是在训练过程中进行的，QAT 通常使用不同的策略来确定 scale 和 zero_point。例如，它们可能会动态地根据每个 mini-batch 的数据分布来调整，或使用移动平均来跟踪数据分布。
但是，QAT 也可以利用一些校准方法。例如，某些 QAT 实现可能会使用直方图统计或其他方法在训练的初期阶段为每一层确定一个初始的 scale 和 zero_point。然后，这些参数可以在训练过程中动态地进行微调。

总之，虽然 PTQ 和 QAT 在确定 scale 和 zero_point 时使用的策略确实存在差异，但两者并不是完全不同的。QAT 确实可以利用一些类似于 PTQ 中使用的校准方法，但通常这些方法在 QAT 中只是起到一个辅助或初始化的作用。

问题9：scale 和 zero-point 是通过 QDQ 节点加入到模型中进行训练的吗？它们也会参与神经网络的反向传播和梯度更新过程吗？

回答：

在 QAT (Quantization Aware Training) 中，scale 和 zero_point 确实可以被视为模型的参数，并可能在训练过程中被更新。但是，它们与模型的权重和偏置不完全相同，更新策略也可能有所不同。

1. QDQ 节点和训练：

在 QAT 过程中，模型中确实会插入 QDQ 节点或类似的量化/反量化操作来模拟量化的效果。
这些节点在前向传播中模拟量化操作，而在反向传播中，通常会使用直接的梯度或伪梯度来传递误差。

2. 更新 scale 和 zero_point:

有些 QAT 实现可能会选择固定 zero_point（特别是对于对称量化）并只更新 scale。
在训练过程中，scale 和 zero_point 的更新可能不会使用传统的梯度下降方法。相反，它们可能会基于统计方法（例如，移动平均或直方图统计）来动态调整。
但是，也有一些先进的 QAT 方法可能会将 scale 和 zero_point 作为可学习的参数，并使用梯度下降或其他优化算法进行更新。

3. 反向传播:

虽然 scale 和 zero_point 可能会在训练过程中被更新，但它们的更新通常是基于模型输出的量化误差或其他统计方法，而不是直接基于误差的梯度。
当模拟量化操作（如 QDQ 节点）在反向传播中遇到时，通常会使用直接的梯度或伪梯度来传递误差。这确保了量化误差被考虑在内，使得模型可以适应这些误差。

总的来说，虽然 scale 和 zero_point 可能会在 QAT 过程中被更新，但它们的更新策略与模型的其他参数可能有所不同。这些更新旨在最小化量化误差，从而在量化后保持模型的性能。

2. 不同精度模型对比

QAT 量化的模型性能到底怎么样呢？与其它精度的模型相比有哪些优势又有哪些劣势呢？

这个小节我们就来看看不同精度的模型的性能对比，主要从 mAP 和速度两个方面衡量。博主测试了在同一个验证集上原始 pytorch 模型，FP32 模型，FP16 模型，INT8 模型的性能。

原始 pytorch 模型和 INT8 模型性能我们之前已经了解过了，下面我们来看看 FP32 模型和 FP16 模型的性能。

FP32模型：

图4-1 FP32模型速度测试

图4-2 FP32模型mAP测试

FP16模型：

图4-3 FP16模型速度测试

图4-4 FP16模型mAP测试

INT8模型：

图4-5 INT8模型速度测试

图4-6 INT8模型mAP测试

值得注意的是，关于速度的测试我们之前似乎并没有提到，它具体是如何测试的呢？

其实在 inference_and_performance 函数中就有关于速度相关的测试，主要说明如下：

1. 输入分辨率 640x640
2. batch_size = 1
3. 图像预处理 + 推理 + 后处理
4. CUDA-11.6，cuDNN-8.4.0，TensorRT-8.4.1.5
5. NVIDIA RTX3060
6. 测试次数，100 次取平均，去掉 warmup
7. 测试代码：src/application/app_yolo.cpp
8. 测试图像 6 张，位于 workspace/inference
- 分辨率分别为：810x1080，500x806，1024x684，550x676，1280x720，800x533
9. 测试方式，加载 6 张图后，以原图重复 100 次不停的塞进去。让模型经历完整的图像的预处理，后处理

测试结果如下表所示：

Model	Precision	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
YOLOv5s.pt	-	0.471	0.711	-	-
YOLOv5s-FP32	FP32	0.447	0.683	3.14	318.33
YOLOv5s-FP16	FP16	0.446	0.683	1.33	752.18
YOLOv5s-INT8	INT8	0.412	0.660	0.99	1006.86

可视化图如下所示：

从表中的数据我们可以分析得到下面的一些结论：

1. 精度与模型性能的关系

当我们从原始 pytorch 模型转到 FP32 模型时，正常来说应该基本是无损的，但是 mAP 掉了将近 3 个点左右，这并不符合我们的直觉。
mAP 差 3 个点的原因可能是在固定分辨率这件事上，tensorRT 将图片分辨率固定在 640x640 大小。还有就是 pytorch 实现的所有细节并未完全加入进来，这些细节可能有没有找到的部分。
FP32 模型和 FP16 模型的 mAP 几乎一样，没有任何精度的损失，这倒是符合我们的直觉

2. 速度与模型性能的关系

FP16 和 INT8 的 FPS 分别为 752.18 和 1006.86，远高于 FP32 的 318.33
INT8 模型是所有模型中最快的，达到了 1000 FPS 的速度，尽管其精度稍低。

3. 权衡速度与精度

FP32 提供了较好的精度，但速度较慢
FP16 提供了与 FP32 类似的精度，但速度提高了约 2.4 倍，是一个非常不错的选择。
INT8 提供了略低的精度，但速度却是最快的，比 FP32 快约 3 倍。

综上所述，在实际应用中，需要根据具体的需求权衡速度和精度。例如，对于实时应用，可能会选择 FP16 或 INT8 以获得更高的速度，尽管可能牺牲一些精度。而对于需要高精度的应用，可能会选择 FP32。

3. QAT方案对比

我们在前面不是提供了 QAT 量化的两种方案嘛，一种是按照 TensorRT 中的建议放置 Q/DQ 节点，另一种是在每一层都插入 Q/DQ 节点。这两种方案哪种更好呢？在速度和精度方面有什么差异呢？

这个小节我们就来看看两种方案生成的 INT8 模型的性能对比，主要从 mAP 和速度两个方面衡量。博主测试了在同一个验证集上方案一和方案二生成的 INT8 模型性能。

注：这里采用的模型均是通过 trtexec 生成的 INT8 模型，为什么要强调这点呢？是因为 trtexec 直接生成的 INT8 模型和 tensorRT_Pro 生成的 INT8 模型的推理速度存在较大差异，具体可参考第 5 小节的内容。

方案一：

图4-7 INT8模型速度测试（方案一）

图4-8 INT8模型mAP测试（方案一）

方案二：

图4-9 INT8模型速度测试（方案二）

图4-10 INT8模型mAP测试（方案二）

测试结果如下表所示：

Method	Model	Precision	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
一	YOLOv5s	INT8	0.412	0.660	1.26	791.78
二	YOLOv5s	INT8	0.423	0.667	1.28	780.86

可视化图如下所示：

从表中的数据我们可以分析得到下面的结论：

1. 精度的对比：

mAP 是衡量目标检测模型性能的常见指标，值越高表示模型的性能越好
对于 [email protected]:0.95 方案二比方案一要高出 1 个点左右，对于 [email protected] 方案二比方案一高出 0.7 个点

2. 速度的对比

FPS 表示模型每秒可以处理的帧数，值越高表示模型的实时性越好
方案二比方案一推理时间快了约 0.02ms 左右，这可能是由于设备的波动引起的，实际上二者推理时间应该并无太大差异

如果速度是由波动引起的，那是不是意味着无脑选择方案二呢？毕竟同等速度下其 mAP 还要高

4. PTQ vs. QAT

PTQ 量化和 QAT 量化生成的 INT8 模型哪个更好呢？我们该选择哪种量化方式呢？

这个小节我们就来看看 PTQ 量化和 QAT 量化后的 INT8 模型性能对比，主要从 mAP 和速度两个方面衡量。

值得注意的是，博主在上篇文章使用 PTQ 量化的 pytorch 模型和本篇文章使用 QAT 量化的 pytorch 模型是同一个，因此我们直接把上篇文章的结果拿过来对比就行。

注：这里采用的模型均是通过 tensorRT_Pro 生成的 INT8 模型，为什么要强调这点呢？是因为 trtexec 直接生成的 INT8 模型和 tensorRT_Pro 生成的 INT8 模型的推理速度存在较大差异，具体可参考第 5 小节的内容。

测试结果如下表所示：

Model	Method	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
YOLOv5s-INT8	PTQ	0.409	0.657	0.99	1008.93
YOLOv5s-INT8	QAT(一)	0.412	0.660	0.99	1006.86
YOLOv5s-INT8	QAT(二)	0.423	0.667	0.99	1007.13

可视化图如下所示：

从表中的数据我们可以分析得到下面的结论：

1. 量化方式与精度的关系

QAT(一) 与 PTQ 量化方式生成的 INT8 模型在 mAP 上的差异相对较小
QAT(二) 相比 PTQ 量化方式有轻微的优势，[email protected]:0.95 提升了 1.4 个点，[email protected] 提升了 1 个点。[email protected]:0.95 提升了更明显的原因可能是在 QAT 量化训练时我们是根据 [email protected]:0.95 指标来选择 QAT 模型的。

2. 量化方式与速度的关系

在推理速度上，不同量化方式的模型表现相当，几乎没有差距
可能是因为针对 YOLOv5s 模型而言，PTQ 和 QAT 量化的层基本上差不多，只是获取的量化信息不尽相同

3. 量化方式的选择

PTQ 量化作为一个后训练量化方法，提供了与 QAT 接近的性能，但其实现相对简单，因为它不需要训练过程，只需要准备校准图片即可。
QAT 量化尽管其实现可能比 PTQ 更复杂，但提供了稍微好一点的 mAP。因此，如果追求更高的精度，并且愿意投入更多的时间和资源进行训练，QAT 量化是一个更好的选择。

QAT 实际效果和博主想象的还是有些差距，原本以为 QAT 量化训练后的 INT8 模型的 mAP 会与 FP32 模型相当，实际上并没有，也不清楚是不是博主某些操作没做或者没做对。

但是有一个比较好的点就是 QAT 量化训练后生成的 INT8 模型可以手动去控制每一层的精度，不至于完全不可控。另外也不需要去考虑 PTQ 模型的校准图片数量选取，某种意义上是进阶版的 PTQ，只是实现的方式和流程略微复杂了点。

5. INT8模型生成方式对比

我们在前面不是提供了 INT8 模型生成的两种方式嘛，一种是根据 trtexec 指令生成，另一种是通过 tensorRT_Pro 提供对应的 ONNX 模型和校准缓存文件，这两种方式生成的 INT8 模型在速度和精度上会存在差异吗？

这个小节我们就来看看两种方式生成的 INT8 模型性能对比，主要从 mAP 和速度两个方面衡量。

trtexec：

图4-11 INT8模型速度测试（trtexec）

图4-12 INT8模型mAP测试（trtexec）

tensorRT_Pro：

图4-13 INT8模型速度测试（tensorRT_Pro）

图4-14 INT8模型mAP测试（tensorRT_Pro）

测试结果如下表所示：

Method	Model	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
trtexec	YOLOv5s-QAT-INT8	0.412	0.660	1.26	794.55
tensorRT_Pro	YOLOv5s-QAT-INT8	0.412	0.660	0.99	1014.96

可视化图如下所示：

从表中的数据我们可以分析得到下面的结论：

1. 精度的一致性

两种方式生成的 INT8 模型性能无差异，这说明这两种方式生成的 INT8 模型对精度不会产生影响

2. 速度的差异性

从 FPS 来看，tensorRT_Pro 方法生成的 INT8 模型达到了 1014.96 FPS，而 trtexec 方法生成的模型仅为 794.55 FPS，约高出 28%。
这说明这两种方式生成的 INT8 模型在 tensorRT_Pro 中的推理速度有较大影响
这可能是由于 trtexec 指令中指定了 –fp16 参数，允许某些层运行时采用 FP16 精度模式

速度测试差距还是比较大的，博主也没有找到具体的原因是什么。两种方式都是采用的同一个 ONNX 模型和同一个校准文件，按理来说应该没有差距才对。

tensorRT_Pro 中模型的构建是通过底层的 C++ API 去调用 buildEngineWithConfig 函数完成的，有一些 IBuilderConfig 配置可能与 trtexec 指令有出入。还有一些细节实现博主可能没有关注到。

OK！以上就是本篇文章的全部内容了，有问题欢迎各位看官交流讨论。

结语

本篇博客介绍了关于 yolov5 的 QAT 量化以及部署流程，博主在这里只做了最基础的演示，有些实现并没有完全按照 cuDLA-samples 来做，各位看官感兴趣的话可以自行测试。感谢各位看到最后，创作不易，读后有收获的看官帮忙点个⭐️

下载链接

软件安装包下载链接【提取码:yolo】
源代码、权重、数据集下载链接【提取码:yolo】

参考

COCO Python API
tensorRT模型性能测试
如何熟练的使用trtexec
Ubuntu20.04部署YOLOv5
TensorRT量化第四课：PTQ与QAT
目标检测mAP计算以及coco评价标准
目标检测：PASCAL VOC 数据集简介
https://github.com/ultralytics/yolov5
https://github.com/shouxieai/tensorRT_Pro
https://github.com/NVIDIA-AI-IOT/cuDLA-samples
利用Anaconda安装pytorch和paddle深度学习环境+pycharm安装—免额外安装CUDA和cudnn(适合小白的保姆级教学)

你可能感兴趣的:(量化,模型部署,模型量化,QAT量化,模型部署,YOLOv5,目标检测)

量化投资中的投资组合风险溢价模型云策量化量化投资量化交易量化软件量化炒股 QMT 量化交易 PTrade 量化软件量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》量化投资中的投资组合风险溢价模型在量化投资的世界里，风险和回报总是如影随形。投资者们就像是在大海中航行的船长，既要寻找宝藏，又要避开暗礁。今天，我们就来聊聊量化投资中的一个关键工具——投资组合风险溢价模型，它就像是船长的罗盘，帮助我们在风险和回报之间找到平衡。引言：风险与回报的舞蹈在量化投资中，我们经常听到“风险溢价”这个词。
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
glm-4v-9b 踩坑（4-bit量化，bitsandbytes 异常） phynikesi pytorch glm-4v-9b踩坑 bitsandbytes异常
前言本文只分享了自己在体验glm-4v-9b过程中遇到的问题，没有涉及对模型本身以及更多问题的分析，大家可先看问题描述，再决定是否看下去。实验平台：linux系统，RTXA4000。嫌麻烦的可以直接到文未看结论。问题描述16g显卡难以加载模型bitsandbytes异常，模型无法运行加载问题本人设备有限，引用一下别人完整加载模型的数据，大约18.9g。用16g显卡直接报OOM，用8-bit加载还是
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
Yolov8训练自己的数据集(脱离ultralytics库) 爱吃肉的鹏 YOLO
最近在整理关于yolov8的相关内容，有个很大的问题，抛开yolov8性能不谈，yolov8代码的使用灵活性不如yolov5，尤其是对于一些新手或者对yolo框架不是很熟悉的人(这也是因人而异，有些人可能会喜欢v8代码的使用方式)。比如在使用v8的时候需要安装ultralytics库，然后再调用YOLO进行训练或者预测，那么就有这几个问题：问题1：安装了ultralytics库后如何使用YOLO呢
从零开始搭量化系统：那些教程里没说的脏活累活 ZQ917 python 量化行情接口 level2
去年某天，我对着满屏的均线交叉策略发呆——回测曲线完美得能上教科书的策略，实盘跑了两周亏掉20%。后来才发现，问题出在基础行情延迟了整整5秒。这才明白过来：市面上教人写策略的教程，和真正能跑通的交易系统之间，隔着一整条马里亚纳海沟。今天要聊的，不是怎么设计策略（这种内容已经烂大街了），而是实实在在的工程难题：‌如何用最低成本把策略变成真金白银的交易‌。别担心，不需要租机房搞专线，咱们普通散户也能玩
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
印度、马来西亚股市实时行情API数据接口推荐后端
随着金融科技的发展，实时行情数据接口成为金融交易、量化投资和市场分析的重要工具。以下为您推荐几款适合获取印度、马来西亚股市实时行情的API数据接口，涵盖不同需求场景和技术特点。一、首选推荐：PRDS金融财务API接口PRDS金融财务API接口是目前市场上针对印度股市实时行情的高性能解决方案，适合对数据时效性和稳定性要求较高的用户。数据覆盖：提供印度全市场股票及指数的实时行情数据，包括NSE（印度国
RTX4070Ti性能实测与优化解析智能计算研究中心其他
内容概要本文将以NVIDIAGeForceRTX4070Ti显卡为核心，系统化呈现其在4K与2K分辨率下的性能表现差异，并深入解析光线追踪与DLSS3.0技术对游戏体验的实际影响。通过15款主流3A大作的帧数实测数据，结合《赛博朋克2077》《艾尔登法环》等典型场景的测试结果，量化对比不同画质预设下的流畅度变化。此外，文章将提供经过验证的超频参数配置方案，涵盖电压调节、核心频率偏移及显存时序优化，
Linux中部署DeepSeek R1 Java探索者 ° linux 服务器语言模型
一、首先了解DeepSeek-R1模型规格B则是指“billion”的意思，也就是十亿，表示这个模型有多少亿个参数。DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化，CPU推理延迟约10-30秒/回答，适合基础文本生成7BRTX306012GB或
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
股票量化分析软件有哪些？它们各自有何独特优势与适用场景？财云量化 python炒股自动化量化交易程序化交易股票量化分析软件独特优势适用场景股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
Yolov11目标检测(ultralytics) @M_J_Y@ 目标检测 YOLO 目标检测人工智能
Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。[email protected]:ultralytics/ultralytics.git2.安装环境依赖pipinstall-e.-ihttps://pypi.mirrors.ustc.edu.cn/simple/3.训练、验证
金融租赁系统智慧风控实践探索红点租赁系统开发其他
内容概要当传统金融租赁还在和纸质合同较劲时，兴业金融租赁系统已经玩起了"变形金刚式"的智慧风控。这套系统就像给资产装上了GPS定位器+心电图监测仪，通过物联网传感器实时捕捉设备运行数据，配合卫星定位追踪车辆轨迹，再让大数据分析引擎消化海量场景信息——从工地的混凝土搅拌频率到物流车队的急刹车次数，全被转化成可量化的风险坐标。技术手段业务指标提升应用场景案例物联网传感器异常响应速度提升70%工程机械油
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型源泉的小广场大模型大模型量化推理模型量化量化 qwq32b gptq量化大模型推理性能调优
1.量化背景之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。关于QwQ-32B微调，可以参考《利用ms-swift微
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
[QMT量化交易小白入门]-二十二、deepseek+cline+vscode,让小白使用miniQMT量化交易成为可能 python自动化工具 QMT量化交易小白入门 vscode ide 编辑器
本专栏主要是介绍QMT的基础用法，常见函数，写策略的方法，也会分享一些量化交易的思路，大概会写100篇左右。QMT的相关资料较少，在使用过程中不断的摸索，遇到了一些问题，记录下来和大家一起沟通，共同进步，自己淋过雨了，希望大家都有一把伞。文章目录相关阅读DeepSeek新用户注册cline集成指令测试相关阅读小白也能做量化：零门槛QMT、Ptrade免费送量化交易入门：如何在QMT中配置Pytho
案例驱动的 IT 团队管理：创新与突破之路：第一章重构 IT 团队管理：从传统到创新-1.1.1技术迭代加速与人才断层言析数智案例驱动的 IT 团队管理：创新与突破之路 IT项目管理 IT创新
点击关注不迷路点击关注不迷路点击关注不迷路文章大纲案例驱动的IT团队管理：创新与突破之路第一章重构IT团队管理：从传统到创新-1.1.1技术迭代加速与人才断层1.技术迭代加速的现状与影响1.1技术迭代速度的`量化分析`2.人才断层的核心表现2.1供需失衡的数据对比2.2人才断层的具体表现3.传统管理模式的失效分析3.1经典管理理论的局限性3.2典型案例：某金融IT系统升级失败4.创新管理路径探索4
Ubuntu安装开发者平台Backstage xuhss_com 计算机计算机
Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475Ubuntu安装开发者平台Backstage什么是Backstage?Backstage是一个构建开发者门户的开源平台。通过支持一个集中的软件分类，Backstage可以保存
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>