爱听歌的周童鞋

YOLOv7-PTQ量化部署

- 前言
- 一、PTQ量化浅析
- 二、YOLOv7模型训练
- - 1. 项目的克隆和必要的环境依赖
  - - 1.1 项目的克隆
    - 1.2 项目代码结构整体介绍
    - 1.3 环境安装
  - 2. 数据集和预训练权重的准备
  - - 2.1 数据集
    - 2.2 预训练权重准备
  - 3. 训练模型
  - - 3.1 修改模型配置文件
    - 3.2 修改数据配置文件
    - 3.3 训练模型
    - 3.4 mAP测试
- 三、YOLOv7-PTQ量化部署
- - 1. 源码下载
  - 2. 环境配置
  - - 2.1 配置CMakeLists.txt
    - 2.2 配置Makefile
  - 3. ONNX导出
  - - 3.1 静态batch导出
    - 3.2 动态 batch 的导出
  - 4. PTQ量化
  - - 4.1 前置工作
    - 4.2 源码修改
    - 4.3 编译运行
    - 4.4 PTQ模型mAP测试
- 四、讨论
- - 1. 校准图片数量
  - 2. 不同精度模型对比
  - 3. YOLOv5-PTQ vs. YOLOv7-PTQ
- 结语
- 下载链接
- 参考

前言

博主又来水文章了，最近在学习 YOLOv7 QAT 量化相关的一个 repo，本来想和大家直接分享 QAT 量化的，但转念一想貌似还可以水一篇 PTQ 量化的文章，因此博主就准备在这篇文章中分享基于 YOLOv7 的 PTQ 量化部署的相关实现，具体实现在 tensorRT_Pro 这个 repo 中已经提供，博主只是简单过了一遍流程。

博主为初学者，欢迎交流讨论，若有问题欢迎各位看官批评指正！！！

一、PTQ量化浅析

在正式开始之前我们先来回顾下关于 PTQ 量化的一些知识，具体可参考：TensorRT量化第四课：PTQ与QAT

TensorRT 有两种量化模式，分别是隐式（implicitly）量化和显式（explicitly）量化。前者在 TRT7 版本之前用得比较多，而后者在 TRT8 版本后才完全支持，具体就是可以加载带有 QDQ 信息的模型然后生成对应量化版本的 engine。

这篇文章主要分享隐式量化即 PTQ 量化，关于显式量化即 QAT 量化我们将在下篇文章中分享。

PTQ（Post-Training Quantization）即训练后量化也叫隐式量化，tensorRT 的训练后量化算法第一次公布是在 2017 年，那年 NVIDIA 放出了使用交叉熵量化的一个 PPT，简单说明了其量化原理和流程，其思想集中在 tensorRT 内部可供用户去使用。对用户是闭源的，我们只能通过 tensorRT 提供的 API 去实现量化。

PTQ 量化不需要训练，只需要提供一些样本图片，然后在已经训练好的模型上进行校准，统计出来需要的每一层的 scale 就可以实现量化了，大概流程如下：

在准备好的校准数据集上评估预训练模型
使用校准数据来校准模型（校准数据可以是训练集的子集）
计算网络中权重和激活的动态范围用来算出量化参数 q-params
使用 q-params 量化网络并执行推理

图2-1 PTQ量化流程

具体使用就是我们导出 ONNX 模型，转换为 engine 的过程中使用 tensorRT 提供的 Calibration 方法去校准，可以使用 tensorRT 官方提供的 trtexec 工具去实现，也可以使用它提供的 Python 或者 C++ 的 API 接口去实现。

在 tensorRT_Pro 中 INT8 模型的编译就是 PTQ 量化，因此我们只需要提供好 ONNX 模型和校准数据即可，其它不用我们关心。

tensorRT 还提供了多种校准算法，分别适用于不同的任务：

EntropyCalibratorV2：适合于基于 CNN 的网络
MinMaxCalibrator：适合于 NLP 任务，如 BERT
EntropyCalibrator：老版本的交叉熵校准
LegacyCalibrator

通过上述这些校准算法进行 PTQ 量化时，tensorRT 会在优化网络的时候尝试 INT8 精度，假设网络某一层在 INT8 精度下的速度优于默认精度（FP32/FP16），则优先使用 INT8。

值得注意的是，PTQ 量化中我们无法控制某一层的精度，因为 tensorRT 是以速度优化为优先的，很可能某一层你想让它跑 INT8 结果却是 FP16，当然 PTQ 优点是流程简单，速度快。

OK！关于 PTQ 量化我们就简单聊下，让我们开始具体的实现吧！！！

二、YOLOv7模型训练

首先我们需要训练一个 YOLOv7 模型，当然拿官方的预训练权重也行，博主这边为了完整性还是整体走一遍流程，熟悉 YOLOv7 模型训练的看官可以跳过直接到量化部分。

1. 项目的克隆和必要的环境依赖

1.1 项目的克隆

yolov7 的代码是开源的可直接从 github 官网上下载，源码下载地址是 https://github.com/WongKinYiu/yolov7，由于 yolov7 目前就只固定 v0.1 一个版本，而 v0.1 版本并未提供训练的详细说明，故采用主分支进行模型的训练和部署工作。Linux下代码克隆指令如下

git clone https://github.com/WongKinYiu/yolov7.git

也可手动点击下载，点击右上角的绿色的 Code 按键，将代码下载下来。至此整个项目就已经准备好了。也可以点击 here【pwd:yolo】下载博主准备好的代码（注意该代码下载于 2023/10/14 日，若有改动请参考最新）

1.2 项目代码结构整体介绍

将下载后的 yolov7 代码解压，其代码目录如下图所示：

现在来对代码的整体目录做一个介绍：

|-cfg：存放yolov7不同模型的yaml文件，如yolov7.yaml、yolov7-tiny.yaml等，包括训练和部署时的yolov7模型yaml
|-data：存放一些超参数的配置文件以及配置训练集和验证集路径的coco.yaml文件，如果需要修改自己的数据集，那么需要修改其中的yaml文件
|-deploy：针对部署的文件夹
|-figure：存放yolov7测试的效果图片
|-inference：存放推理时的图片
|-models：存放yolov7整体网络模型搭建的py文件
|-paper：存放yolov7论文
|-scripts：脚本文件，用于获取coco数据集
|-tools：该文件夹主要存放一些示例教程，如yolov7关键点检测、yolov7实例分割、yolov7onnx等等
|-utils：存放工具类函数，包括loss、metrics、plots函数等
|-
- detect.py：检测代码，包括图像检测、视频流检测等
- export.py：模型导出代码，如onnx导出
- hubconf.py：pytorch扩展模型
- requirements.txt：文本文件，里面包含使用yolov7项目的环境依赖包以及相应的版本号
- test.py：测试代码
- train.py：训练代码
- train_aux.py：训练辅助头代码(不确定)

1.3 环境安装

关于深度学习的环境安装可参考炮哥的利用Anaconda安装pytorch和paddle深度学习环境+pycharm安装—免额外安装CUDA和cudnn(适合小白的保姆级教学)，这里不再赘述。如果之前配置过 yolov5 的环境，yolov7 可直接使用。

2. 数据集和预训练权重的准备

2.1 数据集

这里训练采用的数据集是 PASCAL VOC 数据集，但博主并没有使用完整的 VOC 数据集，而是选用了部分数据，具体分布如下：

训练集：(VOC2007train + VOC2007val) x 80% = 4013
验证集：(VOC2007train + VOC2007val) x 20% = 998
测试集：0

这里给出下载链接 Baidu Drive【pwd:yolo】下载解压后整个数据集文件夹内容如下所示：

其中 images 存放训练集和验证集的图片文件，labels 存放着对应的 YOLO 格式的 .txt 文件。

完整的 VOC 数据集的相关介绍和下载可参考：目标检测：PASCAL VOC 数据集简介

由于大家可能从其它地方拿到的是 XML 格式的标签文件，这里提供一个 XML2YOLO 转换的代码，如下所示：(from ChatGPT)

import os
import cv2
import xml.etree.ElementTree as ET
import shutil
from multiprocessing import Pool, cpu_count
from tqdm import tqdm
import numpy as np
from functools import partial

def process_xml(xml_filename, img_path, xml_path, img_save_path, label_save_path, class_dict, ratio):
    # 解析 xml 文件
    xml_file_path = os.path.join(xml_path, xml_filename)
    tree = ET.parse(xml_file_path)
    root = tree.getroot()

    # 获取图像的宽度和高度
    img_filename = os.path.splitext(xml_filename)[0] + ".jpg"
    img = cv2.imread(os.path.join(img_path, img_filename))
    height, width = img.shape[:2]

    # 随机决定当前图像和标签是属于训练集还是验证集
    subset = "train" if np.random.random() < ratio else "val"

    # 打开对应的标签文件进行写入
    label_file = os.path.join(label_save_path, subset, os.path.splitext(xml_filename)[0] + ".txt")
    with open(label_file, "w") as file:
        for obj in root.iter('object'):
            # 获取类别名并转换为类别ID
            class_name = obj.find('name').text
            class_id = class_dict[class_name]

            # 获取并处理边界框的坐标
            xmlbox = obj.find('bndbox')
            x1 = float(xmlbox.find('xmin').text)
            y1 = float(xmlbox.find('ymin').text)
            x2 = float(xmlbox.find('xmax').text)
            y2 = float(xmlbox.find('ymax').text)

            # 计算中心点坐标和宽高，并归一化
            x_center = (x1 + x2) / 2 / width
            y_center = (y1 + y2) / 2 / height
            w = (x2 - x1) / width
            h = (y2 - y1) / height

            # 写入文件
            file.write(f"{class_id} {x_center} {y_center} {w} {h}\n")

    # 将图像文件复制到对应的训练集或验证集目录
    shutil.copy(os.path.join(img_path, img_filename), os.path.join(img_save_path, subset, img_filename))

def check_and_create_dir(path):
    # 检查并创建 train 和 val 目录
    for subset in ['train', 'val']:
        if not os.path.exists(os.path.join(path, subset)):
            os.makedirs(os.path.join(path, subset))

if __name__ == "__main__":
    # 1. 定义路径和类别字典，不要使用中文路径
    img_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\JPEGImages"
    xml_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\Annotations"
    img_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\images"
    label_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\labels"

    class_dict = {
    "aeroplane": 0,
    "bicycle": 1,
    "bird": 2,
    "boat": 3,
    "bottle": 4,
    "bus": 5,
    "car": 6,
    "cat": 7,
    "chair": 8,
    "cow": 9,
    "diningtable": 10,
    "dog": 11,
    "horse": 12,
    "motorbike": 13,
    "person": 14,
    "pottedplant": 15,
    "sheep": 16,
    "sofa": 17,
    "train": 18,
    "tvmonitor": 19
}

    train_val_ratio = 0.8  # 2. 定义训练集和验证集的比例

    # 检查并创建必要的目录
    check_and_create_dir(img_save_path)
    check_and_create_dir(label_save_path)

    # 获取 xml 文件列表
    xml_filenames = os.listdir(xml_path)

    # 创建进程池并执行
    with Pool(cpu_count()) as p:
        list(tqdm(p.imap(partial(process_xml, img_path=img_path, xml_path=xml_path, img_save_path=img_save_path, label_save_path=label_save_path, 
                                 class_dict=class_dict, ratio=train_val_ratio), xml_filenames), total=len(xml_filenames)))

上述代码的功能是将 PASCAL VOC 格式的数据集（包括 JPEG 图像和 XML 格式的标签文件）转换为 YOLO 需要的 .txt 标签格式，同时会将转换后的数据集按照比例随机划分为训练集和验证集。

你需要修改以下几项：

img_path：需要转换的图像文件路径
xml_path：需要转换的 xml 标签文件路径
img_save_path：转换后保存的图像路径
label_save_path：转换后保存的 txt 标签路径
class_dict：数据集类别字典
train_val_ratio：训练集和验证集划分的比例
注意：以上路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

XML 标签文件中目标框保存的格式是 [xmin, ymin, xmax, ymax] 四个变量，分别代表着未经归一化的左上角和右下角坐标。

YOLO 标签中目标框保存的格式是每一行代表一个目标框信息，每一行共包含 [label_id, x_center, y_center, w, h] 五个变量，分别代表着标签 ID，经过归一化后的中心点坐标和目标框宽高。

关于代码的分析可以参考：tensorRT模型性能测试

至此，数据集的准备工作完毕。

2.2 预训练权重准备

yolov7 预训练权重可以通过 here【pwd:yolo】下载，注意这是 yolov7-v0.1 版本的预训练权重，若后续有版本更新，记得替换。本次训练 VOC 数据集使用的预训练权重为 yolov7-tiny.pt

3. 训练模型

将准备好的数据集文件夹即 VOC 复制到 yolov7 项目环境中，将准备好的预训练权重 yolov7-tiny.pt 复制到 yolov7 项目环境中，完整的项目结构如下图所示。训练目标检测模型主要修改 cfg 文件夹下的模型配置文件 yolov7-tiny.ymal 以及 data 文件夹下的数据配置文件 coco.yaml

3.1 修改模型配置文件

由于该项目使用的是 yolov7-tiny.pt 这个预训练权重，所以需要使用 cfg/training 目录下的 yolov7-tiny.yaml 这个文件（由于不同的预训练权重对应不同的网络结构，所以用错预训练权重会报错）。主要修改 yolov7-tiny.yaml 文件的第二行，即需要识别的类别数，由于这里识别 VOC 的 20 个类别，故修改为 20 即可，如下所示

3.2 修改数据配置文件

修改 data 目录下相应的 yaml 文件，找到目录下的 coco.yaml 文件，主要修改如下：

1. 注释第 4 行
2. 修改第 7 行训练集的路径
3. 修改第 8 行验证集的路径
4. 注释第 9 行，因为未使用到测试集
5. 修改第 12 行需要检测的类别数个数
6. 修改第 15 行需要检测的类别数名称

3.3 训练模型

在终端执行如下指令即可开始训练，参考自 yolov7 的 README.md/Training

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7-tiny.yaml --weights 'yolov7-tiny.pt' --name yolov7 --hyp data/hyp.scratch.p5.yaml --epochs 100

博主训练的模型为 p5 models 且使用的是单个 GPU 进行训练，显卡为 RTX3060，操作系统为 Ubuntu20.04，pytorch 版本为 1.12.0，训练时长大概 1 小时左右。训练的参数的指定和 yolov5 差不多，简要解释如下：

–-workers 最大工作核心数
–-device 指定训练的设备，CPU，0(代表第一个 GPU 设备)
–-batch-size 每次输入到网络的图片数
-–data 数据配置文件的路径
–-img 输入图像的尺寸
–-cfg 模型配置文件路径
–-weights 预训练权重路径
–-name 训练保存的文件夹名字
-–hyp 超参数文件路径
–epochs 训练轮数

还有其它参数博主并未设置，如 –-multi-scale 多尺度训练等。大家一定要根据自己的实际情况(如显卡算力)指定不同的参数，如果你之前训练过 yolov5，那我相信这对你来说应该是小 case

训练完成后的模型权重保存在 run/train/weights 文件夹下，和 yolov5 不同的是它保存了多个权重文件，使用 best.pt 进行后续模型部署量化即可，这里提供博主训练好的权重文件下载链接 Baidu Drive【pwd:yolo】

3.4 mAP测试

由于后续我们要对模型进行 PTQ 量化，需要一些指标来衡量模型的性能，mAP 是一个重要的衡量指标。我们需要对比量化前后模型的 mAP，首先来看量化前原始 pytorch 模型的 mAP，测试的数据集直接选用验证集的 998 张图片。

我们将置信度阈值设置为 0.001，NMS 阈值设置为 0.65，方便与后续 PTQ 量化模型对比。

mAP 测试的指令如下：

python test.py --data data/coco.yaml --img 640 --batch 32 --conf 0.001 --iou 0.65 --device 0 --weights best.pt --name yolov7_640_val

测试完成后的结果会保存在 runs/test/yolov7_640_val 文件夹下，这里总结下原始 pytorch 模型的性能

Model	Size	mAP^val 0.5:0.95	mAP^val 0.5	Params ^(M)	FLOPs ^(G)
YOLOv7-tiny	640	0.491	0.744	5.8	13.3

三、YOLOv7-PTQ量化部署

由于博主手头没有合适的 Jetson 嵌入式设备，因此打算使用自己的主机完成 YOLOv7-PTQ 量化及部署工作，量化部署使用的 repo 是 tensorRT_Pro。

接下来我们主要是针对 tensorRT_Pro 项目中的 YOLOv7 完成 PTQ 模型的量化和部署，体现在 tensorRT_Pro 中其实就是 YOLOv7 的 INT8 量化，本次量化的模型是 YOLOv7-tiny.pt，数据集为 VOC，类别数为 20。

1. 源码下载

tensorRT_Pro 的代码可以直接从 GitHub 官网上下载，源码下载地址是 https://github.com/shouxieai/tensorRT_Pro，Linux 下代码克隆指令如下：

$ git clone https://github.com/shouxieai/tensorRT_Pro

也可手动点击下载，点击右上角的 Code 按键，将代码下载下来。至此整个项目就已经准备好了。也可以点击 Baidu Drive【pwd:yolo】下载博主准备好的源代码（注意代码下载于 2023/9/24 日，若有改动请参考最新）

2. 环境配置

需要使用的软件环境有 TensorRT、CUDA、cuDNN、OpenCV、Protobuf，所有软件环境的安装可以参考 Ubuntu20.04部署YOLOv5，这里不再赘述，需要各位看官自行配置好相关环境，外网访问较慢，这里提供下博主安装过程中的软件安装包下载链接 Baidu Drive【pwd:yolo】

tensorRT_Pro 提供 CMakeLists.txt 和 Makefile 两种方式编译，二者选一即可

2.1 配置CMakeLists.txt

主要修改六处

1. 修改第 10 行，选择不支持 python (也可选择支持)

set(HAS_PYTHON OFF)

2. 修改第 18 行，修改 OpenCV 路径

set(OpenCV_DIR   "/usr/local/include/opencv4/")

3. 修改第 20 行，修改 CUDA 路径

set(CUDA_TOOLKIT_ROOT_DIR     "/usr/local/cuda-11.6")

4. 修改第 21 行，修改 cuDNN 路径

set(CUDNN_DIR    "/usr/local/cudnn8.4.0.27-cuda11.6")

5. 修改第 22 行，修改 tensorRT 路径

set(TENSORRT_DIR "/opt/TensorRT-8.4.1.5")

6. 修改第 33 行，修改 protobuf 路径

set(PROTOBUF_DIR "/home/jarvis/protobuf")

完整的 CMakeLists.txt 的内容如下：

cmake_minimum_required(VERSION 2.6)
project(pro)

option(CUDA_USE_STATIC_CUDA_RUNTIME OFF)
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_BUILD_TYPE Debug)
set(EXECUTABLE_OUTPUT_PATH ${PROJECT_SOURCE_DIR}/workspace)

# 如果要支持python则设置python路径
set(HAS_PYTHON OFF)                                         # ===== 修改 1 =====
set(PythonRoot "/datav/software/anaconda3")
set(PythonName "python3.9")

# 如果你是不同显卡，请设置为显卡对应的号码参考这里：https://developer.nvidia.com/zh-cn/cuda-gpus#compute
#set(CUDA_GEN_CODE "-gencode=arch=compute_75,code=sm_75")

# 如果你的opencv找不到，可以自己指定目录
set(OpenCV_DIR   "/usr/local/include/opencv4/")             # ===== 修改 2 =====

set(CUDA_TOOLKIT_ROOT_DIR     "/usr/local/cuda-11.6")       # ===== 修改 3 =====
set(CUDNN_DIR    "/usr/local/cudnn8.4.0.27-cuda11.6")       # ===== 修改 4 =====
set(TENSORRT_DIR "/opt/TensorRT-8.4.1.5")                   # ===== 修改 5 =====

# set(CUDA_TOOLKIT_ROOT_DIR     "/data/sxai/lean/cuda-10.2")
# set(CUDNN_DIR    "/data/sxai/lean/cudnn7.6.5.32-cuda10.2")
# set(TENSORRT_DIR "/data/sxai/lean/TensorRT-7.0.0.11")

# set(CUDA_TOOLKIT_ROOT_DIR  "/data/sxai/lean/cuda-11.1")
# set(CUDNN_DIR    "/data/sxai/lean/cudnn8.2.2.26")
# set(TENSORRT_DIR "/data/sxai/lean/TensorRT-7.2.1.6")

# 因为protobuf，需要用特定版本，所以这里指定路径
set(PROTOBUF_DIR "/home/jarvis/protobuf")                   # ===== 修改 6 ======


find_package(CUDA REQUIRED)
find_package(OpenCV)

include_directories(
    ${PROJECT_SOURCE_DIR}/src
    ${PROJECT_SOURCE_DIR}/src/application
    ${PROJECT_SOURCE_DIR}/src/tensorRT
    ${PROJECT_SOURCE_DIR}/src/tensorRT/common
    ${OpenCV_INCLUDE_DIRS}
    ${CUDA_TOOLKIT_ROOT_DIR}/include
    ${PROTOBUF_DIR}/include
    ${TENSORRT_DIR}/include
    ${CUDNN_DIR}/include
)

# 切记，protobuf的lib目录一定要比tensorRT目录前面，因为tensorRTlib下带有protobuf的so文件
# 这可能带来错误
link_directories(
    ${PROTOBUF_DIR}/lib
    ${TENSORRT_DIR}/lib
    ${CUDA_TOOLKIT_ROOT_DIR}/lib64
    ${CUDNN_DIR}/lib
)

if("${HAS_PYTHON}" STREQUAL "ON")
    message("Usage Python ${PythonRoot}")
    include_directories(${PythonRoot}/include/${PythonName})
    link_directories(${PythonRoot}/lib)
    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DHAS_PYTHON")
endif()

set(CMAKE_CXX_FLAGS  "${CMAKE_CXX_FLAGS} -std=c++11 -Wall -O0 -Wfatal-errors -pthread -w -g")
set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -std=c++11 -O0 -Xcompiler -fPIC -g -w ${CUDA_GEN_CODE}")
file(GLOB_RECURSE cpp_srcs ${PROJECT_SOURCE_DIR}/src/*.cpp)
file(GLOB_RECURSE cuda_srcs ${PROJECT_SOURCE_DIR}/src/*.cu)
cuda_add_library(plugin_list SHARED ${cuda_srcs})
target_link_libraries(plugin_list nvinfer nvinfer_plugin)
target_link_libraries(plugin_list cuda cublas cudart cudnn)
target_link_libraries(plugin_list protobuf pthread)
target_link_libraries(plugin_list ${OpenCV_LIBS})

add_executable(pro ${cpp_srcs})

# 如果提示插件找不到，请使用dlopen(xxx.so, NOW)的方式手动加载可以解决插件找不到问题
target_link_libraries(pro nvinfer nvinfer_plugin)
target_link_libraries(pro cuda cublas cudart cudnn)
target_link_libraries(pro protobuf pthread plugin_list)
target_link_libraries(pro ${OpenCV_LIBS})

if("${HAS_PYTHON}" STREQUAL "ON")
    set(LIBRARY_OUTPUT_PATH ${PROJECT_SOURCE_DIR}/example-python/pytrt)
    add_library(pytrtc SHARED ${cpp_srcs})
    target_link_libraries(pytrtc nvinfer nvinfer_plugin)
    target_link_libraries(pytrtc cuda cublas cudart cudnn)
    target_link_libraries(pytrtc protobuf pthread plugin_list)
    target_link_libraries(pytrtc ${OpenCV_LIBS})
    target_link_libraries(pytrtc "${PythonName}")
    target_link_libraries(pro "${PythonName}")
endif()

add_custom_target(
    yolo
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo
)

add_custom_target(
    yolo_gpuptr
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo_gpuptr
)

add_custom_target(
    yolo_fast
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro yolo_fast
)

add_custom_target(
    centernet
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro centernet
)

add_custom_target(
    alphapose 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro alphapose
)

add_custom_target(
    retinaface
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro retinaface
)

add_custom_target(
    dbface
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro dbface
)

add_custom_target(
    arcface 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro arcface
)

add_custom_target(
    bert 
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro bert
)

add_custom_target(
    fall
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro fall_recognize
)

add_custom_target(
    scrfd
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro scrfd
)

add_custom_target(
    lesson
    DEPENDS pro
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/workspace
    COMMAND ./pro lesson
)

add_custom_target(
    pyscrfd
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_scrfd.py
)

add_custom_target(
    pyinstall
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python setup.py install
)

add_custom_target(
    pytorch
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_torch.py
)

add_custom_target(
    pyyolov5
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_yolov5.py
)

add_custom_target(
    pycenternet
    DEPENDS pytrtc
    WORKING_DIRECTORY ${PROJECT_SOURCE_DIR}/example-python
    COMMAND python test_centernet.py
)

2.2 配置Makefile

主要修改六处

1. 修改第 4 行，修改 protobuf 路径

lean_protobuf  := /home/jarvis/protobuf

2. 修改第 5 行，修改 tensorRT 路径

lean_tensor_rt := /opt/TensorRT-8.4.1.5

3. 修改第 6 行，修改 cuDNN 路径

lean_cudnn     := /usr/local/cudnn8.4.0.27-cuda11.6

4. 修改第 7 行，修改 OpenCV 路径

lean_opencv    := /usr/local

5. 修改第 8 行，修改 CUDA 路径

lean_cuda      := /usr/local/cuda-11.6

6. 修改第 9 行，选择不支持 python (也可选择支持)

use_python     := false

完整的 Makefile 的内容如下：

cc        := g++
nvcc      = ${lean_cuda}/bin/nvcc

lean_protobuf  := /home/jarvis/protobuf		# ===== 修改 1 =====
lean_tensor_rt := /opt/TensorRT-8.4.1.5		# ===== 修改 2 =====
lean_cudnn     := /usr/local/cudnn8.4.0.27-cuda11.6	# ===== 修改 3 =====
lean_opencv    := /usr/local				# ===== 修改 4 =====
lean_cuda      := /usr/local/cuda-11.6		# ===== 修改 5 =====
use_python     := false						# ===== 修改 6 =====
python_root    := /datav/software/anaconda3

# python_root指向的lib目录下有个libpython3.9.so，因此这里写python3.9
# 对于有些版本，so名字是libpython3.7m.so，你需要填写python3.7m
# /datav/software/anaconda3/lib/libpython3.9.so
python_name    := python3.9

# 如果是其他显卡，请修改-gencode=arch=compute_75,code=sm_75为对应显卡的能力
# 显卡对应的号码参考这里：https://developer.nvidia.com/zh-cn/cuda-gpus#compute
cuda_arch := # -gencode=arch=compute_75,code=sm_75

cpp_srcs  := $(shell find src -name "*.cpp")
cpp_objs  := $(cpp_srcs:.cpp=.cpp.o)
cpp_objs  := $(cpp_objs:src/%=objs/%)
cpp_mk    := $(cpp_objs:.cpp.o=.cpp.mk)

cu_srcs  := $(shell find src -name "*.cu")
cu_objs  := $(cu_srcs:.cu=.cu.o)
cu_objs  := $(cu_objs:src/%=objs/%)
cu_mk    := $(cu_objs:.cu.o=.cu.mk)

include_paths := src        \
			src/application \
			src/tensorRT	\
			src/tensorRT/common  \
			$(lean_protobuf)/include \
			$(lean_opencv)/include/opencv4 \
			$(lean_tensor_rt)/include \
			$(lean_cuda)/include  \
			$(lean_cudnn)/include 

library_paths := $(lean_protobuf)/lib \
			$(lean_opencv)/lib    \
			$(lean_tensor_rt)/lib \
			$(lean_cuda)/lib64  \
			$(lean_cudnn)/lib

link_librarys := opencv_core opencv_imgproc opencv_videoio opencv_imgcodecs \
			nvinfer nvinfer_plugin \
			cuda cublas cudart cudnn \
			stdc++ protobuf dl


# HAS_PYTHON表示是否编译python支持
support_define    := 

ifeq ($(use_python), true) 
include_paths  += $(python_root)/include/$(python_name)
library_paths  += $(python_root)/lib
link_librarys  += $(python_name)
support_define += -DHAS_PYTHON
endif

empty         :=
export_path   := $(subst $(empty) $(empty),:,$(library_paths))

run_paths     := $(foreach item,$(library_paths),-Wl,-rpath=$(item))
include_paths := $(foreach item,$(include_paths),-I$(item))
library_paths := $(foreach item,$(library_paths),-L$(item))
link_librarys := $(foreach item,$(link_librarys),-l$(item))

cpp_compile_flags := -std=c++11 -g -w -O0 -fPIC -pthread -fopenmp $(support_define)
cu_compile_flags  := -std=c++11 -g -w -O0 -Xcompiler "$(cpp_compile_flags)" $(cuda_arch) $(support_define)
link_flags        := -pthread -fopenmp -Wl,-rpath='$$ORIGIN'

cpp_compile_flags += $(include_paths)
cu_compile_flags  += $(include_paths)
link_flags        += $(library_paths) $(link_librarys) $(run_paths)

ifneq ($(MAKECMDGOALS), clean)
-include $(cpp_mk) $(cu_mk)
endif

pro    : workspace/pro
pytrtc : example-python/pytrt/libpytrtc.so
expath : library_path.txt

library_path.txt : 
	@echo LD_LIBRARY_PATH=$(export_path):"$$"LD_LIBRARY_PATH > $@

workspace/pro : $(cpp_objs) $(cu_objs)
	@echo Link $@
	@mkdir -p $(dir $@)
	@$(cc) $^ -o $@ $(link_flags)

example-python/pytrt/libpytrtc.so : $(cpp_objs) $(cu_objs)
	@echo Link $@
	@mkdir -p $(dir $@)
	@$(cc) -shared $^ -o $@ $(link_flags)

objs/%.cpp.o : src/%.cpp
	@echo Compile CXX $<
	@mkdir -p $(dir $@)
	@$(cc) -c $< -o $@ $(cpp_compile_flags)

objs/%.cu.o : src/%.cu
	@echo Compile CUDA $<
	@mkdir -p $(dir $@)
	@$(nvcc) -c $< -o $@ $(cu_compile_flags)

objs/%.cpp.mk : src/%.cpp
	@echo Compile depends CXX $<
	@mkdir -p $(dir $@)
	@$(cc) -M $< -MF $@ -MT $(@:.cpp.mk=.cpp.o) $(cpp_compile_flags)
	
objs/%.cu.mk : src/%.cu
	@echo Compile depends CUDA $<
	@mkdir -p $(dir $@)
	@$(nvcc) -M $< -MF $@ -MT $(@:.cu.mk=.cu.o) $(cu_compile_flags)

yolo : workspace/pro
	@cd workspace && ./pro yolo

yolo_gpuptr : workspace/pro
	@cd workspace && ./pro yolo_gpuptr

dyolo : workspace/pro
	@cd workspace && ./pro dyolo

dunet : workspace/pro
	@cd workspace && ./pro dunet

dmae : workspace/pro
	@cd workspace && ./pro dmae

dclassifier : workspace/pro
	@cd workspace && ./pro dclassifier

yolo_fast : workspace/pro
	@cd workspace && ./pro yolo_fast

bert : workspace/pro
	@cd workspace && ./pro bert

alphapose : workspace/pro
	@cd workspace && ./pro alphapose

fall : workspace/pro
	@cd workspace && ./pro fall_recognize

retinaface : workspace/pro
	@cd workspace && ./pro retinaface

arcface    : workspace/pro
	@cd workspace && ./pro arcface

test_warpaffine    : workspace/pro
	@cd workspace && ./pro test_warpaffine

test_yolo_map    : workspace/pro
	@cd workspace && ./pro test_yolo_map

arcface_video    : workspace/pro
	@cd workspace && ./pro arcface_video

arcface_tracker    : workspace/pro
	@cd workspace && ./pro arcface_tracker

test_all : workspace/pro
	@cd workspace && ./pro test_all

scrfd : workspace/pro
	@cd workspace && ./pro scrfd

centernet : workspace/pro
	@cd workspace && ./pro centernet

dbface : workspace/pro
	@cd workspace && ./pro dbface

high_perf : workspace/pro
	@cd workspace && ./pro high_perf

lesson : workspace/pro
	@cd workspace && ./pro lesson

plugin : workspace/pro
	@cd workspace && ./pro plugin

pytorch : pytrtc
	@cd example-python && python test_torch.py

pyscrfd : pytrtc
	@cd example-python && python test_scrfd.py

pyretinaface : pytrtc
	@cd example-python && python test_retinaface.py

pycenternet : pytrtc
	@cd example-python && python test_centernet.py

pyyolov5 : pytrtc
	@cd example-python && python test_yolov5.py

pyyolov7 : pytrtc
	@cd example-python && python test_yolov7.py

pyyolox : pytrtc
	@cd example-python && python test_yolox.py

pyarcface : pytrtc
	@cd example-python && python test_arcface.py

pyinstall : pytrtc
	@cd example-python && python setup.py install

clean :
	@rm -rf objs workspace/pro example-python/pytrt/libpytrtc.so example-python/build example-python/dist example-python/pytrt.egg-info example-python/pytrt/__pycache__
	@rm -rf workspace/single_inference
	@rm -rf workspace/scrfd_result workspace/retinaface_result
	@rm -rf workspace/YoloV5_result workspace/YoloX_result
	@rm -rf workspace/face/library_draw workspace/face/result
	@rm -rf build
	@rm -rf example-python/pytrt/libplugin_list.so
	@rm -rf library_path.txt

.PHONY : clean yolo alphapose fall debug

# 导出符号，使得运行时能够链接上
export LD_LIBRARY_PATH:=$(export_path):$(LD_LIBRARY_PATH)

3. ONNX导出

训练的模型使用 yolov7-tiny.pt，torch 版本 1.12.1，onnx 版本 1.13.1
ONNX 导出参考自 YoloV5案例第一部分，导出ONNX

关于静态 batch 和动态 batch 有以下几点说明，更多细节请查看 YoloV8的动态静态batch如何理解和使用

静态batch

导出的 onnx 指定所有维度均为明确的数字，是静态 shape 模型
在推理的时候，它永远都是同样的 batch 推理，即使你目前只有一个图推理，它也需要 n 个 batch 的耗时
适用于大部分场景，整个代码逻辑非常简单

动态batch

导出的时候指定特定维度为 dynamic，也就是不确定状态
模型推理时才决定所需推理的 batch 大小，耗时最优，但 onnx 复杂度提高了
适用于如 server 有大量不均匀的请求时的场景

3.1 静态batch导出

静态 batch 的导出不需要修改任何内容，直接将训练好的 VOC 权重 best.pt 放在 yolov7 主目录下，在终端执行如下指令：

cd yolov7
python export.py --grid --weights=best.pt

执行完成后会在当前目录生成导出的 best.onnx 模型，用于后续量化部署。

3.2 动态 batch 的导出

动态 batch 的导出也不需要修改任何文件的内容，我们这次利用 onnxsim 第三方库来简化我们的 onnx 模型，首先确保你当前的环境中安装了 onnxsim，否则执行如下指令进行安装：

pip install onnxsim -i https://pypi.tuna.tsinghua.edu.cn/simple

然后将训练好的 VOC 权重 best.pt 放在 yolov7 主目录下，在终端执行如下指令：

cd yolov7
python export.py --dynamic-batch --grid --weights=best.pt

执行完成后会在当前目录生成导出的 best.onnx 模型，用于后续量化部署。

4. PTQ量化

4.1 前置工作

在开始PTQ 量化之前我们需要准备两个东西：模型和校准图片

模型我们采用动态 batch 导出的 best.onnx 模型，将它放在 tensorRT_Pro/workspace 文件夹下

校准图片我们从训练集随机选取 1000 张图片进行校准，将它也放在 tensorRT_Pro/workspace 文件夹下

1000 张校准数据集随机选取的代码如下：

import os
import random
import shutil

def random_copy_images(source_folder, destination_folder, num_images=1000):
    # 确保目标文件夹存在
    if not os.path.exists(destination_folder):
        os.makedirs(destination_folder)

    # 获取源文件夹中的所有图片文件
    image_files = [file for file in os.listdir(source_folder) if file.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif'))]

    # 随机选择1000张图片
    selected_images = random.sample(image_files, min(num_images, len(image_files)))

    # 复制选中的图片到目标文件夹
    for image_file in selected_images:
        source_path = os.path.join(source_folder, image_file)
        destination_path = os.path.join(destination_folder, image_file)
        shutil.copy(source_path, destination_path)

source_folder = '/home/jarvis/Learn/Datasets/VOC_PTQ/images/train'  # 带有图片的文件夹路径
destination_folder = 'calib_data'       # 目标文件夹路径
num_images = 1000                       # 需要随机获取的图片数量

random_copy_images(source_folder, destination_folder, num_images)

你需要修改以下几项：

source_folder：源训练集文件夹路径
destination_folder：校准数据集文件夹路径
num_images：随机选择的图片数量

4.2 源码修改

将上述模型和校准图片准备好后还要修改下源码，yolo 模型的推理代码主要在 src/application/app_yolo.cpp 文件中，我们就只需要修改这一个文件中的内容即可，源码修改较简单主要有以下几点：

1. app_yolo.cpp 177 行，TRT::Mode 修改为 INT8，“yolov7” 改成 “best”
2. app_yolo.cpp 25 行，新增 voclabels 数组，添加 voc 数据集的类别名称
3. app_yolo.cpp 100 行，cocolabels 修改为 voclabels
4. app_yolo.cpp 149 行，“inference” 修改为 “calib_data” 指定校准图片的路径

具体修改如下：

test(Yolo::Type::V7, TRT::Mode::INT8, "best")				// 修改1 177行"yolov7"改成"best"

static const char *voclabels[] = {"aeroplane",   "bicycle", "bird",   "boat",       "bottle",
                                  "bus",         "car",     "cat",    "chair",      "cow",
                                  "diningtable", "dog",     "horse",  "motorbike",  "person",
                                  "pottedplant",  "sheep",  "sofa",   "train",      "tvmonitor"};		 // 修改2 25行新增代码，为自训练模型的类别名称
    
for(auto& obj : boxes){
     ...
     auto name    = voclabels[obj.class_label];	 			// 修改3 100行cocolabels修改为voclabels
	 ...
}

TRT::compile(
    mode,                       // FP32、FP16、INT8
    test_batch_size,            // max batch size
    onnx_file,                  // source 
    model_file,                 // save to
    {},
    int8process,
    "calib_data"				// 修改4 149行 "inference" 修改为 "calib_data"
);

4.3 编译运行

OK！源码修改好了，Makefile 编译文件也搞定了，可以编译运行了，直接在终端执行如下指令即可：

make yolo

图解如下所示：

编译运行后在 workspace 文件夹下会生成 INT8 的 engine 模型 best.INT8.trtmodel 用于模型推理，同时它还会生成 best_Yolov5_INT8_result 文件夹，该文件夹下保存了推理的图片

模型推理效果如下图所示：

4.4 PTQ模型mAP测试

我们再来测试下经过 PTQ 量化后模型的 mAP，tensorRT_Pro 中已经提供了对应 mAP 测试的代码，在 src/application/test_yolo_map.cpp 文件中，我们就只需要修改这一个文件中的内容即可，源码修改较简单主要有以下几点：

1. test_yolo_map.cpp 172 行，修改要测试的验证集文件夹路径
2. test_yolo_map.cpp 175 行，修改要测试的 INT8 模型，yolov5s 修改为 best
3. test_yolo_map.cpp 176 行，Yolo::Type 修改为 V7，TRT::Mode 修改为 INT8
4. test_yolo_map.cpp 125 行，将 save_to_json 函数简单修改下

修改后完整的 test_yolo_map.cpp 如下所示：

#include 
#include 
#include 
#include 
#include "app_yolo/yolo.hpp"
#include 
#include 

using namespace std;

bool requires(const char* name);

struct BoxLabel{
    int label;
    float cx, cy, width, height;
    float confidence;
};

struct ImageItem{
    string image_file;
    Yolo::BoxArray detections;
};

vector<ImageItem> scan_dataset(const string& images_root){

    vector<ImageItem> output;
    auto image_files = iLogger::find_files(images_root, "*.jpg");

    for(int i = 0; i < image_files.size(); ++i){
        auto& image_file = image_files[i];

        if(!iLogger::exists(image_file)){
            INFOW("Not found: %s", image_file.c_str());
            continue;
        }

        ImageItem item;
        item.image_file = image_file;
        output.emplace_back(item);
    }
    return output;
}

static void inference(vector<ImageItem>& images, int deviceid, const string& engine_file, TRT::Mode mode, Yolo::Type type, const string& model_name){

    auto engine = Yolo::create_infer(
        engine_file, type, deviceid, 0.001f, 0.65f,
        Yolo::NMSMethod::CPU, 10000
    );
    if(engine == nullptr){
        INFOE("Engine is nullptr");
        return;
    }

    int nimages = images.size();
    vector<shared_future<Yolo::BoxArray>> image_results(nimages);
    for(int i = 0; i < nimages; ++i){
        if(i % 100 == 0){
            INFO("Commit %d / %d", i+1, nimages);
        }
        image_results[i] = engine->commit(cv::imread(images[i].image_file));
    }
    
    for(int i = 0; i < nimages; ++i)
        images[i].detections = image_results[i].get();
}

void detect_images(vector<ImageItem>& images, Yolo::Type type, TRT::Mode mode, const string& model){

    int deviceid = 0;
    auto mode_name = TRT::mode_string(mode);
    TRT::set_device(deviceid);

    auto int8process = [=](int current, int count, const vector<string>& files, shared_ptr<TRT::Tensor>& tensor){

        INFO("Int8 %d / %d", current, count);

        for(int i = 0; i < files.size(); ++i){
            auto image = cv::imread(files[i]);
            Yolo::image_to_tensor(image, tensor, type, i);
        }
    };

    const char* name = model.c_str();
    INFO("===================== test %s %s %s ==================================", Yolo::type_name(type), mode_name, name);

    if(not requires(name))
        return;

    string onnx_file = iLogger::format("%s.onnx", name);
    string model_file = iLogger::format("%s.%s.trtmodel", name, mode_name);
    int test_batch_size = 16;
    
    if(not iLogger::exists(model_file)){
        TRT::compile(
            mode,                       // FP32、FP16、INT8
            test_batch_size,            // max batch size
            onnx_file,                  // source 
            model_file,                 // save to
            {},
            int8process,
            "inference"
        );
    }
    inference(images, deviceid, model_file, mode, type, name);
}

bool save_to_json(const vector<ImageItem>& images, const string& file){

    Json::Value predictions(Json::arrayValue);
    for(int i = 0; i < images.size(); ++i){
        auto& image = images[i];
        auto file_name = iLogger::file_name(image.image_file, false);
        string image_id = file_name;

        auto& boxes = image.detections;
        for(auto& box : boxes){
            Json::Value jitem;
            jitem["image_id"] = image_id;
            jitem["category_id"] = box.class_label;
            jitem["score"] = box.confidence;

            auto& bbox = jitem["bbox"];
            bbox.append(box.left);
            bbox.append(box.top);
            bbox.append(box.right - box.left);
            bbox.append(box.bottom - box.top);
            predictions.append(jitem);
        }
    }
    return iLogger::save_file(file, predictions.toStyledString());
}

int test_yolo_map(){
    
    /*
    结论：
    1. YoloV5在tensorRT下和pytorch下，只要输入一样，输出的差距最大值是1e-3
    2. YoloV5-6.0的mAP，官方代码跑下来是[email protected]:.95 = 0.367, [email protected] = 0.554，与官方声称的有差距
    3. 这里的tensorRT版本测试的精度为：[email protected]:.95 = 0.357, [email protected] = 0.539，与pytorch结果有差距
    4. cv2.imread与cv::imread，在操作jpeg图像时，在我这里测试读出的图像值不同，最大差距有19。而png图像不会有这个问题
        若想完全一致，请用png图像
    5. 预处理部分，若采用letterbox的方式做预处理，由于tensorRT这里是固定640x640大小，测试采用letterbox并把多余部分
        设置为0. 其推理结果与pytorch相近，但是依旧有差别
    6. 采用warpAffine和letterbox两种方式的预处理结果，在mAP上没有太大变化（小数点后三位差）
    7. mAP差一个点的原因可能在固定分辨率这件事上，还有是pytorch实现的所有细节并非完全加入进来。这些细节可能有没有
        找到的部分
    */

    auto images = scan_dataset("/home/jarvis/Learn/Datasets/VOC_PTQ/images/val");
    INFO("images.size = %d", images.size());

    string model = "best";
    detect_images(images, Yolo::Type::V7, TRT::Mode::INT8, model);
    save_to_json(images, model + ".prediction.json");
    return 0;
}

上述代码会将 INT8 模型在验证集中所有图像的检测结果存储到一个 JSON 文件中，每个检测到的物体都被序列化为 JSON 格式信息，包括图像 ID、类别 ID、置信度和边界框坐标。后续我们就可以拿着这个预测结果的 JSON 文件和我们真实标签的 JSON 文件通过 COCO Python API 去计算 mAP 指标。

有以下几点需要注意：

博主将 JSON 文件中的 image_id 保存为一个字符串，考虑到图片命名的差异性
博主将 JSON 文件中的 category_id 直接保存为类别标签，没有做转换
mAP 测试使用的 NMS_threshold = 0.65f，Conf_threshold = 0.001f 与 pytorch 保持一致
关于 mAP 的相关原理介绍可参考目标检测mAP计算以及coco评价标准

将源码修改好后，直接在终端执行如下指令即可：

make test_yolo_map

图解如下所示：

运行成功后在 workspace 文件夹下会生成 best.prediction.json 文件，该 JSON 文件中保存着 INT8 模型在验证集上的推理结果。

我们拿到了模型预测结果的 JSON 文件后，还需要拿到真实标签的 JSON 文件，但是现在我们只有验证集真实的 YOLO 标签文件，因此需要将 YOLO 标签转换为 JSON 文件，转换代码如下：(from chatGPT)

import os
import cv2
import json
import logging
import os.path as osp
from tqdm import tqdm
from functools import partial
from multiprocessing import Pool, cpu_count

def set_logging(name=None):
    rank = int(os.getenv('RANK', -1))
    logging.basicConfig(format="%(message)s", level=logging.INFO if (rank in (-1, 0)) else logging.WARNING)
    return logging.getLogger(name)

LOGGER = set_logging(__name__)

def process_img(image_filename, data_path, label_path):
    # Open the image file to get its size
    image_path = os.path.join(data_path, image_filename)
    img = cv2.imread(image_path)
    height, width = img.shape[:2]

    # Open the corresponding label file
    label_file = os.path.join(label_path, os.path.splitext(image_filename)[0] + ".txt")
    with open(label_file, "r") as file:
        lines = file.readlines()

    # Process the labels
    labels = []
    for line in lines:
        category, x, y, w, h = map(float, line.strip().split())
        labels.append((category, x, y, w, h))

    return image_filename, {"shape": (height, width), "labels": labels}

def get_img_info(data_path, label_path):
    LOGGER.info(f"Get img info")

    image_filenames = os.listdir(data_path)

    with Pool(cpu_count()) as p:
        results = list(tqdm(p.imap(partial(process_img, data_path=data_path, label_path=label_path), image_filenames), total=len(image_filenames)))

    img_info = {image_filename: info for image_filename, info in results}
    return img_info


def generate_coco_format_labels(img_info, class_names, save_path):
    # for evaluation with pycocotools
    dataset = {"categories": [], "annotations": [], "images": []}
    for i, class_name in enumerate(class_names):
        dataset["categories"].append(
            {"id": i, "name": class_name, "supercategory": ""}
        )

    ann_id = 0
    LOGGER.info(f"Convert to COCO format")
    for i, (img_path, info) in enumerate(tqdm(img_info.items())):
        labels = info["labels"] if info["labels"] else []
        img_id = osp.splitext(osp.basename(img_path))[0]
        img_h, img_w = info["shape"]
        dataset["images"].append(
            {
                "file_name": os.path.basename(img_path),
                "id": img_id,
                "width": img_w,
                "height": img_h,
            }
        )
        if labels:
            for label in labels:
                c, x, y, w, h = label[:5]
                # convert x,y,w,h to x1,y1,x2,y2
                x1 = (x - w / 2) * img_w
                y1 = (y - h / 2) * img_h
                x2 = (x + w / 2) * img_w
                y2 = (y + h / 2) * img_h
                # cls_id starts from 0
                cls_id = int(c)
                w = max(0, x2 - x1)
                h = max(0, y2 - y1)
                dataset["annotations"].append(
                    {
                        "area": h * w,
                        "bbox": [x1, y1, w, h],
                        "category_id": cls_id,
                        "id": ann_id,
                        "image_id": img_id,
                        "iscrowd": 0,
                        # mask
                        "segmentation": [],
                    }
                )
                ann_id += 1

    with open(save_path, "w") as f:
        json.dump(dataset, f)
        LOGGER.info(
            f"Convert to COCO format finished. Resutls saved in {save_path}"
        )


if __name__ == "__main__":
    
    # Define the paths
    data_path   = "/home/jarvis/Learn/Datasets/VOC_PTQ/images/val"
    label_path  = "/home/jarvis/Learn/Datasets/VOC_PTQ/labels/val"

    class_names = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus",
                   "car", "cat", "chair", "cow", "diningtable", "dog", "horse",
                   "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]  # 类别名称请务必与 YOLO 格式的标签对应
    save_path   = "./val.json"

    img_info = get_img_info(data_path, label_path)
    generate_coco_format_labels(img_info, class_names, save_path)

上述代码的功能是将 YOLO 格式的数据集（包括图像文件和对应的 .txt 标签文件）转换成 COCO JSON 格式的标注。转换后的数据包括一个 JSON 标签文件，JSON 标签文件中包含了每个图像的所有物体的类别和边界框信息。

你需要修改以下几项：

data_path：需要转换的图像文件路径
label_path：需要转换的 txt 标签文件路径
class_names：数据集的类别列表，请务必与 YOLO 标签的相对应
save_path：转换后 JSON 文件保存的路径
注意：以上路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

JSON 文件中目标框保存的格式是 [x，y，w，h] 四个变量，分别代表着经过归一化的左上角坐标和目标框宽高。

关于代码的分析可以参考：tensorRT模型性能测试

至此，两个 JSON 文件都准备好了，一个是模型推理的预测结果，一个是真实结果。拿到两个 JSON 文件后我们就可以进行 mAP 测试了，具体代码如下：

from pycocotools.coco import COCO
from pycocotools.cocoeval import COCOeval

# Run COCO mAP evaluation
# Reference: https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoEvalDemo.ipynb

annotations_path = "val.json"
results_file = "best.prediction.json"
cocoGt = COCO(annotation_file=annotations_path)
cocoDt = cocoGt.loadRes(results_file)
imgIds = sorted(cocoGt.getImgIds())
cocoEval = COCOeval(cocoGt, cocoDt, 'bbox')
cocoEval.params.imgIds = imgIds
cocoEval.evaluate()
cocoEval.accumulate()
cocoEval.summarize()

你需要修改以下几项：

annotations_path：真实标签的 JSON 文件路径
results_file：模型预测结果的 JSON 文件路径

执行后测试结果如下图所示：

我们将它与原始 pytorch 的模型放在一起进行对比下：

Model	Size	mAP^val 0.5:0.95	mAP^val 0.5	Params ^(M)	FLOPs ^(G)
YOLOv7-tiny	640	0.491	0.744	5.8	13.3
YOLOv7-tiny-INT8	640	0.346	0.562	-	-

可以看到相比于原始 pytorch 模型，PTQ 量化后的模型 mAP 下降了近 18 个点

那博主之前有测试过 YOLOv5 的 PTQ 量化，其 mAP 也就下降了近 6 个点，YOLOv7 的 PTQ 量化模型精度损失未免太严重了呀，是什么原因导致的呢？

经博主测试发现是由于校准图片数量的原因，1000 张校准图片能将 YOLOv5 量化得很好，但这并不适用于 YOLOv7，YOLOv7 的校准图片选取 10 张的校准结果也比 1000 张要好，具体细节可以查看 4.1 小节

OK！至此 YOLOv7 模型的 PTQ 量化到这里结束了，各位看官可以在自己的数据集测试下 PTQ 量化后模型的性能。

四、讨论

1. 校准图片数量

那可能有不少看官好奇为什么校准图片选择 1000 张呢？是由什么来决定的呢？

这小节我们就来看看校准图片数量对 PTQ 量化模型的影响，博主测试了在不同校准图片下量化的 PTQ 模型在同一个验证集上的 mAP，分别在训练集随机挑选了 10、50、100、500、600、700、800、900、1000、4013 张图片，其中 4013 张图片是整个训练集的数量。

测试结果如下表所示：

Model	Calib Data	mAP^val 0.5:0.95	mAP^val 0.5
YOLOv7-tiny-INT8	10	0.399	0.621
YOLOv7-tiny-INT8	50	0.464	0.699
YOLOv7-tiny-INT8	100	0.469	0.703
YOLOv7-tiny-INT8	500	0.471	0.703
YOLOv7-tiny-INT8	600	0.345	0.559
YOLOv7-tiny-INT8	700	0.471	0.703
YOLOv7-tiny-INT8	800	0.473	0.705
YOLOv7-tiny-INT8	900	0.347	0.562
YOLOv7-tiny-INT8	1000	0.346	0.562
YOLOv7-tiny-INT8	4013(all)	0.344	0.557

可视化图如下所示：

从表中的数据我们可以分析得到下面的一些结论：

1. 校准数据量与模型性能的关系：校准数据的数量对模型 PTQ 量化后的性能有明显的影响。特别是当校准数据从 10 增加到 500 时，模型的 mAP 明显增加，说明在这个区间内，增加校准数据可以有效提高模型的性能。

2. 最佳校准数据量：在这个测试中，当使用 800 张校准图片时，模型达到了最高点的 mAP（分别为 0.473 和 0.705）。这意味着并不是校准数据越多越好，需要找到一个适当的平衡点。

3. 校准数据过多可能导致性能下降：当校准数据从 800 增加到 900、100 或 4013 时，模型的性能反而有所下降。这可能是因为过多的校准数据可能引入了噪声，使得量化的过程过于复杂，从而降低了模型的性能。

4. 整个训练集并非最佳选择：尽管使用整个训练集（4013 张图片）进行校准可能看起来是一个直观的选择，但在这个测试中，它并没有提供最佳的性能。这可能意味着在实际应用中，只需要选择一个子集进行校准即可，无需使用整个训练集。

5. 初步校准数据的不足：当仅使用 10 张校准图片时，模型的性能也较低。这说明在实际应用中，如果只有有限的校准数据，可能需要考虑采集更多的数据以提高量化后的模型性能。

综上所述，选择合适的校准数据量是 PTQ 量化的一个重要步骤。不同的模型和应用场景可能需要不同的校准数据量。因此，为了得到最佳的量化性能，可能需要进行多次实验来确定最佳的校准数据量。

博主一般推荐校准图片的数量在 500~1000 张即可，没必要太多，当然也不能太少。

2. 不同精度模型对比

PTQ 量化的模型性能到底怎么样呢？与其它精度的模型相比有哪些优势又有哪些劣势呢？

这个小节我们就来看看不同精度的模型的性能对比，主要从 mAP 和速度两个方面衡量。博主测试了在同一个验证集上原始 pytorch 模型，FP32 模型，FP16 模型，INT8 模型的性能。

原始 pytorch 模型和 INT8 模型性能我们之前已经了解过了，下面我们来看看 FP32 模型和 FP16 模型的性能。

FP32模型：

图4-1 FP32模型速度测试

图4-2 FP32模型mAP测试

FP16模型：

图4-3 FP16模型速度测试

图4-4 FP16模型mAP测试

INT8模型：

图4-5 INT8模型速度测试

图4-6 INT8模型mAP测试(800张校准)

值得注意的是，关于速度的测试我们之前似乎并没有提到，它具体是如何测试的呢？

其实在 inference_and_performance 函数中就有关于速度相关的测试，主要说明如下：

1. 输入分辨率 640x640
2. batch_size = 1
3. 图像预处理 + 推理 + 后处理
4. CUDA-11.6，cuDNN-8.4.0，TensorRT-8.4.1.5
5. NVIDIA RTX3060
6. 测试次数，100 次取平均，去掉 warmup
7. 测试代码：src/application/app_yolo.cpp
8. 测试图像 6 张，位于 workspace/inference
- 分辨率分别为：810x1080，500x806，1024x684，550x676，1280x720，800x533
9. 测试方式，加载 6 张图后，以原图重复 100 次不停的塞进去。让模型经历完整的图像的预处理，后处理

测试结果如下表所示：

Model	Precision	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
YOLOv7-tiny.pt	-	0.491	0.744	-	-
YOLOv7-tiny-FP32	FP32	0.488	0.724	2.82	355.15
YOLOv7-tiny-FP16	FP16	0.489	0.725	1.26	792.23
YOLOv7-tiny-INT8	INT8	0.473	0.705	0.94	1066.55

可视化图如下所示：

从表中的数据我们可以分析得到下面的一些结论：

1. 精度与模型性能的关系

当我们从原始 pytorch 模型转到 FP32 模型时，正常来说应该基本是无损的，但是 mAP 掉了将近 2 个点左右，这并不符合我们的直觉。
mAP 差 2 个点的原因可能是在固定分辨率这件事上，tensorRT 将图片分辨率固定在 640x640 大小。还有就是 pytorch 实现的所有细节并未完全加入进来，这些细节可能有没有找到的部分。
FP32 模型和 FP16 模型的 mAP 几乎一样，没有任何精度的损失，这倒是符合我们的直觉

2. 速度与模型性能的关系

FP16 和 INT8 的 FPS 分别为 792.23 和 1066.55，远高于 FP32 的 355.15
INT8 模型是所有模型中最快的，达到了 1000 FPS 的速度，尽管其精度稍低。

3. 权衡速度与精度

FP32 提供了较好的精度，但速度较慢
FP16 提供了与 FP32 类似的精度，但速度提高了约 2.2 倍，是一个非常不错的选择。
INT8 提供了略低的精度，但速度却是最快的，比 FP32 快约 3 倍。

综上所述，在实际应用中，需要根据具体的需求权衡速度和精度。例如，对于实时应用，可能会选择 FP16 或 INT8 以获得更高的速度，尽管可能牺牲一些精度。而对于需要高精度的应用，可能会选择 FP32。

博主对比了同一张图片在不同精度模型下的推理效果，如下所示，让大家有个更直观的感受。

图4-7 car-FP32

图4-8 car-FP16

图4-9 car-INT8

3. YOLOv5-PTQ vs. YOLOv7-PTQ

最后我们当然是来对比下 YOLOv5-PTQ 量化后模型的性能和 YOLOv7-PTQ 量化后模型的性能哪个会更好，那其实两个模型训练用的数据集都是同一个啦，所以还是有可比性的

结果对比如下表所示：

Model	Precision	mAP^val 0.5:0.95	mAP^val 0.5	Elapsed Time/ms	FPS
YOLOv5s.pt	-	0.471	0.711	-	-
YOLOv7-tiny.pt	-	0.491	0.744	-	-
YOLOv5s-FP32	FP32	0.447	0.684	3.15	317.79
YOLOv7-tiny-FP32	FP32	0.488	0.724	2.82	355.15
YOLOv5s-FP16	FP16	0.448	0.683	1.34	748.93
YOLOv7-tiny-FP16	FP16	0.489	0.725	1.26	792.23
YOLOv5s-INT8	INT8	0.409	0.657	0.99	1008.93
YOLOv7-tiny-INT8	INT8	0.473	0.705	0.94	1066.55

可视化图如下：

从表中我们可以看到对博主当前的 VOC 数据集而言，YOLOv7-tiny 模型似乎碾压 YOLOv5s 模型呀，不论是 pytorch 模型的效果，还是 PTQ 量化后模型的推理速度和效果，YOLOv7-tiny 都比 YOLOv5s 要优秀不少

当然也不排除 YOLOv5s 训练过程中并没有完全收敛得到最佳的性能，因为博主只训练了 100 个 epoch，那具体的对比结果各位看官可以自行测试，博主这边只是简单分析下。

OK！YOLOv7-PTQ 量化的内容到这里就结束了，各位看官可以自行测试。

结语

本篇博客介绍了关于 yolov7 的 PTQ 量化以及部署流程，博主在这里只做了最基础的演示，如果有更多的需求需要各位看官自己去挖掘啦。下篇文章我们将会分享关于 yolov7 的 QAT 量化以及部署流程，感谢各位看到最后，创作不易，读后有收获的看官帮忙点个⭐️

下载链接

软件安装包下载链接【提取码:yolo】
源代码、权重、数据集下载链接【提取码:yolo】

参考

COCO Python API
tensorRT模型性能测试
Ubuntu20.04部署YOLOv5
YoloV5案例第一部分，导出ONNX
TensorRT量化第四课：PTQ与QAT
目标检测mAP计算以及coco评价标准
目标检测：PASCAL VOC 数据集简介
YoloV8的动态静态batch如何理解和使用
https://github.com/ultralytics/yolov5
https://github.com/shouxieai/tensorRT_Pro
利用Anaconda安装pytorch和paddle深度学习环境+pycharm安装—免额外安装CUDA和cudnn(适合小白的保姆级教学)

你可能感兴趣的:(量化,模型部署,模型量化,PTQ量化,模型部署,YOLOv7,目标检测)

挂车“瘦身”方式盘点，轻量化挂车桥最高能承重多少？掌上说车
挂车轻量化可以说是一个老生常谈的话题，尤其是在当前治超力度加大、计重收费政策实施的条件下，如何能在法定的范围内运输更多的货物成了车主们关心的问题，越来越多的车主在选购挂车或配件的时候，开始倾向于那些自重更轻的产品。一般情况下，挂车想要实现轻量化，常见的途径有以下几种：1、使用自重更轻的材料，比如用铝合金代替钢材，常见的像铝合金车身、铝合金变速箱、铝合金传动轴、铝合金油箱、铝合金轮辋等；2、车辆外观
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
智慧城管新突破：陌讯动态量化技术实现端侧模型压缩20倍 2501_92487735 目标跟踪人工智能计算机视觉算法目标检测视觉检测边缘计算
开篇痛点深夜暴雨中的违规占道经营检测误报率超60%，光照反射干扰导致传统YOLOv5召回率暴跌——这是某省会城市智慧城管项目的真实困境。当算法工程师面对复杂城市场景时，环境干扰、小目标密集、实时性要求构成三重技术难关。技术解析：陌讯自适应多模态架构传统单阶段检测器在雨天场景失效的核心原因，在于固定感受野难以适应尺度突变目标。陌讯算法引入动态梯度调制机制，通过特征金字塔的跨层权重自适应调整，显著提升
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
零基础学习性能测试第一章：性能需求分析试着性能测试学习数据库服务器性能测试零基础需求分析
目录**核心学习理念****模块1：理解性能需求分析的价值（1小时）****1.1为什么必须做需求分析？****1.2性能需求四要素**（附企业级模板）**模块2：四步挖掘性能需求（实战核心）****步骤1：识别关键业务场景（2小时）****步骤2：量化业务负载（3小时）****步骤3：定义性能指标（2小时）****步骤4：明确环境与数据要求（1小时）****模块3：输出需求文档（企业级模板）**
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
国产开源！TinyPiXOS国产自主轻量级移动嵌入式设备桌面操作系统！运用纯C/C++从底层重构出超轻量级的整体图形技术栈，打造一款独立可控、轻量且高度定制化的嵌入式桌面操作系统方案。 TinyPiXOS开发者联盟 TinyPiXOS 开源 c语言 c++系统架构 linux 嵌入式硬件 arm开发
目录TinyPiXOS——国产自主轻量级移动嵌入式设备桌面操作系统开源工程系统优势系统特点为什么要造“轮子”？我们做了什么？核心模块自主研发GUI桌面系统交互设计和开发适用场景关于自有内核的开发规划关于多窗口操作的说明如何参与项目如何学习TinyPiXOS关注我们TinyPiXOS——国产自主轻量级移动嵌入式设备桌面操作系统TinyPiXOS以开源Linux为基础，通过创新的内核级轻量化改造与精简
WSL介绍 bigleek 树莓派pico开发 linux
WSL（WindowsSubsystemforLinux）是微软为Windows系统开发的一项功能，允许用户在Windows上直接运行原生的Linux环境，而无需传统的虚拟机或双系统。它通过轻量化技术将Linux工具、命令行和应用程序无缝集成到Windows中，是开发者、运维人员和Linux学习者的高效工具。一、WSL的核心特点1.无需虚拟机：直接在Windows中运行Linux二进制文件（如Ba
【农业模型】GPT地学领域应用、AquaCrop、R贝叶斯生态、Copula函数、DSSAT、APSIM、WOFOST、DNDC、CERRES、SWACRO、RZWQM、POTATO、SOLANUM weixin_贾遥感数据与作物模型地理遥感生态模型 ChatGPT4/DeepSeek gpt r语言无人机经验分享
农业模型依据研究对象分为农业生物模型、农业环境模型、农业技术模型、农业经济模型作物模型，即作物生长模拟模型(或称作物生长模型)，是从系统科学的角度，基于作物生理过程机制，将气候、土壤、作物品种和管理措施等对作物生长的影响因素作为一个整体系统的数值模拟系统。能够以特定时间步长对作物在单点尺度上生长发育的生物学参数以及作物产量进行动态模拟，定量化研究环境因子以及田间管理措施对作物生长发育的影响。通用型
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
全平台兼容+3倍加载提速：GISBox将重新定义三维可视化标准 GISBox GISBox GISBox 纹理压缩数字孪生智慧城市 3DTiles 三维可视化 BIM
在智慧城市、数字孪生、BIM工程等领域的三维可视化浪潮中，模型加载卡顿、存储成本高、跨平台兼容差已成为行业痛点。无论是Web端的实时渲染，还是移动端的户外作业，高精度模型与低性能设备之间的矛盾，始终制约着项目的落地效率。而GISBox的纹理压缩功能，正是破解这一难题的“金钥匙”——它通过算法革新与硬件加速，让超大规模三维模型“瘦身”80%，加载速度提升3倍，真正实现“轻量化、高性能、全兼容”的三维
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
RabitQ 量化：既省内存又提性能大禹智库《向量数据库指南》《实战AI智能体》人工智能 AI自动化大禹智库 AI智能体向量数据库
突破高维向量内存瓶颈：MlivusCloudRaBitQ量化技术的工程实践与调优指南作为大禹智库高级研究员，拥有三十余年向量数据库与AI系统架构经验的我发现，在当今多模态AI落地的核心场景中，高维向量引发的内存资源消耗问题已成为制约系统规模化部署的“卡脖子”因素。特别是在大规模图像检索、个性化推荐系统和语义搜索引擎中，动辄数亿级别的向量数据需要实时处理，传统全精度索引方式会让内存资源消耗呈指数级增
vmware workstation虚拟机转为hyper-v简要步骤小小ken hyper-v vmware workstation windows
背景：我一直使用vmwareworkstation(17.0)中的虚拟机作为自己的开发机，因为虚拟机的快照功能非常适合折腾各种软件配置，一旦出现误操作，可以及时还原回去。最近一年，我都在折腾hyper-v，发现hyper-v的性能(使用感觉，无进行具体的量化测试)相当的好，而vmware上的开发机总感觉比较卡(虽然我的虚拟机配置也不低，e5-2666v3分了10核，16G内存，nvme虚拟磁盘)，
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
ADC模块在电路中的存在形式与主控(MCU)的关系、我是男生。单片机嵌入式硬件
四、ADC模块在电路中的存在形式与主控(MCU)的关系这是电子工程师必须彻底理解的要点！ADC的存在形式主要有三种：独立ADC芯片(DiscreteADCIC)：存在形式：一个单独的物理芯片(如TIADS1248,ADIAD7799)。与MCU关系：ADC芯片完成模拟信号采样、保持、量化、编码的全部工作。MCU通过数字通信接口(SPI,I2C,Parallel)向ADC发送控制命令(启动转换、选择
三轴云台之姿态调节技术篇
三轴云台的姿态调节技术通过机械解耦、传感器融合、智能控制算法及动态补偿机制协同实现，能在复杂运动环境下保持高精度稳定，其核心技术与实现方式如下：一、机械结构优化：三轴解耦与轻量化设计三轴独立驱动解耦俯仰轴（Pitch）、横滚轴（Roll）、航向轴（Yaw）通过无刷电机+编码器+驱动器模块化设计实现运动解耦，避免轴间干扰。应用场景：无人机急转弯时，航向轴优先响应姿态变化，俯仰轴同步补偿相机倾斜，横滚
三轴云台之高精度控制技术篇 SKYDROID云卓小助手网络人工智能单片机嵌入式硬件安全
三轴云台的高精度控制技术通过多维度协同设计，实现了对负载（如相机）的毫米级稳定控制，其核心在于机械结构、传感器、算法与智能控制系统的深度融合。一、机械结构设计：三轴联动与轻量化三轴云台通过横滚轴（Roll）、俯仰轴（Pitch）、航向轴（Yaw）的三维联动，实现负载在三维空间中的稳定控制。其机械设计需兼顾刚性与轻量化：解耦设计：三轴独立驱动，避免轴间干扰。例如，无人机急转弯时，航向轴优先响应姿态变
BEV+Transformer Monkey PilotX 自动驾驶 transformer 深度学习人工智能
在自动驾驶系统中，BEV（Bird’sEyeView）+Transformer主要应用于感知与环境建图（Perception&SceneUnderstanding）环节，尤其是在多传感器融合、目标检测、语义分割、轨迹预测等任务中。在自动驾驶中的关键应用场景应用环节BEV+Transformer的作用感知（Perception）多摄像头图像融合成BEV视角，进行目标检测、语义分割预测（Predict
底分型量化选股公式如何编写？掌握这些要点轻松选出潜力股
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
金融量化交易如何精准把握市场趋势？这些策略你不能错过！股票程序化交易接口量化交易股票API接口 Python股票量化交易金融金融量化交易市场趋势技术分析策略基本面分析策略股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>金融量化交易把握市场趋势的基础认知金融量化交易旨在通过数学模型和计算机算法来执行交易决策。市场趋势反映了市场价格的总体走向，量化交易与市场趋势紧密相连。量化交易借助数据和算法去捕捉市场趋势信号，以决定买卖时机。准确把握市场趋势能为量化
目标检测中的标签分配算法总结北京地铁1号线目标检测与图像处理人工智能
目标检测中的标签分配算法是训练过程中的一个核心环节，它决定了如何将标注好的真实目标框分配给模型预测出来的候选框（AnchorBoxes或Points），从而为这些候选框提供监督信号（正样本、负样本、忽略样本）。它的质量直接影响模型的学习效率和最终性能。简单来说，标签分配要解决的关键问题是：“哪些预测框应该负责学习哪些真实目标？”一、为什么标签分配如此重要？1.定义学习目标：它直接告诉模型哪些预测应
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &