爱听歌的周童鞋

tensorRT模型性能测试

- 前言
- 1. 模型训练
- - 1.1 模型
  - 1.2 数据集
  - 1.3 xml2yolo
  - 1.4 yolo2json
  - 1.5 json2yolo
  - 1.6 训练
- 2. TRT模型转换
- - 2.1 YOLOv5 ONNX导出
  - 2.2 YOLOv6 ONNX导出
  - 2.3 YOLOv5 engine生成
  - 2.4 YOLOv6 engine生成
- 3. TRT模型测试
- - 3.1 YOLOv5 engine mAP测试
  - 3.2 YOLOv5 engine 速度测试
  - 3.3 YOLOv6 engine mAP测试
  - 3.4 YOLOv6 engine 速度测试
- 4. 讨论
- 结语
- 下载链接
- 参考

前言

最近有个需求，需要测试下 tensorRT 模型的性能，最近看了杜老师 tensorRT_Pro 这个 repo 中的方法，简单的实现了下，故此做个记录下方便下次查看。此次对 tensorRT 模型的测试主要包括 mAP 测试和速度测试，具体细节，大家自行查阅相关代码，这里只简单分享下博主在测试时实现的流程。

测试环境：NVIDIA RTX 3060，Ubuntu20.04，CUDA-11.6，cuDNN-8.4.0，tensorRT-8.4.1，OpenCV-4.6.0，protouf-3.11.4，pytorch-1.12.0

先说下测试大致的一个流程：

mAP 测试：模型训练 -> 导出 onnx -> 生成 FP32/FP16 模型 -> FP32/FP16/INT8 推理预测 -> 将结果保存为 JSON 文件 -> COCO Python API 测试 mAP

速度测试：模型训练 -> 导出 onnx -> 生成 FP32/FP16 模型 -> FP32/FP16/INT8 推理预测 -> warmup -> 循环推理计算平均推理时间

若有问题欢迎各位看官批评指正。OK，让我们开始吧！！！

1. 模型训练

首先我们需要利用 pytorch 深度学习框架来训练两个模型

1.1 模型

博主这次选择测试了两个模型：YOLOv5m.pt 和 YOLOv6s.pt，直接选用 master 分支进行训练，测试代码均下载于 2023/7/22 日，下面是两个项目的地址：

https://github.com/ultralytics/yolov5
https://github.com/meituan/YOLOv6

1.2 数据集

博主没找到一个比较有意思的目标检测数据集，还是拿 VOC 来测试吧。

训练集：(VOC2007train + VOC2007val) * 80% = 4013

验证集：(VOC2007train + VOC2007val) * 20% = 998

测试集：无

关于VOC数据集的相关介绍和下载可参考目标检测：PASCAL VOC 数据集简介

1.3 xml2yolo

拿到手的 VOC 数据集是 XML 格式的与 YOLO 格式要求的 txt 标签不符合，需要进行转换，转换代码如下：(from chatGPT)

import os
import cv2
import xml.etree.ElementTree as ET
import shutil
from multiprocessing import Pool, cpu_count
from tqdm import tqdm
import numpy as np
from functools import partial

def process_xml(xml_filename, img_path, xml_path, img_save_path, label_save_path, class_dict, ratio):
    # 解析 xml 文件
    xml_file_path = os.path.join(xml_path, xml_filename)
    tree = ET.parse(xml_file_path)
    root = tree.getroot()

    # 获取图像的宽度和高度
    img_filename = os.path.splitext(xml_filename)[0] + ".jpg"
    img = cv2.imread(os.path.join(img_path, img_filename))
    height, width = img.shape[:2]

    # 随机决定当前图像和标签是属于训练集还是验证集
    subset = "train" if np.random.random() < ratio else "val"

    # 打开对应的标签文件进行写入
    label_file = os.path.join(label_save_path, subset, os.path.splitext(xml_filename)[0] + ".txt")
    with open(label_file, "w") as file:
        for obj in root.iter('object'):
            # 获取类别名并转换为类别ID
            class_name = obj.find('name').text
            class_id = class_dict[class_name]

            # 获取并处理边界框的坐标
            xmlbox = obj.find('bndbox')
            x1 = float(xmlbox.find('xmin').text)
            y1 = float(xmlbox.find('ymin').text)
            x2 = float(xmlbox.find('xmax').text)
            y2 = float(xmlbox.find('ymax').text)

            # 计算中心点坐标和宽高，并归一化
            x_center = (x1 + x2) / 2 / width
            y_center = (y1 + y2) / 2 / height
            w = (x2 - x1) / width
            h = (y2 - y1) / height

            # 写入文件
            file.write(f"{class_id} {x_center} {y_center} {w} {h}\n")

    # 将图像文件复制到对应的训练集或验证集目录
    shutil.copy(os.path.join(img_path, img_filename), os.path.join(img_save_path, subset, img_filename))

def check_and_create_dir(path):
    # 检查并创建 train 和 val 目录
    for subset in ['train', 'val']:
        if not os.path.exists(os.path.join(path, subset)):
            os.makedirs(os.path.join(path, subset))

if __name__ == "__main__":
    # 1. 定义路径和类别字典，不要使用中文路径
    img_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\JPEGImages"
    xml_path = "D:\\Data\\PASCAL_VOC\\VOCdevkit\\VOC2007\\Annotations"
    img_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\images"
    label_save_path = "D:\\Data\\PASCAL_VOC\\dataset\\labels"

    class_dict = {
    "aeroplane": 0,
    "bicycle": 1,
    "bird": 2,
    "boat": 3,
    "bottle": 4,
    "bus": 5,
    "car": 6,
    "cat": 7,
    "chair": 8,
    "cow": 9,
    "diningtable": 10,
    "dog": 11,
    "horse": 12,
    "motorbike": 13,
    "person": 14,
    "pottedplant": 15,
    "sheep": 16,
    "sofa": 17,
    "train": 18,
    "tvmonitor": 19
}

    train_val_ratio = 0.8  # 2. 定义训练集和验证集的比例

    # 检查并创建必要的目录
    check_and_create_dir(img_save_path)
    check_and_create_dir(label_save_path)

    # 获取 xml 文件列表
    xml_filenames = os.listdir(xml_path)

    # 创建进程池并执行
    with Pool(cpu_count()) as p:
        list(tqdm(p.imap(partial(process_xml, img_path=img_path, xml_path=xml_path, img_save_path=img_save_path, label_save_path=label_save_path, 
                                 class_dict=class_dict, ratio=train_val_ratio), xml_filenames), total=len(xml_filenames)))

上述代码的功能是将 PASCAL VOC 格式的数据集（包括 JPEG 图像和 XML 格式的标注文件）转换成 YOLO 需要的数据格式。同时会将转换后的数据集按照 train_val_ratio 这个变量提供的比例随机划分为训练集和验证集，图像数据存储在 images/train 和 images/val 下面，标签文件存储在 labels/train labels/val 下面。

下面是这段代码的详细解释：(form chatGPT)

1. process_xml 函数：此函数处理单个 XML 文件，将其转换为 YOLO 格式的标签文件，并将对应的图像文件复制到正确的文件夹。它首先读取 XML 文件并解析其中的信息，包括图像尺寸、物体类别、物体的边界框坐标。然后，它根据一个随机数将数据分配给训练集或验证集。接着，它会创建一个新的 YOLO 格式的标签文件，并将物体的类别和归一化的边界框信息（中心点坐标和宽高）写入文件。最后，它会将原始的图像文件复制到对应的训练集或验证集的文件夹。

2. check_and_create_dir 函数：此函数检查并创建所需的目录。如果目录不存在，它会创建新的目录。

3. if __name__ == "__main__" 部分：这部分代码定义了文件和目录路径，类别字典，训练集和验证集的比例。然后，它调用 check_and_create_dir 函数来创建所需的目录。接着，它获取 XML 文件列表，创建一个进程池，并使用多进程的方式调用 process_xml 函数来处理所有的 XML 文件。

注意，这段代码使用了多进程来加速处理过程，因此它会尽可能利用所有可用的 CPU 核心。而 tqdm 库则用于显示处理进度。

这段代码假设你的数据集是 PASCAL VOC 格式的，也就是说你的标注文件是 XML 格式的，每个文件包含一个或多个 object 标签，每个 object 标签中包含一个 name 标签（表示类别名称）和一个 bndbox 标签（包含边界框的 xmin、ymin、xmax、ymax 坐标）。

你需要修改以下几项：

img_path：存储着需要转换的 XML 标签文件对应的图像文件路径
xml_path：存储着需要转换的 XML 标签文件路径
img_save_path：YOLO 标签文件对应的图像文件保存路径
label_save_path：YOLO 标签文件保存路径
class_dict：数据集的类别字典
train_val_ratio：训练集和验证集划分的比例
注意：以上提供路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

XML 文件中目标框保存的格式是 [xmin, ymin, xmax, ymax] 代表着未经归一化的左上角和右下角坐标

txt 文件中目标框保存的格式是每一行代表一个目标框的信息，每一行共包含 [label_id，x_center，y_center，w，h] 五个变量，分布代表着标签id，经过归一化后的中心点坐标以及目标框宽高

1.4 yolo2json

在进行 mAP 测试的时候，由于使用的是 COCO Python API，因此必须遵循它的规则，要将 YOLO 格式的标签文件转换为 JSON 文件，以下是转换代码：(form chatGPT and https://github.com/meituan/YOLOv6/blob/main/yolov6/data/datasets.py)

import os
import cv2
import json
import logging
import os.path as osp
from tqdm import tqdm
from functools import partial
from multiprocessing import Pool, cpu_count

def set_logging(name=None):
    rank = int(os.getenv('RANK', -1))
    logging.basicConfig(format="%(message)s", level=logging.INFO if (rank in (-1, 0)) else logging.WARNING)
    return logging.getLogger(name)

LOGGER = set_logging(__name__)

def process_img(image_filename, data_path, label_path):
    # Open the image file to get its size
    image_path = os.path.join(data_path, image_filename)
    img = cv2.imread(image_path)
    height, width = img.shape[:2]

    # Open the corresponding label file
    label_file = os.path.join(label_path, os.path.splitext(image_filename)[0] + ".txt")
    with open(label_file, "r") as file:
        lines = file.readlines()

    # Process the labels
    labels = []
    for line in lines:
        category, x, y, w, h = map(float, line.strip().split())
        labels.append((category, x, y, w, h))

    return image_filename, {"shape": (height, width), "labels": labels}

def get_img_info(data_path, label_path):
    LOGGER.info(f"Get img info")

    image_filenames = os.listdir(data_path)

    with Pool(cpu_count()) as p:
        results = list(tqdm(p.imap(partial(process_img, data_path=data_path, label_path=label_path), image_filenames), total=len(image_filenames)))

    img_info = {image_filename: info for image_filename, info in results}
    return img_info


def generate_coco_format_labels(img_info, class_names, save_path):
    # for evaluation with pycocotools
    dataset = {"categories": [], "annotations": [], "images": []}
    for i, class_name in enumerate(class_names):
        dataset["categories"].append(
            {"id": i, "name": class_name, "supercategory": ""}
        )

    ann_id = 0
    LOGGER.info(f"Convert to COCO format")
    for i, (img_path, info) in enumerate(tqdm(img_info.items())):
        labels = info["labels"] if info["labels"] else []
        img_id = osp.splitext(osp.basename(img_path))[0]
        img_h, img_w = info["shape"]
        dataset["images"].append(
            {
                "file_name": os.path.basename(img_path),
                "id": img_id,
                "width": img_w,
                "height": img_h,
            }
        )
        if labels:
            for label in labels:
                c, x, y, w, h = label[:5]
                # convert x,y,w,h to x1,y1,x2,y2
                x1 = (x - w / 2) * img_w
                y1 = (y - h / 2) * img_h
                x2 = (x + w / 2) * img_w
                y2 = (y + h / 2) * img_h
                # cls_id starts from 0
                cls_id = int(c)
                w = max(0, x2 - x1)
                h = max(0, y2 - y1)
                dataset["annotations"].append(
                    {
                        "area": h * w,
                        "bbox": [x1, y1, w, h],
                        "category_id": cls_id,
                        "id": ann_id,
                        "image_id": img_id,
                        "iscrowd": 0,
                        # mask
                        "segmentation": [],
                    }
                )
                ann_id += 1

    with open(save_path, "w") as f:
        json.dump(dataset, f)
        LOGGER.info(
            f"Convert to COCO format finished. Resutls saved in {save_path}"
        )


if __name__ == "__main__":
    
    # Define the paths
    data_path   = "/home/jarvis/dataset/Dayval/data"
    label_path  = "/home/jarvis/dataset/Dayval/labels"

    class_names = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus",
                   "car", "cat", "chair", "cow", "diningtable", "dog", "horse",
                   "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]  # 类别名称请务必与 YOLO 格式的标签对应
    save_path   = "./val.json"

    img_info = get_img_info(data_path, label_path)
    generate_coco_format_labels(img_info, class_names, save_path)

上述代码的功能是将 YOLO 格式的数据集（包括图像文件和对应的 .txt 标签文件）转换成 COCO JSON 格式的标注。转换后的数据包括一个 JSON 标签文件，JSON 标签文件中包含了每个图像的所有物体的类别和边界框信息。

下面是这段代码的详细解释：(from chatGPT)

**1. ** process_img 函数：此函数处理单个图像文件，获取图像的尺寸，然后打开对应的标签文件，读取并处理其中的标签信息，包括物体类别和边界框信息（中心点坐标和宽高）。处理后的标签信息被存储在一个列表中，函数返回图像文件名和对应的图像信息（包括尺寸和标签）。

2. get_img_info 函数：此函数获取图像数据路径和标签路径，然后读取路径下的所有图像文件名，创建一个进程池，使用多进程的方式调用process_img函数来处理所有的图像文件。函数返回一个字典，键是图像文件名，值是对应的图像信息。

3. generate_coco_format_labels 函数：此函数接收图像信息字典、类别名称列表和保存路径，然后将图像信息转换成COCO JSON格式的标注。转换过程包括创建类别信息，处理每个图像的信息（包括图像基本信息和标签信息），并将处理后的信息添加到数据集中。最后，将数据集保存到指定的路径。

4. if __name__ == "__main__" 部分：这部分代码定义了文件和目录路径、类别名称列表和保存路径，然后调用 get_img_info 函数获取图像信息，接着调用 generate_coco_format_labels 函数将图像信息转换成 COCO JSON 格式的标注并保存。

请注意，这段代码使用了多进程来加速处理过程，因此它会尽可能利用所有可用的 CPU 核心。而 tqdm 库则用于显示处理进度。

这段代码假设你的数据集是 YOLO 格式的，也就是说你的标签文件是 .txt 格式的，每个文件包含一行或多行数据，每行数据包括物体的类别和归一化的边界框信息（中心点坐标和宽高）。

你需要修改以下几项：

data_path：存储着需要转换的 YOLO 标签文件对应的图像文件路径
label_path：存储着需要转换的 YOLO 标签文件路径
class_names：数据集的类别列表，请务必与 YOLO 格式的标签对应
save_path：JSON 文件保存的路径
注意：以上提供路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

JSON 文件中目标框保存的格式是 [left, top, w, h] 代表着经过归一化的左上角坐标和目标框宽高

1.5 json2yolo

有时候还要需求将 JSON 格式的标签转换为 YOLO 格式，转换代码如下：(from chatGPT)

import os
import json
import cv2
from tqdm import tqdm
from collections import defaultdict
from multiprocessing import Pool, cpu_count

def process_image(image_info):
    # Get the image's width and height
    img = cv2.imread(os.path.join(data_path, image_info['file_name']))
    height, width = img.shape[:2]

    # Open the corresponding label file for writing
    with open(os.path.join(label_path, str(image_info['id']) + ".txt"), "w") as file:
        for ann in annotations_dict[image_info['id']]:
            # Get the coordinates of the bounding box
            x, y, w, h = ann['bbox']

            # Convert the bounding box format from [top left x, top left y, width, height] to [center x, center y, width, height]
            x_center = x + w / 2
            y_center = y + h / 2

            # Normalize the coordinates by the width and height of the image
            x_center /= width
            y_center /= height
            w /= width
            h /= height

            # Ensure that the coordinates are between 0 and 1
            x_center = max(0, min(1, x_center))
            y_center = max(0, min(1, y_center))
            w = max(0, min(1, w))
            h = max(0, min(1, h))

            # Write the label to the file
            # file.write(f"{ann['category_id']} {x_center} {y_center} {w} {h}\n")
            # 使用 round 函数将坐标四舍五入到六位小数
            file.write(f"{ann['category_id']} {round(x_center, 6)} {round(y_center, 6)} {round(w, 6)} {round(h, 6)}\n")

if __name__ == "__main__":

    # Define the paths
    coco_path = "/home/jarvis/project/tools/val.json"
    data_path = "/home/jarvis/project/data"
    label_path = "/home/jarvis/project/new_label"

    # Load the COCO data
    with open(coco_path, "r") as file:
        coco_data = json.load(file)

    # Get the annotations and group them by image ID
    annotations_dict = defaultdict(list)
    for ann in coco_data['annotations']:
        annotations_dict[ann['image_id']].append(ann)

    # Get the list of images
    image_infos = coco_data['images']

    # Create a multiprocessing Pool
    with Pool(cpu_count()) as p:
        list(tqdm(p.imap(process_image, image_infos), total=len(image_infos)))

上述代码的功能是将 COCO JSON 格式的标注转换成 YOLO 需要的数据格式。转换后的数据包括图像文件和对应的 .txt 标签文件，标签文件中包含了每个物体的类别和边界框信息。

下面是这段代码的详细解释：(from chatGPT)

1. process_image 函数：此函数处理单个图像信息，获取图像的宽度和高度，然后打开对应的 YOLO 格式的标签文件进行写入。它循环遍历与当前图像 ID 对应的所有标注，获取并处理边界框的坐标，将边界框格式从 [左上角x，左上角y，宽度，高度] 转换为 [中心x，中心y，宽度，高度]，并对坐标进行归一化。然后，它确保坐标在0和1之间，最后将物体的类别和归一化的边界框信息（中心点坐标和宽高）写入文件。

2. if __name__ == "__main__" 部分：这部分代码定义了文件和目录路径，然后加载COCO JSON格式的标注，并将标注按照图像 ID 分组。接着，它获取图像信息列表，创建一个进程池，使用多进程的方式调用 process_image 函数来处理所有的图像信息。

请注意，这段代码使用了多进程来加速处理过程，因此它会尽可能利用所有可用的 CPU 核心。而 tqdm 库则用于显示处理进度。

这段代码假设你的数据集是 COCO JSON 格式的，也就是说你的标注文件是 .json 格式的，每个文件包含一组图像信息和一组标注信息，每个标注信息包括一个图像 ID、一个类别 ID 和一个边界框坐标（左上角x，左上角y，宽度，高度）。

你需要修改以下几项：

coco_path：COCO JSON 标签文件路径
data_path：COCO JSON 标签文件对应的图像路径
label_path：转换后 YOLO 标签文件保存的路径
注意：以上提供路径都不要包含中文，Windows 下路径记得使用 \\ 或者 / 防止转义

1.6 训练

关于 YOLOv5 模型的训练参考 Ubuntu20.04部署YOLOv5

关于 YOLOv6 模型的训练参考 https://github.com/meituan/YOLOv6/blob/main/docs/Train_custom_data.md

博主环境：Ubuntu20.04；NVIDIA RTX3060；CUDA11.6；PyTorch1.12

YOLOv5 训练指令：

python train.py --weights=./yolov5m.pt --cfg=./models/yolov5m.yaml --data=./data/VOC.yaml --epochs=100 --batch-size=16

YOLOv6 训练指令

python tools/train.py --batch 16 --conf configs/yolov6s_finetune.py --data data/dataset.yaml --fuse_ab --device 0 --epochs 100 --check-images --check-labels

YOLOv5 训练效果如下图：

图1-1 YOLOv5m.pt-torch

YOLOv6 训练效果如下图：

图1-2 YOLOv6s.pt-torch

torch 的模型性能如下：

Model	Size	mAP^val 0.5:0.95	mAP^val 0.5	Params ^(M)	FLOPs ^(G)
YOLOv5m	640	53.5	75.3	21.2	49.0
YOLOv6s	640	61.3	81.7	18.5	45.3

2. TRT模型转换

pytorch 的模型已经训练好了，接下来我们就需要把 pytorch 训练好的模型导出为 onnx，然后让 tensorRT 通过 onnx 解析器去解析生成对应的 engine 文件。

值得注意的是本次测试过程中导出的 onnx 均为静态 batch，且 batch = 1

我们分别测试 FP32、FP16 以及 INT8 的性能

2.1 YOLOv5 ONNX导出

YOLOv5 模型的导出可参考 Ubuntu20.04部署YOLOv5

静态 batch 的 onnx 模型导出指令如下：

python export.py --weights=./runs/train/exp/weights/best.pt --include=onnx --opset=11

2.2 YOLOv6 ONNX导出

YOLOv6 模型的导出可参考 https://github.com/meituan/YOLOv6/tree/main/deploy/TensorRT

静态 batch 的 onnx 模型导出指令如下：

python ./deploy/ONNX/export_onnx.py --weights runs/train/exp/weights/best_ckpt.pt --img 640 --batch 1 --simplify

2.3 YOLOv5 engine生成

将导出的 onnx 利用 tensorRT 生成对应的 engine

YOLOv5 engine 的生成可参考 Ubuntu20.04部署YOLOv5

具体使用的是 tensorRT_Pro 这个 repo，简单修改下源码和 Makefile 文件后便可以构建 engine 模型了，这里不再赘述，更多细节请参考相关博文

模型构建如下图所示：

图2-1 YOLOv5m engine构建

INT8 模型的构建由于使用的是 PTQ 量化，因此还需要准备校准数据集来计算量化参数，这次直接从训练集中随机抽取了 100 张图片进行校准。

关于 PTQ 量化的更多细节可参考：TensoRT量化第四课：PTQ与QAT

2.4 YOLOv6 engine生成

将导出的 onnx 利用 tensorRT 生成对应的 engine

YOLOv6 engine 的生成可参考 https://github.com/meituan/YOLOv6/tree/main/deploy/TensorRT

利用 tensorRT 的 Python API 生成 engine，具体指令如下：

python ./deploy/TensorRT/onnx_to_trt.py --model ./best_ckpt.onnx --dtype fp32/fp16 --verbose

出现如下问题：

图2-2 YOLOv6s engine构建失败

最后发现问题是 tensorrt 包默认安装的版本太高，为 8.6.1 版本，与我的环境不兼容，卸载后重新安装了一个低版本的就可以了，安装指令如下：

pip install tensorrt==8.5.1.7

模型构建如下图所示：

图2-3 YOLOv6s engine构建

INT8 模型构建指令如下：

python ./deploy/TensorRT/onnx_to_trt.py --model ./best_ckpt.onnx --dtype int8 --calib-img-dir ./calib_data

YOLOv6 的 INT8 量化方式也是采取的 PTQ 量化，但是它规定了最少校准的图片需要 1000 张，因此博主从训练集中随机抽取了 1000 张作为样本图片。

3. TRT模型测试

TRT 模型拿到手后就可以愉快的进行测试了

本次 mAP 的测试和速度测试方法均参考自 tensorRT_Pro

3.1 YOLOv5 engine mAP测试

杜老师在 tensorRT_Pro 这个 repo 中提供了对应模型性能测试的代码，这次也主要是围绕杜老师提供的代码进行相关测试学习

mAP 测试代码地址：https://github.com/shouxieai/tensorRT_Pro/blob/main/src/application/test_yolo_map.cpp

代码需要我们提供一个图片文件夹路径，同时提供一个 TRT model，程序会利用 TRT model 在整个验证集上进行推理，我们会把模型推理的结果保存为 JSON 格式的文件，后续我们就可以拿着这个预测结果的 JSON 文件和我们真实标签的 JSON 文件通过 COCO Python API 去计算 mAP 指标.

mAP 测试代码如下：

#include 
#include 
#include 
#include 
#include "app_yolo/yolo.hpp"
#include 
#include 

using namespace std;

static const char *cocolabels[] = {"aeroplane",   "bicycle", "bird",   "boat",       "bottle",
                                  "bus",         "car",     "cat",    "chair",      "cow",
                                  "diningtable", "dog",     "horse",  "motorbike",  "person",
                                  "pottedplant",  "sheep",  "sofa",   "train",      "tvmonitor"};

bool requires(const char* name);

struct BoxLabel{
    int label;
    float cx, cy, width, height;
    float confidence;
};

struct ImageItem{
    string image_file;
    Yolo::BoxArray detections;
};

vector<ImageItem> scan_dataset(const string& images_root){

    vector<ImageItem> output;
    auto image_files = iLogger::find_files(images_root, "*.jpg");

    for(int i = 0; i < image_files.size(); ++i){
        auto& image_file = image_files[i];

        if(!iLogger::exists(image_file)){
            INFOW("Not found: %s", image_file.c_str());
            continue;
        }

        ImageItem item;
        item.image_file = image_file;
        output.emplace_back(item);
    }
    return output;
}

static void inference(vector<ImageItem>& images, int deviceid, const string& engine_file, TRT::Mode mode, Yolo::Type type, const string& model_name){

    INFO("===================== test Yolov5 INT8 best.sim ==================================");

    auto engine = Yolo::create_infer(
        engine_file, type, deviceid, 0.001f, 0.65f,
        Yolo::NMSMethod::CPU, 10000
    );
    if(engine == nullptr){
        INFOE("Engine is nullptr");
        return;
    }

    int nimages = images.size();
    vector<shared_future<Yolo::BoxArray>> image_results(nimages);
    for(int i = 0; i < nimages; ++i){
        if(i % 100 == 0){
            INFO("Commit %d / %d", i+1, nimages);
        }
        image_results[i] = engine->commit(cv::imread(images[i].image_file));
    }
    
    for(int i = 0; i < nimages; ++i)
        images[i].detections = image_results[i].get();
}

bool save_to_json(const vector<ImageItem>& images, const string& file){

    Json::Value predictions(Json::arrayValue);
    for(int i = 0; i < images.size(); ++i){
        auto& image = images[i];
        auto file_name = iLogger::file_name(image.image_file, false);
        string image_id = file_name;

        auto& boxes = image.detections;
        for(auto& box : boxes){
            Json::Value jitem;
            jitem["image_id"] = image_id;
            jitem["category_id"] = box.class_label;
            jitem["score"] = box.confidence;

            auto& bbox = jitem["bbox"];
            bbox.append(box.left);
            bbox.append(box.top);
            bbox.append(box.right - box.left);
            bbox.append(box.bottom - box.top);
            predictions.append(jitem);
        }
    }
    return iLogger::save_file(file, predictions.toStyledString());
}

int test_yolo_map(){
    
    /*
    结论：
    1. YoloV5在tensorRT下和pytorch下，只要输入一样，输出的差距最大值是1e-3
    2. YoloV5-6.0的mAP，官方代码跑下来是[email protected]:.95 = 0.367, [email protected] = 0.554，与官方声称的有差距
    3. 这里的tensorRT版本测试的精度为：[email protected]:.95 = 0.357, [email protected] = 0.539，与pytorch结果有差距
    4. cv2.imread与cv::imread，在操作jpeg图像时，在我这里测试读出的图像值不同，最大差距有19。而png图像不会有这个问题
        若想完全一致，请用png图像
    5. 预处理部分，若采用letterbox的方式做预处理，由于tensorRT这里是固定640x640大小，测试采用letterbox并把多余部分
        设置为0. 其推理结果与pytorch相近，但是依旧有差别
    6. 采用warpAffine和letterbox两种方式的预处理结果，在mAP上没有太大变化（小数点后三位差）
    7. mAP差一个点的原因可能在固定分辨率这件事上，还有是pytorch实现的所有细节并非完全加入进来。这些细节可能有没有
        找到的部分
    */

    auto images = scan_dataset("/home/jarvis/Learn/MarkDown/Blob/tensorRT_MT/dataset/images/val");
    INFO("images.size = %d", images.size());

    string model = "best.sim.INT8";
    inference(images, 0, "best.sim.INT8.trtmodel", TRT::Mode::INT8, Yolo::Type::V5, "best.sim.INT8");
    save_to_json(images, model + ".prediction.json");
    return 0;
}

上述代码的大体流程如下：

首先，程序扫描指定目录下的图像文件），将每个图像的文件路径保存到一个 ImageItem 实例中，形成一个图像列表。
接着，程序加载预先构建的 TensorRT 引擎，并使用该引擎对图像列表中的每个图像进行目标检测。
检测的结果（检测到的物体边界框和类别标签）被保存在对应的 ImageItem 实例中。
最后，程序将所有图像的检测结果存储到一个 JSON 文件中，每个检测到的物体都被序列化为 JSON 格式的信息（包括图像 ID、类别 ID、置信度和边界框坐标）。

主要有以下几点值得注意：

JSON 文件中 image_id 的保存为一个字符串，不再是整数，因为图片命名不一定是数值
JSON 文件中 category_id 的保存直接就是类别的标签，无需转换
mAP 测试使用的 NMS_threshold = 0.65f，Conf_threshold = 0.001f
关于 mAP 的相关原理介绍可参考目标检测mAP计算以及coco评价标准

YOLOv5m engine 模型推理测试如下图所示：

图3-1 YOLOv5m FP32 engine推理

图3-2 YOLOv5m FP16 engine推理

图3-3 YOLOv5m INT8 engine推理

经过 TRT model 的推理后就可以拿到预测结果的 JSON 文件了，除此之外我们还需要验证集真实标签的 JSON 文件，此时可以利用 1.4 小节的 yolo2json 将验证集的 YOLO 格式标签转换成 JSON 格式。

两个 JSON 文件都准备好了之后，我们就可以调用 COCO Python API 来进行 mAP 的测试了，具体代码如下：

from pycocotools.coco import COCO
from pycocotools.cocoeval import COCOeval

# Run COCO mAP evaluation
# Reference: https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoEvalDemo.ipynb

annotations_path = "/home/jarvis/project/YOLOv6-3/tools/val.json"
results_file = "../result/prediction.json"
cocoGt = COCO(annotation_file=annotations_path)
cocoDt = cocoGt.loadRes(results_file)
imgIds = sorted(cocoGt.getImgIds())
cocoEval = COCOeval(cocoGt, cocoDt, 'bbox')
cocoEval.params.imgIds = imgIds
cocoEval.evaluate()
cocoEval.accumulate()
cocoEval.summarize()

你需要修改：

annotations_path：验证集真实标签的 JSON 文件路径
results_file：TRT model 预测结果的 JSON 文件路径

YOLOv5m engien 的 mAP 测试结果如下图：

图3-4 YOLOv5m FP32 mAP

图3-5 YOLOv5m FP16 mAP

图3-6 YOLOv5m INT8 mAP

可以看到相比于原始 pytorch 的 mAP 指标而言（mAP50-95=0.535，mAP50=0.753），FP32 模型下降了 3 个点，一般来说 FP32 的 mAP 应该和 pytorch 的 mAP 接近，差了将近 3 个点可能是在预处理固定分辨率这件事情上，tensorRT_Pro 为了完成 warpAffine 加速，将图像固定在 640x640 的分辨率上。

FP16 倒是没啥问题，相比于 FP32 无掉点。不过 INT8 掉点就有点大了，掉了将近 20 个点，后续博主在测试 YOLOv6s 的时候发现 INT8 也没有这么离谱吖，同样是 PTQ 量化，后面发现可能是标定图的数量缘故，在 YOLOv5m INT8 量化的时候校准图只准备了 100 张，而 YOLOv6s INT8 量化的时候则准备了 1000 张，因此博主把这 1000 张图片也拿过来给 YOLOv5m 校准了，测试结果如下：

图3-7 YOLOv5m INT8 mAP(1000张校准图)

哇，可以看到效果得到了非常大的改善，相比于 100 张校准图涨了将近 14 个点，看来标定图片的数量对结果影响还是很大的。

总结下 YOLOv5m 的 mAP 测试结果，如下表所示：

模型名称	分辨率	精度	mAP^val 0.5:0.95	mAP^val 0.5
YOLOv5m	640	-	53.5	75.3
YOLOv5m	640	FP32	50.5	72.5
YOLOv5m	640	FP16	50.6	72.6
YOLOv5m	640	INT8(100)	35.4	55.3
YOLOv5m	640	INT8(1000)	46.9	69.3

我找了一幅检测效果图，来对比看看不同精度下 TRT model 的检测效果：

图3-8 YOLOv5m FP32效果图

图3-9 YOLOv5m FP16效果图

图3-10 YOLOv5m INT8效果图

图3-11 YOLOv5m INT8(1000)效果图

3.2 YOLOv5 engine 速度测试

杜老师在 tensorRT_Pro 这个 repo 中提供了对应模型速度测试的代码，这次也主要是围绕杜老师提供的代码进行相关测试学习

速度测试代码地址：https://github.com/shouxieai/tensorRT_Pro/blob/main/src/application/app_yolo.cpp

关于 app_yolo.cpp 速度测试的说明：(from 杜老师)

1. 输入分辨率 640x640

2. batch size = 1

3. 图像预处理 + 推理 + 后处理

4. CUDA11.6，cuDNN8.4.0，TensorRT8.4.1.5

5. NVIDIA RTX3060

6. 测试次数，100 次取平均，去掉 warmup

7. 测试图像，6张。目录 workspace/inference

分辨率分别为：810x1080，500x806，1024x684，550x676，1280x720，800x533

8. 测试方式，加载 6 张图后，以原图重复 100 次不停塞进去。让模型经历完整的图像的预处理，后处理

YOLOv5 engine 模型速度测试结果如下图所示：

图3-12 YOLOv5m FP32速度测试

图3-13 YOLOv5m FP16速度测试

图3-14 YOLOv5m INT8速度测试

总结下 YOLOv5m 的速度测试结果，如下表所示：

模型名称	分辨率	精度	耗时/ms	帧率/FPS
YOLOv5m	640	FP32	7.50	133.37
YOLOv5m	640	FP16	2.67	374.81
YOLOv5m	640	INT8	1.66	602.05

3.3 YOLOv6 engine mAP测试

YOLOv6 的 mAP 测试就是参考杜老师实现的，无非是把 YOLOv6 engine 推理的结果保存为 JSON，调用 COCO Python API 测试，这次我们自己来学习杜老师构建 YOLOv6 engine 测试项目，创建一个文件夹，目录结构如下所示：

YOLOv6_test
├─CMakeLists.txt
│
├─src
│  │  logging.h
│  │  main.cpp
│  │
│  └─common
│          ilogger.cpp
│          ilogger.hpp
│          json.cpp
│          json.hpp
│
└─workspace

src 文件夹下存放着所有源代码，其中 logging.h 和 main.cpp 来自于 https://github.com/meituan/YOLOv6/tree/main/deploy/TensorRT 的 logging.h 和 yolov6.cpp

logging.h 文件无修改，而 main.cpp 经过了修改，具体修改内容下面会提到

common 文件夹下存放着一些通用的工具文件主要用于日志输出和 JSON 文件的解析，其代码来自于 https://github.com/shouxieai/tensorRT_Pro/tree/main/src/tensorRT/common

workspace 文件夹下可用于存放编译好的可执行文件，以及模型文件，测试图片文件，保存的 JSON 文件等等

其中 CMakeLists.txt 文件用于编译，其内容如下：

cmake_minimum_required(VERSION 2.6)
project(pro)

add_definitions(-std=c++11)

option(CUDA_USE_STATIC_CUDA_RUNTIME OFF)
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_BUILD_TYPE Debug)
set(EXECUTABLE_OUTPUT_PATH ${PROJECT_SOURCE_DIR}/workspace)
# add_definitions("-Wall -g")

set(OpenCV_DIR "/usr/local/")
set(CUDA_TOOLKIT_ROOT_DIR "/usr/local/cuda-11.6")
set(TENSORRT_DIR "/opt/TensorRT-8.4.1.5/")
find_package(CUDA REQUIRED)

# include and link dirs of cuda and tensorrt, you need adapt them if yours are different
include_directories(
    ${PROJECT_SOURCE_DIR}/src
    ${PROJECT_SOURCE_DIR}/src/common
    ${CUDA_TOOLKIT_ROOT_DIR}/include
    ${TENSORRT_DIR}/include
    ${OpenCV_DIR}/include/opencv4)
    

link_directories(
    ${CUDA_TOOLKIT_ROOT_DIR}/lib64
    ${TENSORRT_DIR}/lib
    ${OpenCV_DIR}/lib)

set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11 -Wall -Ofast -Wfatal-errors -pthread -D_MWAITXINTRIN_H_INCLUDED")
file(GLOB_RECURSE cpp_srcs ${PROJECT_SOURCE_DIR}/src/*.cpp)

add_executable(pro ${cpp_srcs})

target_link_libraries(pro pthread)
target_link_libraries(pro nvinfer)
target_link_libraries(pro cudart cudnn)
target_link_libraries(pro opencv_core opencv_imgproc opencv_highgui opencv_videoio opencv_imgcodecs)

add_definitions(-O2 -pthread)

你需要修改的是：

12行：OpenCV 的路径指定
13行：CUDA 的路径指定
14行：TensorRT 的路径指定

首先 main.cpp 中你需要修改下检测的类别数目以及输入和输出的名字：

const int num_class = 20;
static const int INPUT_W = 640;
static const int INPUT_H = 640;
const char* INPUT_BLOB_NAME = "images";
const char* OUTPUT_BLOB_NAME = "outputs";
static const char* class_names[] = {
        "aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow",
        "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"
    };

然后模仿上面 YOLOv5m engine 测试代码创建一个结构体用于存放图片路径和预测的结果：

struct Object
{
    cv::Rect_<float> rect;
    int label;
    float prob;
};

struct ImageItem{
    string image_file;
    std::vector<Object> detections;
};

然后定义 scan_dataset 函数用于获取所有需要测试的图片路径：

vector<ImageItem> scan_dataset(const string& images_root){

    vector<ImageItem> output;
    auto image_files = iLogger::find_files(images_root, "*.jpg");

    for(int i = 0; i < image_files.size(); ++i){
        auto& image_file = image_files[i];

        if(!iLogger::exists(image_file)){
            INFOW("Not found: %s", image_file.c_str());
            continue;
        }

        ImageItem item;
        item.image_file = image_file;
        output.emplace_back(item);
    }
    return output;
}

接下来就是 detect_images 函数用于模型的推理：

void detect_images(vector<ImageItem>& images, nvinfer1::IExecutionContext& context, const int& output_size){

    static float* prob = new float[output_size];

    int nimages = images.size();
    for(int i = 0; i < nimages; ++i){
        if(i % 100 == 0){
            INFO("Commit %d / %d", i + 1, nimages);
        }

        // 预处理
        auto image = images[i].image_file;
        cv::Mat img = cv::imread(image);
        int img_w = img.cols;
        int img_h = img.rows;
        cv::Mat pr_img = static_resize(img);
        // INFO("blob image");

        float* blob = blobFromImage(pr_img);
        float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));

        // 推理
        doInference(context, blob, prob, output_size, pr_img.size());

        // 后处理
        decode_outputs(prob, output_size, images[i].detections, scale, img_w, img_h);

        // draw_objects(img, images[i].detections, image);
    }
}

最后通过 save_to_json 函数将上面推理的结果保存到 json 文件中：

bool save_to_json(const vector<ImageItem>& images, const string& file){

    INFO("begin save to json.");
    Json::Value predictions(Json::arrayValue);
    for(int i = 0; i < images.size(); ++i){
        auto& image = images[i];
        auto file_name = iLogger::file_name(image.image_file, false);
        // int image_id = atoi(file_name.c_str());

        auto& boxes = image.detections;
        for(auto& box : boxes){
            Json::Value jitem;
            jitem["image_id"] = file_name;
            jitem["category_id"] = box.label;
            
            auto& bbox = jitem["bbox"];
            bbox.append(roundFloat(box.rect.x, 3));
            bbox.append(roundFloat(box.rect.y, 3));
            bbox.append(roundFloat(box.rect.width, 3));
            bbox.append(roundFloat(box.rect.height,3));
            
            jitem["score"] = roundFloat(box.prob, 5);
            predictions.append(jitem);            
        }
    }

    return iLogger::save_file(file, predictions.toStyledString());
}

完整的 main.cpp 的示例代码如下：

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include "NvInfer.h"
#include "cuda_runtime_api.h"
#include "logging.h"
#include "common/json.hpp"
#include "common/ilogger.hpp"
#include 

#define CHECK(status) \
    do\
    {\
        auto ret = (status);\
        if (ret != 0)\
        {\
            std::cerr << "Cuda failure: " << ret << std::endl;\
            abort();\
        }\
    } while (0)

#define DEVICE 0  // GPU id
#define NMS_THRESH 0.65
#define BBOX_CONF_THRESH 0.001

using namespace nvinfer1;
using namespace std;

// stuff we know about the network and the input/output blobs
const int num_class = 20;
static const int INPUT_W = 640;
static const int INPUT_H = 640;     // 384 or 640
const char* INPUT_BLOB_NAME = "images";
const char* OUTPUT_BLOB_NAME = "outputs";
static const char* class_names[] = {"aeroplane",   "bicycle", "bird",   "boat",       "bottle",
                                  "bus",         "car",     "cat",    "chair",      "cow",
                                  "diningtable", "dog",     "horse",  "motorbike",  "person",
                                  "pottedplant",  "sheep",  "sofa",   "train",      "tvmonitor"};

static Logger gLogger;

float roundFloat(float value, int decimalPlaces) {
    float multiplier = std::pow(10, decimalPlaces);
    float roundedValue = std::round(value * multiplier) / multiplier;
    return roundedValue;
}

cv::Mat static_resize(cv::Mat& img) {
    float r = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));
    int unpad_w = r * img.cols;
    int unpad_h = r * img.rows;
    cv::Mat re(unpad_h, unpad_w, CV_8UC3);
    cv::resize(img, re, re.size());
    cv::Mat out(INPUT_H, INPUT_W, CV_8UC3, cv::Scalar(114, 114, 114));
    re.copyTo(out(cv::Rect(0, 0, re.cols, re.rows)));
    return out;
}

struct Object
{
    cv::Rect_<float> rect;
    int label;
    float prob;
};


static inline float intersection_area(const Object& a, const Object& b)
{
    cv::Rect_<float> inter = a.rect & b.rect;
    return inter.area();
}

static void qsort_descent_inplace(std::vector<Object>& faceobjects, int left, int right)
{
    int i = left;
    int j = right;
    float p = faceobjects[(left + right) / 2].prob;

    while (i <= j)
    {
        while (faceobjects[i].prob > p)
            i++;

        while (faceobjects[j].prob < p)
            j--;

        if (i <= j)
        {
            // swap
            std::swap(faceobjects[i], faceobjects[j]);

            i++;
            j--;
        }
    }

    #pragma omp parallel sections
    {
        #pragma omp section
        {
            if (left < j) qsort_descent_inplace(faceobjects, left, j);
        }
        #pragma omp section
        {
            if (i < right) qsort_descent_inplace(faceobjects, i, right);
        }
    }
}

static void qsort_descent_inplace(std::vector<Object>& objects)
{
    if (objects.empty())
        return;

    qsort_descent_inplace(objects, 0, objects.size() - 1);
}

static void nms_sorted_bboxes(const std::vector<Object>& faceobjects, std::vector<int>& picked, float nms_threshold)
{
    picked.clear();

    const int n = faceobjects.size();

    std::vector<float> areas(n);
    for (int i = 0; i < n; i++)
    {
        areas[i] = faceobjects[i].rect.area();
    }

    for (int i = 0; i < n; i++)
    {
        const Object& a = faceobjects[i];

        int keep = 1;
        for (int j = 0; j < (int)picked.size(); j++)
        {
            const Object& b = faceobjects[picked[j]];

            // intersection over union
            float inter_area = intersection_area(a, b);
            float union_area = areas[i] + areas[picked[j]] - inter_area;
            // float IoU = inter_area / union_area
            if (inter_area / union_area > nms_threshold)
                keep = 0;
        }

        if (keep)
            picked.push_back(i);
    }
}


static void generate_yolo_proposals(float* feat_blob, int output_size, float prob_threshold, std::vector<Object>& objects)
{
    auto dets = output_size / (num_class + 5);
    for (int boxs_idx = 0; boxs_idx < dets; boxs_idx++)
    {
        const int basic_pos = boxs_idx *(num_class + 5);
        float x_center = feat_blob[basic_pos+0];
        float y_center = feat_blob[basic_pos+1];
        float w = feat_blob[basic_pos+2];
        float h = feat_blob[basic_pos+3];
        float x0 = x_center - w * 0.5f;
        float y0 = y_center - h * 0.5f;
        float box_objectness = feat_blob[basic_pos+4];
        // std::cout<<*feat_blob<
        for (int class_idx = 0; class_idx < num_class; class_idx++)
        {
            float box_cls_score = feat_blob[basic_pos + 5 + class_idx];
            float box_prob = box_objectness * box_cls_score;
            if (box_prob > prob_threshold)
            {
                Object obj;
                obj.rect.x = x0;
                obj.rect.y = y0;
                obj.rect.width = w;
                obj.rect.height = h;
                obj.label = class_idx;
                obj.prob = box_prob;

                objects.push_back(obj);
            }

        } // class loop
    }

}

float* blobFromImage(cv::Mat& img){
    cv::cvtColor(img, img, cv::COLOR_BGR2RGB);

    float* blob = new float[img.total()*3];
    int channels = 3;
    int img_h = img.rows;
    int img_w = img.cols;
    for (size_t c = 0; c < channels; c++)
    {
        for (size_t  h = 0; h < img_h; h++)
        {
            for (size_t w = 0; w < img_w; w++)
            {
                blob[c * img_w * img_h + h * img_w + w] =
                    (((float)img.at<cv::Vec3b>(h, w)[c]) / 255.0f);
            }
        }
    }
    return blob;
}


static void decode_outputs(float* prob, int output_size, std::vector<Object>& objects, float scale, const int img_w, const int img_h) {
        std::vector<Object> proposals;
        generate_yolo_proposals(prob, output_size, BBOX_CONF_THRESH, proposals);
        // INFO("num of boxes before nms: %d", proposals.size());

        qsort_descent_inplace(proposals);

        std::vector<int> picked;
        nms_sorted_bboxes(proposals, picked, NMS_THRESH);

        int count = picked.size();
        
        // INFO("num of boxes: %d", count);

        // INFO("conf_thresh =  %.2f, nms_thresh = %.2f", BBOX_CONF_THRESH, NMS_THRESH);
        objects.resize(count);
        for (int i = 0; i < count; i++)
        {
            objects[i] = proposals[picked[i]];

            // adjust offset to original unpadded
            float x0 = (objects[i].rect.x) / scale;
            float y0 = (objects[i].rect.y) / scale;
            float x1 = (objects[i].rect.x + objects[i].rect.width) / scale;
            float y1 = (objects[i].rect.y + objects[i].rect.height) / scale;

            // clip
            x0 = std::max(std::min(x0, (float)(img_w - 1)), 0.f);
            y0 = std::max(std::min(y0, (float)(img_h - 1)), 0.f);
            x1 = std::max(std::min(x1, (float)(img_w - 1)), 0.f);
            y1 = std::max(std::min(y1, (float)(img_h - 1)), 0.f);

            objects[i].rect.x = x0;
            objects[i].rect.y = y0;
            objects[i].rect.width = x1 - x0;
            objects[i].rect.height = y1 - y0;
        }
}

const float color_list[80][3] =
{
    {0.000, 0.447, 0.741},
    {0.850, 0.325, 0.098},
    {0.929, 0.694, 0.125},
    {0.494, 0.184, 0.556},
    {0.466, 0.674, 0.188},
    {0.301, 0.745, 0.933},
    {0.635, 0.078, 0.184},
    {0.300, 0.300, 0.300},
    {0.600, 0.600, 0.600},
    {1.000, 0.000, 0.000},
    {1.000, 0.500, 0.000},
    {0.749, 0.749, 0.000},
    {0.000, 1.000, 0.000},
    {0.000, 0.000, 1.000},
    {0.667, 0.000, 1.000},
    {0.333, 0.333, 0.000},
    {0.333, 0.667, 0.000},
    {0.333, 1.000, 0.000},
    {0.667, 0.333, 0.000},
    {0.667, 0.667, 0.000},
    {0.667, 1.000, 0.000},
    {1.000, 0.333, 0.000},
    {1.000, 0.667, 0.000},
    {1.000, 1.000, 0.000},
    {0.000, 0.333, 0.500},
    {0.000, 0.667, 0.500},
    {0.000, 1.000, 0.500},
    {0.333, 0.000, 0.500},
    {0.333, 0.333, 0.500},
    {0.333, 0.667, 0.500},
    {0.333, 1.000, 0.500},
    {0.667, 0.000, 0.500},
    {0.667, 0.333, 0.500},
    {0.667, 0.667, 0.500},
    {0.667, 1.000, 0.500},
    {1.000, 0.000, 0.500},
    {1.000, 0.333, 0.500},
    {1.000, 0.667, 0.500},
    {1.000, 1.000, 0.500},
    {0.000, 0.333, 1.000},
    {0.000, 0.667, 1.000},
    {0.000, 1.000, 1.000},
    {0.333, 0.000, 1.000},
    {0.333, 0.333, 1.000},
    {0.333, 0.667, 1.000},
    {0.333, 1.000, 1.000},
    {0.667, 0.000, 1.000},
    {0.667, 0.333, 1.000},
    {0.667, 0.667, 1.000},
    {0.667, 1.000, 1.000},
    {1.000, 0.000, 1.000},
    {1.000, 0.333, 1.000},
    {1.000, 0.667, 1.000},
    {0.333, 0.000, 0.000},
    {0.500, 0.000, 0.000},
    {0.667, 0.000, 0.000},
    {0.833, 0.000, 0.000},
    {1.000, 0.000, 0.000},
    {0.000, 0.167, 0.000},
    {0.000, 0.333, 0.000},
    {0.000, 0.500, 0.000},
    {0.000, 0.667, 0.000},
    {0.000, 0.833, 0.000},
    {0.000, 1.000, 0.000},
    {0.000, 0.000, 0.167},
    {0.000, 0.000, 0.333},
    {0.000, 0.000, 0.500},
    {0.000, 0.000, 0.667},
    {0.000, 0.000, 0.833},
    {0.000, 0.000, 1.000},
    {0.000, 0.000, 0.000},
    {0.143, 0.143, 0.143},
    {0.286, 0.286, 0.286},
    {0.429, 0.429, 0.429},
    {0.571, 0.571, 0.571},
    {0.714, 0.714, 0.714},
    {0.857, 0.857, 0.857},
    {0.000, 0.447, 0.741},
    {0.314, 0.717, 0.741},
    {0.50, 0.5, 0}
};


static void draw_objects(const cv::Mat& bgr, const std::vector<Object>& objects, std::string f)
{

    cv::Mat image = bgr.clone();

    for (size_t i = 0; i < objects.size(); i++)
    {
        const Object& obj = objects[i];

        fprintf(stderr, "%d = %.5f at %.2f %.2f %.2f x %.2f\n", obj.label, obj.prob,
                obj.rect.x, obj.rect.y, obj.rect.width, obj.rect.height);

        cv::Scalar color = cv::Scalar(color_list[obj.label][0], color_list[obj.label][1], color_list[obj.label][2]);
        float c_mean = cv::mean(color)[0];
        cv::Scalar txt_color;
        if (c_mean > 0.5){
            txt_color = cv::Scalar(0, 0, 0);
        }else{
            txt_color = cv::Scalar(255, 255, 255);
        }

        cv::rectangle(image, obj.rect, color * 255, 2);

        char text[256];
        sprintf(text, "%s %.1f%%", class_names[obj.label], obj.prob * 100);

        int baseLine = 0;
        cv::Size label_size = cv::getTextSize(text, cv::FONT_HERSHEY_SIMPLEX, 0.4, 1, &baseLine);

        cv::Scalar txt_bk_color = color * 0.7 * 255;

        int x = obj.rect.x;
        int y = obj.rect.y + 1;
        //int y = obj.rect.y - label_size.height - baseLine;
        if (y > image.rows)
            y = image.rows;
        //if (x + label_size.width > image.cols)
            //x = image.cols - label_size.width;

        cv::rectangle(image, cv::Rect(cv::Point(x, y), cv::Size(label_size.width, label_size.height + baseLine)),
                      txt_bk_color, -1);

        cv::putText(image, text, cv::Point(x, y + label_size.height),
                    cv::FONT_HERSHEY_SIMPLEX, 0.4, txt_color, 1);
    }

    cv::imwrite("result.jpg", image);
    fprintf(stderr, "save vis file\n");
    /* cv::imshow("image", image); */
    /* cv::waitKey(0); */
}


void doInference(IExecutionContext& context, float* input, float* output, const int output_size, cv::Size input_shape) {
    const ICudaEngine& engine = context.getEngine();

    // Pointers to input and output device buffers to pass to engine.
    // Engine requires exactly IEngine::getNbBindings() number of buffers.
    assert(engine.getNbBindings() == 2);
    void* buffers[2];

    // In order to bind the buffers, we need to know the names of the input and output tensors.
    // Note that indices are guaranteed to be less than IEngine::getNbBindings()
    const int inputIndex = engine.getBindingIndex(INPUT_BLOB_NAME);

    assert(engine.getBindingDataType(inputIndex) == nvinfer1::DataType::kFLOAT);
    const int outputIndex = engine.getBindingIndex(OUTPUT_BLOB_NAME);
    assert(engine.getBindingDataType(outputIndex) == nvinfer1::DataType::kFLOAT);
    // int mBatchSize = engine.getMaxBatchSize();

    // Create GPU buffers on device
    CHECK(cudaMalloc(&buffers[inputIndex], 3 * input_shape.height * input_shape.width * sizeof(float)));
    CHECK(cudaMalloc(&buffers[outputIndex], output_size*sizeof(float)));

    // Create stream
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));

    // DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host
    CHECK(cudaMemcpyAsync(buffers[inputIndex], input, 3 * input_shape.height * input_shape.width * sizeof(float), cudaMemcpyHostToDevice, stream));
    // context.enqueue(1, buffers, stream, nullptr);
    context.enqueueV2(buffers, stream, nullptr);

    CHECK(cudaMemcpyAsync(output, buffers[outputIndex], output_size * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);

    // Release stream and buffers
    cudaStreamDestroy(stream);
    CHECK(cudaFree(buffers[inputIndex]));
    CHECK(cudaFree(buffers[outputIndex]));
}


struct ImageItem{
    string image_file;
    std::vector<Object> detections;
};

vector<ImageItem> scan_dataset(const string& images_root){

    vector<ImageItem> output;
    auto image_files = iLogger::find_files(images_root, "*.jpg");

    for(int i = 0; i < image_files.size(); ++i){
        auto& image_file = image_files[i];

        if(!iLogger::exists(image_file)){
            INFOW("Not found: %s", image_file.c_str());
            continue;
        }

        ImageItem item;
        item.image_file = image_file;
        output.emplace_back(item);
    }
    return output;
}


void detect_images(vector<ImageItem>& images, nvinfer1::IExecutionContext& context, const int& output_size){

    static float* prob = new float[output_size];

    int nimages = images.size();
    for(int i = 0; i < nimages; ++i){
        if(i % 2 == 0){
            INFO("Commit %d / %d", i + 1, nimages);
        }

        // 预处理
        auto image = images[i].image_file;
        cv::Mat img = cv::imread(image);
        int img_w = img.cols;
        int img_h = img.rows;
        cv::Mat pr_img = static_resize(img);
        // INFO("blob image");

        float* blob = blobFromImage(pr_img);
        float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));

        // 推理
        doInference(context, blob, prob, output_size, pr_img.size());

        // 后处理
        decode_outputs(prob, output_size, images[i].detections, scale, img_w, img_h);

        // draw_objects(img, images[i].detections, image);

    }
    
}

bool save_to_json(const vector<ImageItem>& images, const string& file){

    INFO("begin save to json.");
    Json::Value predictions(Json::arrayValue);
    for(int i = 0; i < images.size(); ++i){
        auto& image = images[i];
        auto file_name = iLogger::file_name(image.image_file, false);
        // int image_id = atoi(file_name.c_str());

        auto& boxes = image.detections;
        for(auto& box : boxes){
            Json::Value jitem;
            jitem["image_id"] = file_name;
            jitem["category_id"] = box.label;
            
            auto& bbox = jitem["bbox"];
            bbox.append(roundFloat(box.rect.x, 3));
            bbox.append(roundFloat(box.rect.y, 3));
            bbox.append(roundFloat(box.rect.width, 3));
            bbox.append(roundFloat(box.rect.height,3));
            
            jitem["score"] = roundFloat(box.prob, 5);
            predictions.append(jitem);            
        }
    }

    return iLogger::save_file(file, predictions.toStyledString());
}

// ./pro best_640x640.trt -i imgs/xxx.jpg

void speed_test(nvinfer1::IExecutionContext& context, const int& output_size, const string& engine_file){
    
    auto files = iLogger::find_files("imgs", "*.jpg;*.jpeg;*.png;*.gif;*.tif");
    
    vector<cv::Mat> images;
    for(int i = 0; i < files.size(); ++i){
        auto image = cv::imread(files[i]);
        images.emplace_back(image);
    }
    
    static float* prob = new float[output_size];
    std::vector<Object> objects;

    // warm up
    for(int i = 0; i < 5; ++i){
        for(int j = 0; j < images.size(); ++j){
            cv::Mat img = images[j];
            int img_w = img.cols;
            int img_h = img.rows;
            float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));

            cv::Mat pr_img = static_resize(img);
            float* blob = blobFromImage(pr_img);
            
            doInference(context, blob, prob, output_size, pr_img.size());

            decode_outputs(prob, output_size, objects, scale, img_w, img_h);

            // objects.clear();
        }
    }

    INFO("warm up done!");

    
    float count = 0;
    const int ntest = 10;

    for(int i = 0; i < ntest; ++i){
        for(int j = 0; j < images.size(); ++j){

            cv::Mat img = images[j];
            int img_w = img.cols;
            int img_h = img.rows;
            float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));
            
            cv::Mat pr_img = static_resize(img);
            float* blob = blobFromImage(pr_img);
            
            auto begin_timer = iLogger::timestamp_now_float();

            doInference(context, blob, prob, output_size, pr_img.size());

            count += (iLogger::timestamp_now_float() - begin_timer);

            decode_outputs(prob, output_size, objects, scale, img_w, img_h);

            // objects.clear();
        }
    }

    float inference_average_time = count / ntest / images.size();

    INFO("%s average: %.2f ms / image, FPS = %.2f", engine_file.c_str(), inference_average_time, 1000 / inference_average_time);
    
}


int main(int argc, char** argv) {
    cudaSetDevice(DEVICE);
    // create a model using the API directly and serialize it to a stream
    char *trtModelStream{nullptr};
    size_t size{0};
    const std::string engine_file_path = "./best_ckpt-int8-128-6-minmax.trt" ;  // best_384x640.trt or best_640x640.trt
    std::ifstream file(engine_file_path, std::ios::binary);
    if (file.good()) {
        file.seekg(0, file.end);
        size = file.tellg();
        file.seekg(0, file.beg);
        trtModelStream = new char[size];
        assert(trtModelStream);
        file.read(trtModelStream, size);
        file.close();
    }

    IRuntime* runtime = createInferRuntime(gLogger);
    assert(runtime != nullptr);
    ICudaEngine* engine = runtime->deserializeCudaEngine(trtModelStream, size);
    assert(engine != nullptr);
    IExecutionContext* context = engine->createExecutionContext();
    assert(context != nullptr);
    delete[] trtModelStream;
    auto out_dims = engine->getBindingDimensions(1);
    auto output_size = 1;
    for(int j=0;j<out_dims.nbDims;j++) {
        output_size *= out_dims.d[j];
    }

    // 获取模型中所有绑定（输入和输出）的数量
    int numBindings = engine->getNbBindings();
    // 遍历所有绑定，并打印其名称和形状大小
    for (int i = 0; i < numBindings; ++i){
        std::string bingdingName   = engine->getBindingName(i);
        nvinfer1::Dims bindingDims = engine->getBindingDimensions(i);

        INFO("Binding Name: %s", bingdingName.c_str());
        std::cout << "Binding Shape: (";
        for (int j = 0; j < bindingDims.nbDims; j++) {
            std::cout << bindingDims.d[j];
            if (j < bindingDims.nbDims - 1) {
                std::cout << ", ";
            }
        }
        std::cout << ")" << std::endl;        
    }
    INFO("INPUT_H = %d, engine_file = %s", INPUT_H, engine_file_path.c_str());
    

    // === speed test ===
    // INFO("begin speed test...");
    // speed_test(*context, output_size, engine_file_path);
    // INFO("speed test finised!!!");


    // === mAP test ===
    auto images = scan_dataset("/home/jarvis/Learn/MarkDown/Blob/tensorRT_MT/dataset/images/val");
    INFO("images.size = %d", images.size());
    detect_images(images, *context, output_size);
    save_to_json(images, "./v6_FP32.json");
    INFO("save done.");

    context->destroy();
    engine->destroy();
    runtime->destroy();
    return 0;
}

上述代码中 mAP 测试和 YOLOv5m 一致，detect_images 函数用于对输入图像进行推理和检测，将检测结果存储在 ImageItem 对象中。save_to_json 函数将检测结果以 JSON 格式保存到文件中。整体流程是，遍历图像集合，对每张图像进行预处理、推理和后处理得到检测结果，并将结果保存为 JSON 文件，以便后续的 mAP 计算和评估。

主要有以下几点值得注意：

JSON 文件中 image_id 的保存为一个字符串，不再是整数，因为图片命名不一定是数值
JSON 文件中 category_id 的保存直接就是类别的标签，无需转换
mAP 测试使用的 NMS_threshold = 0.65f，Conf_threshold = 0.001f
关于 mAP 的相关原理介绍可参考目标检测mAP计算以及coco评价标准
完整的代码可通过 here【pwd:yolo】下载

YOLOv6s engine 模型推理测试如下图所示：

图3-15 YOLOv6s FP32 engine推理

图3-16 YOLOv6s FP16 engine推理

图3-17 YOLOv6s INT8 engine推理

同理拿到 YOLOv6s TRT model 预测的 JSON 文件后，我们还需要真实标签的 JSON 文件，此时可以利用 1.4 小节的 yolo2json 将验证集的 YOLO 格式标签转换成 JSON 格式

两个 JSON 文件都有了，我们可以调用 COCO Python API 来进行 mAP 的测试了，具体代码如下：

from pycocotools.coco import COCO
from pycocotools.cocoeval import COCOeval

# Run COCO mAP evaluation
# Reference: https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoEvalDemo.ipynb

print("===================== test Yolov6 INT8 best_ckpt ==================================")

annotations_path = "./val.json"
results_file = "./v6_INT8.json"
cocoGt = COCO(annotation_file=annotations_path)
cocoDt = cocoGt.loadRes(results_file)
imgIds = sorted(cocoGt.getImgIds())
cocoEval = COCOeval(cocoGt, cocoDt, 'bbox')
cocoEval.params.imgIds = imgIds
cocoEval.evaluate()
cocoEval.accumulate()
cocoEval.summarize()

你需要修改：

annotations_path：验证集真实标签的 JSON 文件路径
results_file：TRT model 预测结果的 JSON 文件路径

YOLOv6s engine 的 mAP 测试结果如下图：

图3-18 YOLOv6s FP32 mAP

图3-19 YOLOv6s FP16 mAP

图3-20 YOLOv6s INT8 mAP

可以看到相比于原始 pytorch 的 mAP 指标而言（mAP50-95=0.613 mAP50=0.817），FP32 模型下降了 1.5 个点，比 YOLOv5m 下降得少，毕竟 YOLOv6s 的预处理方式和 pytorch 的保持一致。

FP16 模型与 FP32 性能相同，无掉点，INT8 模型掉了将近 8~9 个点

总结下 YOLOv6s 的 mAP 测试结果，如下表所示：

模型名称	分辨率	精度	mAP^val 0.5:0.95	mAP^val 0.5
YOLOv6s	640	-	61.3	81.7
YOLOv6s	640	FP32	59.6	80.6
YOLOv6s	640	FP16	59.6	80.5
YOLOv6s	640	INT8	52.3	73.8

我找了一副检测效果图，来对比看看不同精度下 TRT model 的检测效果：

图3-21 YOLOv6s FP32 效果图

图3-22 YOLOv6s FP16 效果图

图3-23 YOLOv6s INT8 效果图

YOLOv6s INT8 的效果相比 YOLOv5m INT8 而言有点差咯，虽然一个个置信度很高但是误检有点多吖，而且误检置信度也高，通过置信度阈值也没办法剔除

3.4 YOLOv6 engine 速度测试

YOLOv6 的速度测试也是参考杜老师实现的

重点说明：由于预处理和后处理没有通过 CUDA 加速，所以各个不同精度的模型的推理速度完全看不出差别，同时由于 YOLOv6s 的推理是 demo 级别的，完全没办法和 tensorRT_Pro 这种工业级高性能推理框架相比，所以推理一张图的时间超慢。连 INT8 模型的一张图的预处理+推理+后处理都需要4s左右，如下图所示：

图3-24 YOLOv6s INT8速度测试(预处理+推理+后处理)

如果按照之前的 YOLOv5m 速度测试方法，加载 6 张图塞 100 次给模型推理，光是一个模型测试就花了博主将近 2 个小时，测出来发现 FP32、FP16 和 INT8 竟然毫无差别，我和我的小伙伴们都惊呆了

后面发现是预处理和后处理太耗时了，完全体现不出 FP32、FP16、INT8 模型的速度差距，因此 YOLOv6s 的速度测试我们需要改变下策略，我们只看推理速度，而不再考虑预处理和后处理。

而且由于预处理和后处理速度太慢，因此测试次数只取 10 次，测试图像还是 6 张，去掉 warmup

关于 YOLOv6s 速度测试的说明：(from 杜老师)

1. 输入分辨率 640x640

2. batch size = 1

3. 仅考虑推理

4. CUDA11.6，cuDNN8.4.0，TensorRT8.4.1.5

5. RTX3060

6. 测试次数，10 次取平均，去掉 warmup

7. 测试图像，6张。目录 workspace/inference

分辨率分别为：810x1080，500x806，1024x684，550x676，1280x720，800x533

8. 测试方式，加载 6 张图后，以原图重复 10 次不停塞进去。让模型经历完整的图像的预处理，后处理

用于速度测试的函数代码如下：

void speed_test(nvinfer1::IExecutionContext& context, const int& output_size, const string& engine_file){
    
    auto files = iLogger::find_files("imgs", "*.jpg;*.jpeg;*.png;*.gif;*.tif");
    
    vector<cv::Mat> images;
    for(int i = 0; i < files.size(); ++i){
        auto image = cv::imread(files[i]);
        images.emplace_back(image);
    }
    
    static float* prob = new float[output_size];
    std::vector<Object> objects;

    // warm up
    for(int i = 0; i < 5; ++i){
        for(int j = 0; j < images.size(); ++j){
            cv::Mat img = images[j];
            int img_w = img.cols;
            int img_h = img.rows;
            float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));

            cv::Mat pr_img = static_resize(img);
            float* blob = blobFromImage(pr_img);
            
            doInference(context, blob, prob, output_size, pr_img.size());

            decode_outputs(prob, output_size, objects, scale, img_w, img_h);

            // objects.clear();
        }
    }

    INFO("warm up done!");

    
    float count = 0;
    const int ntest = 10;

    for(int i = 0; i < ntest; ++i){
        for(int j = 0; j < images.size(); ++j){

            cv::Mat img = images[j];
            int img_w = img.cols;
            int img_h = img.rows;
            float scale = std::min(INPUT_W / (img.cols*1.0), INPUT_H / (img.rows*1.0));
            
            cv::Mat pr_img = static_resize(img);
            float* blob = blobFromImage(pr_img);
            
            auto begin_timer = iLogger::timestamp_now_float();

            doInference(context, blob, prob, output_size, pr_img.size());

            count += (iLogger::timestamp_now_float() - begin_timer);

            decode_outputs(prob, output_size, objects, scale, img_w, img_h);

            // objects.clear();
        }
    }

    float inference_average_time = count / ntest / images.size();

    INFO("%s average: %.2f ms / image, FPS = %.2f", engine_file.c_str(), inference_average_time, 1000 / inference_average_time);
    
}

YOLOv6 engine 模型速度测试如下图所示：

图3-25 YOLOv6s FP32速度测试

图3-26 YOLOv6s FP16速度测试

图3-27 YOLOv6s INT8速度测试

总结下 YOLOv6s 的速度测试结果，如下表所示：

模型名称	分辨率	精度	耗时/ms	帧率/FPS
YOLOv6s	640	FP32	7.16	139.62
YOLOv6s	640	FP16	3.05	382.09
YOLOv6s	640	INT8	2.31	433.13

YOLOv5m 和 YOLOv6s 其实是两个参数差不多的模型，YOLOv5s FP32 模型测试的预处理+推理+后处理的时间是 7.50ms，YOLOv6s FP32 模型测试的预处理+推理+后处理的时间大概是 3897 ms，而推理时间是 7.16ms，意味着 YOLOv6s 预处理+后处理平均一张图花费了 3890 ms，这对比下来说明预处理和后处理的加速对于速度提升是非常重要的。

4. 讨论

讨论1：博主在这里只是简单通过这么一个流程测试了 TRT 模型的 mAP 和速度，最主要的是分享测试的方法，仅供参考，思路就是这么一个思路，各位看官也可以自行编写相关代码实现，无非是保存 TRT 推理的结果和实际的真实结果进行比较得出 mAP，那可以看到无论是 YOLOv5 模型还是 YOLOv6 模型其 FP32 和 FP16 的模型精度并没有太大变化，那测试 mAP 真正用途感觉还是拿去测试 INT8 模型量化后的掉点情况。

讨论2：关于上述测量结果仅作参考，博主还只仅仅测试了静态 batch 模型，并没有去测试动态 batch，同时 YOLOv6 推理的代码是 demo 级别的，其 tensorRT 还是使用的 enqueue 而不是 enqueueV2，我们的目的只是为了简单测试 tensorRT 模型的性能，把整体流程走一遍，所以有些地方没有那么严谨。此外，关于速度的测试是存在波动的，毕竟到了 ms 级别，偶尔有些偏差也正常

讨论3：在模型实际应用过程中，我们并不能光看 mAP 一个指标就判断一个模型的优劣，YOLOv6s INT8 模型精度虽然比 YOLOv5m INT8 模型精度高了 4 个点，但是实际推理测试的结果还不如 YOLOv5m INT8，对比图 3-11 和图 3-23 可以发现，YOLOv6s INT8 模型存在许多高置信度的误检，这是我们不太希望看到的。因此评价一个模型需要综合考虑虚警率，误检率等多项指标才行。

我们来统一看下 YOLOv5 和 YOLOv6 模型性能测试结果：

模型名称	分辨率	精度	mAP^val 0.5:0.95	mAP^val 0.5	耗时/ms	帧率/FPS
YOLOv5m	640	-	53.5	75.3	-	-
YOLOv5m	640	FP32	50.5	72.5	7.50	133.37
YOLOv5m	640	FP16	50.6	72.6	2.67	374.81
YOLOv5m	640	INT8	46.9	69.3	1.66	602.05
YOLOv6s	640	-	61.3	81.7	-	-
YOLOv6s	640	FP32	59.6	80.6	7.16	139.62
YOLOv6s	640	FP16	59.6	80.5	3.05	328.09
YOLOv6s	640	INT8	52.3	73.8	2.31	433.13

有以下几点需要说明：

YOLOv5m INT8 模型以 1000 张校准图片的结果为准
YOLOv5m 速度测试包含预处理+后处理+推理，而 YOLOv6s 速度测试仅包含推理
正常来说 YOLOv5m 的预处理+后处理+推理的耗时应该比 YOLOv6s 的仅推理的耗时要高点，但是 INT8 模型却是一反常态，速度的测试其实是有波动的，所以大家务必以自己实际测试的结果为准

最后我们可以编写个简单的可视化图代码：

import pandas as pd
import matplotlib.pyplot as plt

# data from the table
data = {
    'Model': ['YOLOv5m', 'YOLOv5m', 'YOLOv5m', 'YOLOv5m', 'YOLOv6s', 'YOLOv6s', 'YOLOv6s', 'YOLOv6s'],
    'Precision': ['-', 'FP32', 'FP16', 'INT8', '-', 'FP32', 'FP16', 'INT8'],
    'mAP_50_95': [53.5, 50.5, 50.6, 46.9, 61.3, 59.6, 59.6, 52.3],
    'mAP_50': [75.3, 72.5, 72.6, 69.3, 81.7, 80.6, 80.5, 73.8],
    'Execution Time': [None, 7.50, 2.67, 1.66, None, 7.16, 3.05, 2.31],
    'FPS': [None, 133.37, 374.81, 602.05, None, 139.62, 328.09, 433.13]
}

# create dataframe
df = pd.DataFrame(data)

# set style
plt.style.use('default')

# increase the size of labels
plt.rcParams['xtick.labelsize'] = 14
plt.rcParams['ytick.labelsize'] = 14

# specify the font
font = {'family': 'Times New Roman',
        'weight': 'bold'}

# set the font
plt.rc('font', **font)

# create a figure and a set of subplots
fig, ax = plt.subplots(figsize=(10, 10))

# customize the color and marker for each model
color_marker = {'YOLOv5m': ('red', 's'), 'YOLOv6s': ('blue', 'o')}

# draw scatter plots and lines for different models
for i, model in enumerate(df['Model'].unique()):
    df_model = df[(df['Model'] == model) & (df['Precision'] != '-')]
    # reorder the dataframe by precision
    df_model = df_model.sort_values('Precision', ascending=True)
    ax.scatter(df_model['Execution Time'], df_model['mAP_50_95'], s=df_model['FPS']*0.5, 
               c=color_marker[model][0], marker=color_marker[model][1],
               alpha=0.6, edgecolors='w', linewidth=2)
    # add labels for each point
    for j, row in df_model.iterrows():
        ax.text(row['Execution Time'], row['mAP_50_95'], row['Precision'], color='black', fontsize=14, ha='right', va='bottom')
    # connect points with lines
    ax.plot(df_model['Execution Time'], df_model['mAP_50_95'], color=color_marker[model][0])

# set the title and labels
ax.set_title('Performance Comparison for Different Models and Precisions', loc='center', fontsize=14, fontweight='bold', color='black')
ax.set_xlabel("Execution Time (ms)", fontsize=14)
ax.set_ylabel("mAP @0.5:0.95", fontsize=14)

# show the grid
ax.grid(True)

# create a legend manually
legend_elements = [plt.Line2D([0], [0], marker=color_marker[model][1], color='w', label=model,
                              markerfacecolor=color_marker[model][0], markersize=10, linewidth=2)
                   for model in df['Model'].unique()]
ax.legend(handles=legend_elements, loc='lower right')

# show the plot
plt.show()

可视化效果如下：

图4-1 模型性能可视化效果

上图中横坐标为不同精度模型在 NVIDIA RTX3060 上一张图片的推理耗时，注意这里 YOLOv5m 包含预处理和后处理，而 YOLOv6s 仅包含推理，纵坐标为不同精度模型在 VOC 数据集上的 mAP50，YOLOv5m 模型以红色方块表示，YOLOv6s 模型以蓝色圆圈表示，图标代表着 FPS 的大小，FPS 越大，对应的图标也越大。

结语

本篇博客简单分享了 tensorRT 模型的性能测试，把具体流程走了一遍，博主训练了 YOLOv5m 和 YOLOv6s 两个模型，分别测试了两个模型对应的 FP32、 FP16、INT8 模型在 NVIDIA RTX3060 上的 mAP 和速度，主要是为了让大家对整体流程有一个基本的把握。博主对于 tensorRT 模型性能测试只做了最基础的演示，如果有更多的需求需要各位看官自己去挖掘啦。感谢各位看到最后，创作不易，读后有收获的看官请帮忙⭐️

下载链接

YOLOv5和YOLOv6训练好的VOC权重[pwd:yolo]
YOLOv6_test源码[pwd:yolo]
- 只包含 src、workspace、CMakeLists.txt 三个文件
- src 文件夹下存放着源码
- workspace 文件夹下存放着速度测试用的图片，以及一些工具测试代码如 mAP_test、xml2yolo 等
- CMakeLists.txt 按照要求修改即可

参考

Ubuntu20.04部署YOLOv5
TensoRT量化第四课：PTQ与QAT
目标检测mAP计算以及coco评价标准
目标检测：PASCAL VOC 数据集简介
https://github.com/meituan/YOLOv6
https://github.com/ultralytics/yolov5
https://github.com/shouxieai/tensorRT_Pro
https://github.com/cocodataset/cocoapi/tree/master/PythonAPI

你可能感兴趣的:(模型部署,tensorRT,mAP,模型部署)

pmap 命令详解：使用场景、参数解析与实际应用实例 weixin_42587823 linux云计算服务器 linux 运维
pmap命令详解：使用场景、参数解析与实际应用实例在Linux系统中，了解进程的内存使用情况对系统调优、故障排查和内存泄漏分析至关重要。pmap命令就是一个非常实用的工具，它可以显示指定进程的内存映射信息，帮助我们直观地了解内存分配情况、共享库的加载情况以及各个内存段的占用详情。本文将详细介绍pmap命令的使用场景、各参数的功能及实际应用实例，包括具体的输入命令和输出解释。一、pmap命令的基本概
【SpringMVC】常用注解：@PathVariable 字节源流 java servlet 开发语言
1.作用用于绑定url中的占位符，例如请求中的/delete/{id}，这个{id}就是url中的占位符。url支持占位符是Spring3.0之后加入的。是SpringMVC支持rest风格URL的重要标志。2.属性value：用于指定url中占位符的名称。required：是否必须提供占位符。3.示例准备jsp代码pathVariable注解准备控制器代码@RequestMapping("use
【错误解决】Mockito在JDK 22的兼容性问题不是聪明的小孩 spring boot mybatis plus Mockito mybatis
前言：在学习SpringBoot整合MyBatisPlus时，在启动类里添加的@MapperScan注解扫描项目的mapper文件夹相关类的方法，测试时一直出错失败，这样的话学习mybatisplusCRUD的操作也没办法测试运行，我在网上检索相关问题的比较新的参考很少，也和我遇到的问题重叠率不高。相关错误信息：Causedby:[CIRCULARREFERENCE:java.lang.Illeg
Java——Stream流的peek方法详解 Mcband java python 开发语言
Java8中引入了StreamAPI，极大地简化了集合操作，使得开发者可以使用流的方式进行数据处理。Stream提供了一系列非常强大的操作方法，其中之一就是peek()方法。peek()是一个中间操作，它可以用来在操作流的过程中查看元素的处理状态。本文将详细介绍peek()方法的使用场景和原理，并配合代码示例帮助大家深入理解。一、peek()方法简介peek()方法的定义在java.util.st
MyBatis 从入门到精通：详解基础与实战（完整版）以恒1 mybatis
MyBatis从入门到精通：详解基础与实战（完整版）（新手入门篇在主页）一、MyBatis基础概念1.1什么是ORM？ORM（Object-RelationalMapping）即对象关系映射，是一种将数据库表与程序对象自动映射的技术。MyBatis作为半自动化的ORM框架，允许开发者直接编写SQL，同时自动处理对象与数据库结果的映射。1.2MyBatis核心功能SQL映射：将Java方法与SQL语
【项目实战】前后端分离实现通用上传接口到不同存储桶本本本添哥 001 -基础开发能力 java servlet 前端
一、定义通用上传接口通过上传接口（UploadFileController.java）上传文件/***上传文件*@parammulFile*@paramdir文件存放目录*@paramfileType文件类型image:图片*@return*/@ApiOperation(value="上传文件")@PostMapping("/upload")public
JavaScript 中 Map 数据结构的使用前端javascript
解释Map是一种js数据结构，与数组的map方法并非一种，要区分开来Map数据结构来管理数据，能提高代码的可读性Map相比较对象格式存储速度要更快Map数据结构//创建一个Map对象constformData=newMap();//添加表单元素的值到Map中formData.set('username','Tom');formData.set('password','123456');//获取表单
CMake Error at myplugins_generated_yololayer.cu.o.Debug，tensorrtx编译失败解决雪可问春风 BUG 人工智能
system:ubuntu1804gpu:3060cuda:cuda11.4tensorrt:8.4使用项目tensorrtx进行yolov5的engine生成，之前在编译成功的配置为system:ubuntu1804gpu:2060cuda:cuda10.2tensorrt:7.2.3.4换到3060后，make失败，报错错误：/home/yfzx/work/vs-work/tensorrt-y
基于 KTransformers的DeepSeek-R1 本地部署方案，成本骤降32倍！爱科技Ai LLM 人工智能
随着DeepSeek-R1模型在全球范围内的流行，越来越多的用户开始在本地尝试部署该模型。然而，高昂的硬件需求和成本让许多公司望而却步。本文将深入探讨DeepSeek-R1部署中的挑战，并介绍一款创新框架KTransformers，它能够显著降低大规模模型部署的成本并提高推理效率，从而帮助更多中小企业有效部署此类高级AI模型。本地部署“成本骤降32倍”，助力R1真正落地「中小企业」中！1.Deep
Redis7——进阶篇（四）啥也不会的小神龙· Redis系列 redis 缓存学习 redis经典面试题
前言：此篇文章系本人学习过程中记录下来的笔记，里面难免会有不少欠缺的地方，诚心期待大家多多给予指教。基础篇：Redis（一）Redis（二）Redis（三）Redis（四）Redis（五）Redis（六）Redis（七）Redis（八）进阶篇：Redis（九）Redis（十）Redis（十一）接上期内容：上期完成了缓存双写一致性方面的学习。下面学习HyperLogLog/Geo/Bitmap实际案
java Stream API中的聚合操作 27xixi java java18
聚合操作是指对一组数据进行处理，最终生成一个单一的结果。在编程中，聚合操作通常用于对集合（如列表、数组等）中的元素进行统计、计算或汇总。常见的聚合操作包括求和、求平均值、查找最大值/最小值、计数等。在Java的StreamAPI中，聚合操作是通过终端操作（TerminalOperations）来实现的。以下是一些常见的聚合操作及其用法：1.求和（Sum）对集合中的元素进行求和。示例：求整数列表的和
MyBatis注解开发之一对多查询我心向阳iu #Mybatis Java面试知识点精讲 mybatis java mysql
文章目录0.MyBatis的注解实现复杂映射开发1.一对多查询1.1一对多查询的模型1.2一对多查询的语句1.3创建StudentMapper接口1.4使用注解配置Mapper1.5测试类1.6一对多配置总结0.MyBatis的注解实现复杂映射开发实现复杂关系映射之前我们可以在映射文件中通过配置来实现，使用注解开发后，我们可以使用@Results注解，@Result注解，@One注解，@Many注
什么是mybatis？十二.413 mybatis java 数据库
目录一、mybatis框架介绍二、mybatis配置三、mybatis逆向工程三、userMapper.xml配置一、mybatis框架介绍1.1mybatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwareoundation迁移到了googlecode，并且改名为MyBatis。2013年11月迁移到Github。mybatis是一个基于Java的持久
【MyBatis笔记06】MyBatis中的三种关联查询方式（一对一、一对多、多对多） Mr.小朱同学 SSM专栏笔记 mybatis 关联查询一对一一对多多对多
这篇文章，主要介绍MyBatis中的三种关联查询方式（一对一、一对多、多对多）。目录一、MyBatis关联查询1.1、准备环境（1）SQL建表语句（2）创建实体类1.2、一对一查询（1）创建Mapper接口方法（2）创建XML映射文件（3）测试程序1.2、一对多关联查询（1）实体类（2）创建XML映射文件（3）测试程序1.3、多对多关联查询一、MyBatis关联查询MyBatis框架支持三种关联查
什么是 MyBatis？总是学不会. Mybatis mybatis 开发 java 后端
文章目录1️⃣MyBatis简介MyBatis主要特点2️⃣MyBatisvs传统JDBCvsHibernate3️⃣MyBatis核心组件️1.SqlSessionFactory2.SqlSession3.Mapper（映射器）4️⃣MyBatis配置文件结构`mybatis-config.xml`示例`UserMapper.xml`示例5️⃣MyBatis的典型使用流程6️⃣适用场景与总结1️
Angular 15 表单控制迁移指南 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在升级Angular项目时，经常会遇到一些需要特别注意的问题。最近，我们在从Angular10迁移到Angular15时，遇到了一个关于表单控制的错误：ERRORError:Cannotfindcontrolwithpath:'mappedHeaders->0->value'。这篇博客将详细解释这个错误的原因，并提供解决方案。问题描述在Angular10中运行良好的代码，在迁移到Angular15
Qt 为窗体设置透明图标 log159 qt 开发语言
Widget构造，继承自QWidgetQImageimage(QSize(10,10),QImage::Format_ARGB32);image.fill(Qt::transparent);QPixmaptempPixmap=QPixmap::fromImage(image);this->setWindowIcon(QIcon(tempPixmap));
TensorRT-LLM保姆级教程-快速入门大模型八哥笔记 agi ai 大模型 ai大模型 LLM Transformer
随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇，将简要概述TensorRT-LLM的基本特性。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github，有需要的朋友自
ROS实践（五）机器人自动导航（robot_navigation）简约少年 ROS 机器人导航 navigation
目录一、知识点1.定位2.路径规划（1）全局路径规划（2）局部路径规划3.避障二、常用工具和传感器三、相关功能包1.move_base（决策规划）2.amcl（定位）3.costmap_2d（代价地图）4.global_planner（全局规划器）5.local_planner（局部规划器）6.map_server（地图）四、导航流程框架五、navigation导航实验1.前提准备2.实验步骤六、
优化 Java 数据结构选择与使用，提升程序性能与可维护性草药味儿の岁月 java 数据结构开发语言
引言在软件开发中，数据结构的选择是影响程序性能、内存使用以及代码可维护性的关键因素之一。Java作为一门广泛使用的编程语言，提供了丰富的内置数据结构，如数组、链表、栈、队列、树、图以及集合框架中的各种接口实现（如List,Set,Map等）。然而，面对不同的应用场景，如何合理地选择和优化数据结构，成为了一个值得深入探讨的话题。本文将介绍几种常见的Java数据结构，并探讨如何根据实际需求进行优化选择
算法笔记（七）——哈希表闪电麦昆️ 算法算法笔记哈希 c++
文章目录两数之和判定是否互为字符重排存在重复元素存在重复元素II字母异位词分组哈希表：一种存储数据的容器；可以快速查找某个元素，时间复杂度O(1)；当频繁查找某一个数时，我们可以使用哈希表创建一个容器（unordered_map）用数组模拟一个简易哈希表容器数据结构unordered_mapmapunorded_setset实现机理hashRBThashRBT元素格式key+valuekey+va
Three.js 阴影 (Shadow) 知识点整理泫凝 javascript three.js npm 前端
阴影主要由castShadow和receiveShadow控制，并通过不同类型的光源(DirectionalLight、SpotLight、PointLight)生成。我们将系统地整理与阴影相关的知识点。1️⃣基础概念castShadow：物体是否投射阴影。receiveShadow️：物体是否接收阴影。renderer.shadowMap.enabled=true✅：全局开启阴影渲染。rende
数组作为HashMap的键南京鼎山电子设备维修张师傅学习Java的一些记录 java 算法开发语言
1、数组的hashcode是根据地址引用计算的。2、Arrays.hashcode静态方法能够根据数组的内容创建相应的hashcode。3、hashmap用数组做key时用的是地址引用计算的的hashcode，所以应避免使用数组为键。如果一定要用数组来作为map的key值的话，有两种方法：1，将数组转化为string2，用list代替记录自：力扣-剑指OfferII033.变位词组，链接力扣。
HashMap的奇幻漂流：当一个数组决定去整容桃木山人深挖面经哈希算法算法数据结构
标准答案（面试官最爱版）HashMap实现原理：数据结构：数组+链表/红黑树（Java8+）哈希算法：(h=key.hashCode())^(h>>>16)索引计算：(n-1)&hash（n为数组长度）冲突解决：链表→红黑树（阈值=8），树→链表（阈值=6）扩容机制：2倍扩容，负载因子默认0.75用程序员黑话：“它就是个会变形的瑞士卷——平时是夹心饼干（数组+链表），吃撑了变千层蛋糕（红黑树）”一
一文教你学会Java Stream API 常用函数小健学 Java java python windows
1.什么是Stream？Java8引入了StreamAPI，提供了一种声明式编程方式，使数据处理更加简洁、易读。Stream是一个数据流，它不存储数据，而是从数据源（如集合、数组等）获取数据并进行一系列操作。StreamAPI主要有两大类操作：中间操作（IntermediateOperations）：返回新的Stream，可链式调用。终端操作（TerminalOperations）：触发Strea
ROS中的三维占用网格地图与八叉树地图详尽解析 YRr YRr ros 地图
ROS中的三维占用网格地图与八叉树地图详尽解析在机器人自主导航与环境感知领域，地图构建与表示是核心技术之一。不同的三维地图表示方法在精度、效率、存储需求等方面各有优劣，直接影响机器人在复杂环境中的表现。本文将以ROS（RobotOperatingSystem，机器人操作系统）为背景，深入探讨两种常用的三维地图表示方法——三维占用网格地图（OccupancyGridMap，简称OGM）和八叉树地图（
ollama+qwq小试牛刀 llm
序本文主要演示一下ollama运行QwQ-32B模型步骤pullollamapullqwqpullingmanifestpullingc62ccde5630c...100%▕███████████████████████████████████████████████████████████████████████████████████████████████████████▏19GBpulli
springMvc36-JavaEE-JSP基础-EL表达式和JSTL标签库(Taglibs) 前端歌谣 java java-ee servlet
EL表达式和JSTL标签库:在JSP页面代替java代码,便于编写一.EL表达式作用:${}简化脚本表达式j2ee1.4以前版本需指定j2ee1.4以后版本默认支持EL表达式1.EL内置对象EL内置11个对象,不需定义可直接使用pageScope获取page域属性组成的MaprequestScope获取reqeust域属性组成的MapsessionScope获取session域属性组成的Mapap
QT编程之图像数据操作（QImage、QPixmap、QBitmap、QPicture） byxdaz QT qt 开发语言
一、介绍Qt一共提供了四个这样继承QPaintDevice的绘图设备类，分别是：QPixmap、QBitmap、QImage和QPicture。其中：QPixmap专门为图像在屏幕上的显示做了优化。QBitmap是QPixmap的一个子类，它的色深限定为1，你可以使用QPixmap的isQBitmap()函数来确定这个QPixmap是不是一个QBitmap。QImage专门为图像的像素级访问做了优
【SpringMVC】常用注解：@RequestBody 字节源流 java 开发语言
1.作用用于获取请求实体内容，直接使用得到的是key=value&key=value的数据。获取请求实体内容不适用get请求。2.属性required描述是否有请求体，默认值为true。当取值为true时，get请求方式会报错。如果取值为false，get请求得到的是null。3.示例先编写jsp代码用户名称：用户密码：用户年龄：然后编写控制器代码@RequestMapping("useReque
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p