面对疾风吧~

（超详细）用TensorRT加速yolov3-tiny,加速后3ms/帧

TensorRT加速yolov3-tiny

简介

一. TensorRT的安装

1.下载tar包
2.安装

2.1 解压tar包
2.2 添加环境变量
2.3 安装TensorRT的python接口
2.4 安装UFF（Tensorflow所使用的）
2.5 安装graphsurgeon

二.安装yolov3-tiny-onnx-TensorRT工程所需要的环境

1 安装numpy
2. 安装onnx
3 安装pycuda
4 安装Pillow
5. 安装wget

三.转换自己的weights和cfg文件为trt文件

1. 修改yolov3_to_onnx.py代码使其能在python3.x下运行
2. 添加脚本并修改onnx_to_tensorrt.py文件，使其能批量测试图片

2.1 修改onnx_to_tensorrt.py文件
2.2 创建一个名为Predict.py的python文件

3.开始转换

3.1将darknet的weights文件转换成onnx文件
3.2准备工作
3.3得到trt文件并批量测试图片

简介

此篇博客是基于该工程完成: https://github.com/zombie0117/yolov3-tiny-onnx-TensorRT.git.将工程转化到python3.x下运行，并添加批量识别功能。

一. TensorRT的安装

1.下载tar包

TensorRT官方API提供了四种安装方式，建议下载tar包进行安装。下载地址https://developer.nvidia.com/tensorrt

2.安装

2.1 解压tar包

注：安装最新版本的TensorRT,即6.0版本，cudnn的版本为7.6.3

$ tar xzvf TensorRT-6.x.x.x.<os>.<arch>-gnu.cuda-x.x.cudnn7.x.tar.gz
-其中
    6.x.x.x is your TensorRT version
    <os> is:
        Ubuntu-14.04
        Ubuntu-16.04
        Ubuntu-18.04
        CentOS-7.6
    <arch> is x86_64 or ppc64le
    cuda-x.x is CUDA version 9.0, 10.0, or 10.1
    cudnn7.x is cuDNN version 7.6

2.2 添加环境变量

$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<eg:TensorRT-6.x.x.x/lib>
-其中‘<>’里的路径为你的TensorRT所解压的路径

2.3 安装TensorRT的python接口

$ cd TensorRT-6.x.x.x/python
$ sudo pip3 install tensorrt-6.x.x.x-cp3x-none-linux_x86_64.whl

2.4 安装UFF（Tensorflow所使用的）

$ cd TensorRT-6.x.x.x/uff
$ sudo pip3 install uff-0.6.5-py2.py3-none-any.whl

2.5 安装graphsurgeon

$ cd TensorRT-6.x.x.x/graphsurgeon
$ sudo pip3 install graphsurgeon-0.4.1-py2.py3-none-any.whl

二.安装yolov3-tiny-onnx-TensorRT工程所需要的环境

1 安装numpy

sudo pip3 install numpy

2. 安装onnx

首先安装onnx所需的依赖
sudo apt-get install protobuf-compiler libprotoc-dev cmake
sudo pip3 install onnx==1.4.1

3 安装pycuda

sudo pip3 install pycuda==2019.1.1

4 安装Pillow

sudo pip3 install Pillow==6.1.0

5. 安装wget

sudo pip3 install wget==3.2

三.转换自己的weights和cfg文件为trt文件

1. 修改yolov3_to_onnx.py代码使其能在python3.x下运行

在90行下添加红框内的代码
将808 809行的数据类型转换为int类型

2. 添加脚本并修改onnx_to_tensorrt.py文件，使其能批量测试图片

2.1 修改onnx_to_tensorrt.py文件

用以下代码替换掉onnx_to_tensorrt.py的代码

from __future__ import print_function

import glob
import time
import numpy as np
import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
from PIL import ImageDraw
from data_processing import PreprocessYOLO, PostprocessYOLO, ALL_CATEGORIES

import sys, os
import common

TRT_LOGGER = trt.Logger()

class YOLO():
    def __init__(self):
        self.input_size = 608
        self.batch_size = 1
        self.fp16_on = True
        self.onnx_file_path = 'yolov3-tiny.onnx'
        self.engine_file_path = 'yolov3-tiny.trt'
        self.save_path = '/home/xxx/TensorRT-6.0.1.5/samples/python/result/'
        self.engine = self.get_engine(self.onnx_file_path, self.batch_size, self.fp16_on, self.engine_file_path)
        self.context = self.engine.create_execution_context()

    def draw_bboxes(self, image_raw, bboxes, confidences, categories, all_categories, bbox_color='blue'):
        """Draw the bounding boxes on the original input image and return it.

        Keyword arguments:
        image_raw -- a raw PIL Image
        bboxes -- NumPy array containing the bounding box coordinates of N objects, with shape (N,4).
        categories -- NumPy array containing the corresponding category for each object,
        with shape (N,)
        confidences -- NumPy array containing the corresponding confidence for each object,
        with shape (N,)
        all_categories -- a list of all categories in the correct ordered (required for looking up
        the category name)
        bbox_color -- an optional string specifying the color of the bounding boxes (default: 'blue')
        """
        import numpy
        draw = ImageDraw.Draw(image_raw)
        print(bboxes, confidences, categories)
        # print(type(bboxes))
        if isinstance(bboxes, numpy.ndarray):
            for box, score, category in zip(bboxes, confidences, categories):
                x_coord, y_coord, width, height = box
                left = max(0, np.floor(x_coord + 0.5).astype(int))
                top = max(0, np.floor(y_coord + 0.5).astype(int))
                right = min(image_raw.width, np.floor(x_coord + width + 0.5).astype(int))
                bottom = min(image_raw.height, np.floor(y_coord + height + 0.5).astype(int))

                draw.rectangle(((left, top), (right, bottom)), outline=bbox_color)
                draw.text((left, top - 12), '{0} {1:.2f}'.format(all_categories[category], score), fill=bbox_color)

            return image_raw
        else:
            return image_raw
    def get_engine(self, onnx_file_path, max_batch_size, fp16_on, engine_file_path=""):
        """Attempts to load a serialized engine if available, otherwise builds a new TensorRT engine and saves it."""
        def build_engine():
            """Takes an ONNX file and creates a TensorRT engine to run inference with"""
            with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network, trt.OnnxParser(network, TRT_LOGGER) as parser:
                builder.max_workspace_size = 1 << 30 # 1GB
                builder.max_batch_size = max_batch_size
                builder.fp16_mode = fp16_on
                # Parse model file
                if not os.path.exists(onnx_file_path):
                    print('ONNX file {} not found, please run yolov3_to_onnx.py first to generate it.'.format(onnx_file_path))
                    exit(0)
                print('Loading ONNX file from path {}...'.format(onnx_file_path))
                with open(onnx_file_path, 'rb') as model:
                    print('Beginning ONNX file parsing')
                    parser.parse(model.read())
                print('Completed parsing of ONNX file')
                print('Building an engine from file {}; this may take a while...'.format(onnx_file_path))
                engine = builder.build_cuda_engine(network)
                print("Completed creating Engine")
                with open(engine_file_path, "wb") as f:
                    f.write(engine.serialize())
                return engine

        if os.path.exists(engine_file_path):
            # If a serialized engine exists, use it instead of building an engine.
            print("Reading engine from file {}".format(engine_file_path))
            with open(engine_file_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
                return runtime.deserialize_cuda_engine(f.read())
        else:
            return build_engine()
    def download_file(self, path, link, checksum_reference=None):
        if not os.path.exists(path):
            print('downloading')
            wget.download(link, path)
            print()
        if checksum_reference is not None:
            raise ValueError('error')
        return path
    def main(self, image_name):
        """Create a TensorRT engine for ONNX-based YOLOv3-608 and run inference."""
        output_shapes_416 = [(self.batch_size, 18, 13, 13), (self.batch_size, 18, 26, 26)]
        output_shapes_480 = [(self.batch_size, 18, 15, 15), (self.batch_size, 18, 30, 30)]
        output_shapes_544 = [(self.batch_size, 18, 17, 17), (self.batch_size, 18, 34, 34)]
        output_shapes_608 = [(self.batch_size, 18, 19, 19), (self.batch_size, 18, 38, 38)]
        output_shapes_dic = {'416': output_shapes_416, '480': output_shapes_480, '544': output_shapes_544, '608': output_shapes_608}

        # with open(input_file_list, 'r') as f:
        #     filenames = []
        #     for line in f.readlines():
        #         filenames.append(line.strip())
        #
        # filenames = glob.glob(os.path.join(IMAGE_PATH, '*.jpg'))
        #
        # nums = len(filenames)
        # print(filenames)

        input_resolution_yolov3_HW = (self.input_size, self.input_size)

        preprocessor = PreprocessYOLO(input_resolution_yolov3_HW)

        output_shapes = output_shapes_dic[str(self.input_size)]

        postprocessor_args = {"yolo_masks": [(3, 4, 5), (0, 1, 2)],
                            "yolo_anchors": [(10,13),  (17,23),  (26,29),  (46,75),  (72,167),  (179,323)],
                            "obj_threshold": 0.5,
                            "nms_threshold": 0.35,
                            "yolo_input_resolution": input_resolution_yolov3_HW}

        postprocessor = PostprocessYOLO(**postprocessor_args)

        # Do inference with TensorRT
        filenames_batch = []
        images = []
        images_raw = []
        trt_outputs = []
        index = 0
        # with self.get_engine(self.onnx_file_path, self.batch_size, self.fp16_on, self.engine_file_path) as engine, engine.create_execution_context() as context:
            # inputs, outputs, bindings, stream = common.allocate_buffers(engine)
            # Do inference
        filename = image_name
        filenames_batch.append(filename)
        image_raw, image = preprocessor.process(filename)
        images_raw.append(image_raw)
        images.append(image)
        # index += 1
        # if len(images_raw) != self.batch_size:
        #     continue
        inputs, outputs, bindings, stream = common.allocate_buffers(self.engine)
        images_batch = np.concatenate(images, axis=0)
        inputs[0].host = images_batch
        t1 = time.time()
        trt_outputs = common.do_inference(self.context, bindings=bindings, inputs=inputs, outputs=outputs, stream=stream, batch_size=self.batch_size)
        t2 = time.time()
        t_inf = t2 - t1
        print("time spent:",t_inf)
        print(len(trt_outputs))
        trt_outputs = [output.reshape(shape) for output, shape in zip(trt_outputs, output_shapes)]

        #print('test')
        for i in range(len(filenames_batch)):
            fname = filenames_batch[i].split('/')
            fname = fname[-1].split('.')[0]
        img_raw = images_raw[i]
        shape_orig_WH = img_raw.size
        boxes, classes, scores = postprocessor.process(trt_outputs, (shape_orig_WH), i)
        # print("boxes size:",len(boxes))
        # Draw the bounding boxes onto the original input image and save it as a PNG file
        obj_detected_img = self.draw_bboxes(img_raw, boxes, scores, classes, ALL_CATEGORIES)
        if os.path.exists(self.save_path):
            pass
        else:
            os.makedirs(self.save_path)
        output_image_path = self.save_path + fname + '_' + str(self.input_size) + '_bboxes.png'
        obj_detected_img.save(output_image_path, 'PNG')
        print('Saved image with bounding boxes of detected objects to {}.'.format(output_image_path))

2.2 创建一个名为Predict.py的python文件

加入如下代码

import os
from onnx_to_tensorrt import YOLO

image_path = '/home/xxx/PycharmProject/darknet/scripts/VOCdevkit/VOC2007_ship/JPEGImages/'
filelist = os.listdir(image_path)

yolo = YOLO()

for file in filelist:
    yolo.main(os.path.join(image_path, file))

3.开始转换

3.1将darknet的weights文件转换成onnx文件

打开yolov3_to_onnx.py文件，按自己的需求，修改如下内容

保存后运行此文件

python3 yolov3_to_onnx.py

你将得到一个转换后.onnx的文件

3.2准备工作

1）打开替换后的onnx_to_tensorrt.py,按自己的需求修改里面的内容

2) 打开Predict.py文件，修改要测试图片的地址

3）修改coco_labels.txt文件，替换里面的类别为自己的类别

4）修改data_processing.py

line14: LABEL_FILE_PATH = '/home/nvidia/yolov3-tiny2onnx2trt/coco_labels.txt' # 换成自己的路径
line19: CATEGORY_NUM = 80 # 换成自己的类别数

3.3得到trt文件并批量测试图片

注：因为修改了onnx_to_tensorrt.py文件，所以工程中所提到的imageslist.txt没有用到

python Predict.py

测试结果展示：

识别速率从每秒12帧提高到了每秒250帧！GOOD!

模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
【TensorRT】TensorRT及加速原理浩瀚之水_csdn tensorrt
一、TensorRT架构概览TensorRT是NVIDIA推出的高性能推理优化器，专为GPU加速设计。其核心架构分为三层：前端解析器支持ONNX/UFF/Caffe等格式的模型解析执行格式验证和初步结构优化优化引擎核心优化层（层融合、精度校准、内存优化等）生成优化后的计算图（OptimizedGraph）运行时环境管理GPU内存分配执行优化后的计算图二、核心加速原理（8大关键技术）1.层融合（La
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
YOLOV10的tensorrt C++部署 dddccc1234 YOLO
根据博客进行python版本安装YOLOv10最全使用教程（含ONNX和TensorRT推理）-CSDN博客并将pt转为onnx：yoloexportmodel=yolov10s.ptformat=onnxopset=13simplify然后采用：https://github.com/hamdiboukamcha/yolov10-tensorrt.git进行c++编译配置好cuda11.7tens
tensorRT 与 torchserve-GPU性能对比 joker-G 计算机视觉 pytorch python
实验对比前端时间搭建了TensorRT、Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。实验数据Cuda11.0、Xeon®62423.1*80、RTX309024G、Resnet50TensorRT、Torchserve-GPU各自一张卡搭建10进程接口，感兴趣的可以查看我个人其他文章。30进程并发、2000张1200*720像素图像的总量数据TensorRT的部署使用
YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践 pk_xz123456 python 算法仿真模型 YOLO 人工智能 rnn 深度学习开发语言 lstm
以下是针对在RDK5开发板（基于NVIDIAJetsonOrin平台）部署YOLOv8模型的详细技术指南，涵盖从模型转换、优化到部署的全流程：YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践——基于TensorRT的高性能嵌入式部署方案第一章：技术背景与核心概念1.1RDK5开发板硬件架构NVIDIAJetsonOrinNX核心参数：1024-coreAmpereGPU
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
【推理加速】TensorRT C++ 部署YOLO11全系模型 gloomyfish c++开发语言
YOLO11YOLO11C++推理YOLO11是Ultralytics最新发布的目标检测、实例分割、姿态评估的系列模型视觉轻量化框架，基于前代YOLO8版本进行了多项改进和优化。YOLO11在特征提取、效率和速度、准确性以及环境适应性方面都有显著提升，达到SOTA。TensorRTC++SDK最新版本的TensorRT10.x版本已经修改了推理的接口函数与查询输入输出层的函数，其中以YOLO11对
Java全栈AI平台实战：从模型训练到部署的革命性突破——Spring AI+Deeplearning4j+TensorFlow Java API深度解析墨夶 Java学习资料3 java 人工智能 spring
一、背景与需求：为什么需要Java驱动的AI平台？某医疗影像公司面临以下挑战：多语言开发混乱：Python训练模型，C++部署推理，Java调用服务，导致维护成本高昂部署效率低下：PyTorch模型需手动转换ONNX格式，TensorRT优化耗时2小时/模型实时性不足：视频流分析延迟达3秒，无法满足急诊场景需求通过Java全栈AI平台，我们实现了：端到端开发：Java调用PyTorch训练模型，直
【Bug】Could not locate zlibwapi.dll. Please make sure it is in your library path!
报错信息：使用tensort加速，cmake编译失败，提示缺少zlibwapi.dll文件Couldnotlocatezlibwapi.dll.Pleasemakesureitisinyourlibrarypath!解决方案：从以下链接下载zlibwapi.dllhttp://www.winimage.com/zLibDll/我是在windows10系统下进行的TensorRT加速下载得到的压缩包
win10安装wsl2(ubuntu20.04)并安装 TensorRT-8.6.1.6、cuda_11.6、cudnn 狄龙疤 wsl wsl2 win10 tensorrt cuda cudnn ubuntu
参考博客：1.CUDA】如何在windows上安装Ollama3+openwebui（docker+WSL2+ubuntu+nvidia-container）：https://blog.csdn.net/smileyan9/article/details/1403916672.在Windows10上安装WSL2：https://download.csdn.net/blog/column/10991
【代码分析】TensorRT sampleINT8 详解 HaoBBNuanMM
目录前言代码分析Main入口构建(Build)网络BatchStream推理(Infer)过程资源释放前言TensorRT可以通过INT8量化处理网络，然后大幅加速网络推理速度，本文旨在详细分析MNISTINT8Sample的代码，解释如何使用TensorRT对网络做INT8量化处理。关于INT8量化的背景知识可以参考博文TensorRTINT8校准与量化原理代码分析sampleINT8的gith
TensorRT × TVM 联合优化实战：多架构异构平台的统一推理加速与性能调优全流程观熵大模型高阶优化技术专题架构人工智能
TensorRT×TVM联合优化实战：多架构异构平台的统一推理加速与性能调优全流程关键词TensorRT、TVM、异构推理优化、跨平台部署、GPU加速、NPU融合、自动调度、深度学习推理引擎、性能调优摘要在深度学习模型推理部署场景中，面对GPU、NPU、CPU等多架构异构平台的并存，如何实现统一的高性能推理优化成为企业工程落地的关键挑战。本文聚焦TensorRT与TVM的联合优化策略，从平台结构适
retinaface在ubuntu20.04(wsl2)下使用tensorrt(c++)部署狄龙疤 c++retinaface tensorrt cuda opencv 人脸识别神经网络模型
1.参考博客：1.RetinafaceTensorrtPython/C++部署：https://blog.csdn.net/weixin_45747759/article/details/1245340792.B站视频教程：https://www.bilibili.com/video/BV1Nv4y1K727/3.Retinaface_Tensorrtgithub仓库：https://github
独家首发！低照度环境下YOLOv8的增强方案——从理论到TensorRT部署向哆哆 YOLO 架构 yolov8
文章目录引言一、低照度图像增强技术现状1.1传统低照度增强方法局限性1.2深度学习-based方法进展二、Retinexformer网络原理2.1Retinex理论回顾2.2Retinexformer创新架构2.2.1光照感知Transformer2.2.2多尺度Retinex分解2.2.3自适应特征融合三、YOLOv8-Retinexformer实现3.1网络架构修改3.2联合训练策略四、实验与
win10 环境进行 python + pytorch + yolov8 + tensorRT( c++版 ) 测试过程记录狄龙疤 python pytorch c++cuda tensorRT yolov8 计算机视觉
参考博客：1.YOLOv8模型转换pt-＞onnx(附上代码)：https://blog.csdn.net/2303_80018785/article/details/1381949612.yolov8的TensorRT部署（C++版本）：https://blog.csdn.net/liujiahao123987/article/details/133892746test.cpp就是使用此博客的d
【实战分享】TensorRT+LLM：大模型推理性能优化初探 fengbeely java
TensorRT-LLM初体验千呼万唤始出来，备受期待的Tensorrt-LLM终于发布，发布版本0.5.0。github:https://github.com/NVIDIA/TensorRT-LLM/tree/main1.介绍TensorRT-LLM可以视为TensorRT和FastTransformer的结合体，旨为大模型推理加速而生。1.1丰富的优化特性除了FastTransformer对T
NIPS-2013《Distributed PCA and $k$-Means Clustering》 Christo3 机器学习 kmeans 算法大数据人工智能
推荐深蓝学院的《深度神经网络加速：cuDNN与TensorRT》，课程面向就业，细致讲解CUDA运算的理论支撑与实践，学完可以系统化掌握CUDA基础编程知识以及TensorRT实战，并且能够利用GPU开发高性能、高并发的软件系统，感兴趣可以直接看看链接：深蓝学院《深度神经网络加速：cuDNN与TensorRT》核心思想该论文的核心思想是将主成分分析（PCA）与分布式kkk-均值聚类相结合，提出一种
NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】 u013250861 #LLM/部署&推理 jetson
阿里巴巴近期发布了其开源的混合推理大语言模型（LLM）通义千问Qwen3，此次Qwen3开源模型系列包含两款混合专家模型(MoE)235B-A22B（总参数2,350亿，激活参数220亿）和30B-A3B，以及六款稠密（Dense）模型0.6B、1.7B、4B、8B、14B、32B。现在，开发者能够基于NVIDIAGPU，使用NVIDIATensorRT-LLM、Ollama、SGLang、vLL
YOLO学习笔记｜ YOLO11对象检测，实例分割，姿态评估的TensorRT部署c++ 单北斗SLAMer YOLO学习从零到1 YOLO 机器学习深度学习 c++python
以下是YOLOv11在TensorRT上部署的步骤指南，涵盖对象检测、实例分割和姿态评估：1.模型导出与转换1.1导出ONNX模型importtorchfrommodels.experimentalimportattempt_loadmodel=attempt_load('yolov11s.pt',fuse=True)model.eval
✅ TensorRT Python 安装精简流程（适用于 Ubuntu 20.04+） dbcccccsds python ubuntu 开发语言
安装TensorRTPython轮子的步骤确保pip和wheel模块已更新并安装：参考链接python3-mpipinstall--upgradepippython3-mpipinstallwheel1.确认环境要求Python：版本3.8-3.13OS：Ubuntu20.04+或Windows10+CPU：x86_64或ARMSBSA架构安装前确保pip、wheel是最新的：python3-mp
TensorRT-LLM——优化大型语言模型推理以实现最大性能的综合指南知来者逆 LLM 语言模型人工智能自然语言处理 TensorRT LLM 大语言模型深度学习
引言随着对大型语言模型(LLM)的需求不断增长，确保快速、高效和可扩展的推理变得比以往任何时候都更加重要。NVIDIA的TensorRT-LLM通过提供一套专为LLM推理设计的强大工具和优化，TensorRT-LLM可以应对这一挑战。TensorRT-LLM提供了一系列令人印象深刻的性能改进，例如量化、内核融合、动态批处理和多GPU支持。这些改进使推理速度比传统的基于CPU的方法快8倍，从而改变了
tensorrt部署yolov8 张张张子 YOLO python 边缘计算
记录一下部署过程遇到的问题，我是要再jstson上部署，首先导出onnx文件，没什么问题，然后又两种方案转为engine文件1：trtexec.exe--onnx=best.onnx--saveEngine=best.engine--fp16tensorrt库命令转换，过程中会遇到一些问题，这里不细讲了，可以查。2：用yolov8官方版本转换，较为容易，官方库写的比较好最后会得到trt文件或eng
YOLOv8 TensorRT 部署（Python 推理）保姆级教程码农的日常搅屎棍 YOLO python
本教程手把手教你如何在NVIDIAGPU或RK3588上部署YOLOv8TensorRT推理，让你从零基础到高性能AI推理！1.部署前的准备1.1硬件要求NVIDIAGPU（如RTX3060/4090、Jetson系列）或RK3588NPU（支持TensorRT）CUDA（如11.x）、cuDNN、TensorRT已正确安装可运行nvcc--version、dpkg-l|grepTensorRT检
深度学习部署包含哪些步骤？不学习怎么给老板打工？深度学习
深度学习部署包含哪些步骤？阶段说明示例工具模型导出把.pt、.h5等格式模型导出为通用格式（如ONNX）PyTorch,TensorFlow,ONNX推理优化减小模型体积、加速推理（量化、剪枝）TensorRT,ONNXRuntime系统集成将模型嵌入业务系统中运行（桌面、服务器、边缘设备）C++/C#/Python接口，Flask/Qt/WebApi上线运行打包运行环境，部署在云端、本地或设备上
TensorRT-YOLOv9：高效实时目标检测的利器幸生朋Margot
TensorRT-YOLOv9：高效实时目标检测的利器tensorrt-yolov9CppandpythonimplementationofYOLOv9usingTensorRTAPI项目地址:https://gitcode.com/gh_mirrors/te/tensorrt-yolov9项目介绍TensorRT-YOLOv9是一个基于YOLOv9的高性能目标检测模型实现，通过NVIDIA的Te
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，