清欢守护者

TensorRT 入门(5) TensorRT官方文档浏览

文章目录

- 0. 前言
- 1. Quick Start Guide 详解
- - 1.1. TensorRT 生态
  - 1.2. ONNX 样例
  - 1.3. TensorRT Runtime API
- 2. Developer Guide 详解
- - 2.1. TensorRT 简介
  - 2.2. C++/Python API
- 3. Best Practices For TensorRT Performance 详解
- - 3.1. 如何评估性能
  - 3.2. 如何提高TensorRT性能
  - 3.3. 如何提高 Layer/Plugin/Python 的性能

0. 前言

TensorRT官方文档
作为新手，我觉得TensorRT的文档并不是特别友好
- 总感觉TensorRT不好入门，对一些基本概念老是比较模糊。
- 一个主要原因在于我对文档不熟悉，不知道哪些内容有，哪些没有。
官方文档主要分为以下7个部分
- Getting Started：教程，主要包括
  - Quick Start Guide：主要就是跑通第一个样例，包括简介、安装、部署、Runtime API简介，后文单独介绍
  - Release Notes
  - Support Matrix：每个版本的TensorRT所对应环境（相关软件，如CUDA/cuDNN）、支持的操作/Layer等
  - Installation Guilde：下载、安装、卸载教程
- Inference Library：TensorRT库的一些使用相关内容，主要包括
  - API Reference：C++ API和Pthon API，内容不多，没啥花头
  - Developer Guide：开发者教程，这部分就比较重要了，后文单独介绍
  - Sample Support Guide：介绍现有的样例，看这里不如直接看源码以及对应的README
- Performance：TensorRT最佳实践，假设已经有了训练好的模型，要怎么通过TensorRT进行优化，后文单独介绍
- Optimized Frameworks：Nvidia容器（NVIDIA container）相关，也就是NGC
  - 没啥可看的，主要是各个版本的release notes。
- Tools：一些实用、独立的工具
  - ONNX GraphSurgeon：处理ONNX模型，可能就是增删改查吧
  - Polygraphy：没听说过，也查不到什么资料，可能没什么人用吧
  - pytorch-quantization’s documentation：英伟达提供的PyTorch模型量化工具……这方面我也不懂，好像PyTorch官方也提供了量化工具
- Licenses：协议，没细看。
- Archives：归档，旧版本的文档就是在这里找。
Tips：注意网页右上方，进入文档页面后可以下载PDF

1. Quick Start Guide 详解

文档，对应的jupyter
快速入门，其实也就是总体走一遍TensorRT的流程，大概介绍能够实现哪些功能。
TensorRT总体工作流程
- TensorRT包括优化模型以及模型部署两个基本功能。

本教程内容提要
- 安装：包括容器安装、deb安装、pip wheel安装，后面不详细看了
- TensorRT生态：对比不同转换、部署工作流
- ONNX部署样例：介绍模型转换与部署的基本流程，以及一些基本概念。
- TR-TRT集成：暂时不关心，后面不介绍了
- ONNX转换与部署：TF/Pytorch -> ONNX的基本内容
- TensorRT Runtime API介绍：介绍相关TensorRT的C++/Python API

1.1. TensorRT 生态

所有TensorRT部署工作都包括将模型转换为 optimized representation（也就是TensorRT中所谓的Engine）。
TensorRT基本流程包括：导出模型、设置Batch Size、设置模型精度（即Float32/Float16/Int8等）、转换模型（估计就是转换Engine）、部署模型（估计就是使用Runtime API以及转换好的Engine进行模型推理）。
模型转换与部署参数
- 模型转换，指的就是将其他类型转换为Engine形式，主要支持TF-TRT、ONNX、以及TensorRT API创建模型三种形式（可以用Python与C++ API）。
- 模型部署，有三种形式，使用TensorFlow部署、使用 standalone TensorRT runtime API、NVIDIA Triton Inference Server（模型部署服务器，BSD3协议，之前看过的一篇介绍博客）
选择工作流

1.2. ONNX 样例

主要内容：ONNX模型转换以及Python部署
- 第一步：导出模型，获取ONNX官方的Resnet-50模型
- 第二步：设置Batch Size。TensorRT支持动态batch size，但固定值的性能更好。
- 第三步：选择模型参数精度（支持TF32/FP32/FP16/INT8），更多信息请参考这里
- 第四步：模型转换，其实就是通过 trtexec 命令
  - 学习一些相关参数，比如指定输入--onnx=path/to/model.onnx，指定输出--saveEngine==path/to/model.trt，固定batch size--explicitBatch
- 第五步：部署模型，这里使用了 ONNXClassifierWrapper
模型转换进阶
- pytorch/tf -> ONNX 的方法介绍了
- ONNX -> TRT 有两种方法，trtexec工具以及 TensorRT API（这种方法不会自动保存trt文件）

1.3. TensorRT Runtime API

本节对应的代码在这里
C++
- C++ API更底层，性能更好。
- 基本流程如下（分割模型）：

// 1. 读取 engine 文件
std::vector<char> engineData(fsize);
engineFile.read(engineData.data(), fsize);
util::UniquePtr<nvinfer1::IRuntime> runtime{nvinfer1::createInferRuntime(sample::gLogger.getTRTLogger())};
util::UniquePtr<nvinfer1::ICudaEngine> mEngine(runtime->deserializeCudaEngine(engineData.data(), fsize, nullptr));

// 2. engine的输入输出初始化（也可以理解为 engine context 初始化）
// engine的输入是input，数据类型是float，shape是(1, 3, height, width)
auto input_idx = mEngine->getBindingIndex("input");
assert(mEngine->getBindingDataType(input_idx) == nvinfer1::DataType::kFLOAT);
auto input_dims = nvinfer1::Dims4{1, 3 /* channels */, height, width};
context->setBindingDimensions(input_idx, input_dims);
auto input_size = util::getMemorySize(input_dims, sizeof(float));
// engine的输出是output，数据类型是int32，自动获取输出数据shape
auto output_idx = mEngine->getBindingIndex("output");
assert(mEngine->getBindingDataType(output_idx) == nvinfer1::DataType::kINT32);
auto output_dims = context->getBindingDimensions(output_idx);
auto output_size = util::getMemorySize(output_dims, sizeof(int32_t));

// 3. inference 准备工作
// 为输入输出开辟显存空间
void* input_mem{nullptr};
cudaMalloc(&input_mem, input_size);
void* output_mem{nullptr};
cudaMalloc(&output_mem, output_size); 
// 定义图像norm操作
const std::vector<float> mean{0.485f, 0.456f, 0.406f};
const std::vector<float> stddev{0.229f, 0.224f, 0.225f};
auto input_image{util::RGBImageReader(input_filename, input_dims, mean, stddev)};
input_image.read();
auto input_buffer = input_image.process();
// 将处理好的数据转移到显存中
cudaMemcpyAsync(input_mem, input_buffer.get(), input_size, cudaMemcpyHostToDevice, stream);

// 4. 执行 inference 操作
// 通过 executeV2 or enqueueV2 激发 inference 的具体执行
void* bindings[] = {input_mem, output_mem};
bool status = context->enqueueV2(bindings, stream, nullptr);
// 获取预测结果
auto output_buffer = std::unique_ptr<int>{new int[output_size]};
cudaMemcpyAsync(output_buffer.get(), output_mem, output_size, cudaMemcpyDeviceToHost, stream);
cudaStreamSynchronize(stream);
// 释放资源
cudaFree(input_mem);
cudaFree(output_mem);

// 5. 输出预测结果
const int num_classes{21};
const std::vector<int> palette{
	(0x1 << 25) - 1, (0x1 << 15) - 1, (0x1 << 21) - 1};
auto output_image{util::ArgmaxImageWriter(output_filename, output_dims, palette, num_classes)};
output_image.process(output_buffer.get());
output_image.write();

Python
- Python API只是C++ API的binding。
- Python API与numpy等能够很好契合，方便原型开发、测试、调试。
- 代码如下（只关注tensorrt相关）

# 导入 engine 文件
def load_engine(engine_file_path):
    assert os.path.exists(engine_file_path)
    print("Reading engine from file {}".format(engine_file_path))
    with open(engine_file_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
        return runtime.deserialize_cuda_engine(f.read())

# inference pipeline，即 inference 基本流程
def infer(engine, input_file, output_file):
    # 读取输入图片
    print("Reading input image from file {}".format(input_file))
    with Image.open(input_file) as img:
        input_image = preprocess(img)
        image_width = img.width
        image_height = img.height

    # 创建 execution context 对象，并初始化各种信息
    with engine.create_execution_context() as context:
        # 设置输入数据shape
        # Set input shape based on image dimensions for inference
        context.set_binding_shape(engine.get_binding_index("input"), (1, 3, image_height, image_width))
        
        # 为输入输出分配显存，
        # Allocate host and device buffers
        # Allocate CUDA device memory for input and output.
        # Allocate CUDA page-locked host memory to efficiently copy back the output.
        bindings = []
        for binding in engine:
            binding_idx = engine.get_binding_index(binding)
            size = trt.volume(context.get_binding_shape(binding_idx))
            dtype = trt.nptype(engine.get_binding_dtype(binding))
            if engine.binding_is_input(binding):
                input_buffer = np.ascontiguousarray(input_image)
                input_memory = cuda.mem_alloc(input_image.nbytes)
                bindings.append(int(input_memory))
            else:
                output_buffer = cuda.pagelocked_empty(size, dtype)
                output_memory = cuda.mem_alloc(output_buffer.nbytes)
                bindings.append(int(output_memory))

        stream = cuda.Stream()
        # 将输入数据转存到显存中
        # Transfer input data to the GPU.
        # Transfer the processed image data into input memory using asynchronous host-to-device CUDA copy.
        cuda.memcpy_htod_async(input_memory, input_buffer, stream)
        
        # 执行模型推理
        # Run inference
        # Kickoff the TensorRT inference pipeline using the asynchronous execute API.
        context.execute_async_v2(bindings=bindings, stream_handle=stream.handle)
        
        # 将预测结果从显存转移到内存
        # Transfer prediction output from the GPU.
        # Transfer the segmentation output back into pagelocked host memory using device-to-host CUDA copy.
        cuda.memcpy_dtoh_async(output_buffer, output_memory, stream)
        
        # Synchronize the stream
        # Synchronize the stream used for data transfers and inference execution to ensure all operations are completes.
        stream.synchronize()

    # Finally, write out the segmentation output to an image file for visualization.
    # postprocess 图像结果后处理函数，从预测结果转换为UINT8 RGB图像
    with postprocess(np.reshape(output_buffer, (image_height, image_width))) as img:
        print("Writing output image to file {}".format(output_file))
        img.convert('RGB').save(output_file, "PPM")


# 如何调用前面两个函数
print("Running TensorRT inference for FCN-ResNet101")
with load_engine(engine_file) as engine:
    infer(engine, input_file, output_file)

2. Developer Guide 详解

文档，这教程的PDF有163页，这里也不会全部都介绍，只记录一些我感兴趣的，其他的还是要等用到的时候再说。
文档内容包括：
- TensorRT简介，工作流程、优势、适用场景、功能
- C++ API 简介
- Python API 简介
- 自定义Layer（Custom Layers）
- 混合精度（Mixed Precision）
- Reformat-Free Network I/O Tensors，还真不懂这个是啥
- 动态shape（Dynamic Shape）
- Empty Tensors
- Loops
- 量化网络（Quantized Networks）
- DLA
- MultiInstance GPU(MIG)
- 部署一个优化好的模型
- 与其他深度学习框架配合
- DALI
- 常见问题

2.1. TensorRT 简介

深度学习的基本阶段
- 第一阶段：模型训练，这一部分一般来说TensorRT不参加。
- 第二阶段：Developing A Deployment Solution（开发一个部署方案）
  - 本阶段开始时需要有一个训练好的模型。
  - 首先，考虑模型所在系统，设计并实现一个合理的部署方案（这个英文长句有点读不懂 Think about how the neural network functions within the larger system of which it is a part of and design and implement an appropriate solution.）。
    - 所谓“模型所在系统”就有很多情况了，比如自动驾驶系统、公共场景下的监控系统、终端语音交互系统等
    - 确定部署方案优先级。要考虑的问题有很多
      - 是单模型部署还是多模型部署
      - 使用什么设备进行推理，CPU/GPU/混合/多GPU
      - 模型输入是什么，文件/摄像头/网络连接
      - 数据预处理是什么，如果是图片的话需要切片、旋转吗
      - 模型延时以及吞吐量要求是什么
      - 是否需要多个请求集中处理（batch together multiple requests）
      - 是否需要构建同一个模型的多个拷贝，从而实现延时以及吞吐量要求
      - 模型预测结果要如何使用
      - 是否需要进行模型结果后处理
  - 其次，在确定优先级后，需要将训练好的模型进行转换
  - 再次，考虑优化参数（ optimization options ），如batch size，workspace size，mixed precision，dynamitcs shape上下限
  - 之后，验证优化后的模型，测试精度等
  - 最后，保存Engine文件
- 第三阶段：Deploying A Solution（实际部署）
  - 在确定了部署方案后，进行实际部署。
TensorRT的原理
- TensorRT获取模型结构与权重、进行模型优化、生成engine。
  - 这一步被称为 build phase，耗时较长（特别在嵌入式设备上），所以需要保存为一个本地文件。
  - 生成的文件不同在不同设备、不同TensorRT版本下使用。
- 具体执行的优化包括
  - Elimination of layers whose outputs are not used，如果layer的结果后续没有用到则删除该layer
  - Elimination of operations which are equivalent to no-op，删除 no-op 节点
  - The fusion of convolution, bias and ReLU operations，根据预定义，将一些算子合并为一个算子
  - Aggregation of operations with sufficiently similar parameters and the same source tensor (for example, the 1x1 convolutions in GoogleNet v5’s inception module)，这个没看懂，说是将有相同输入且参数类似的操作合并，不知道指的是啥
  - Merging of concatenation layers by directing layer outputs to the correct eventual destination.合并concat层，这个有一点理解，大概是先开辟好空间，直接将concat几个输入的结果分别保存到开辟好空间的不同位置中吧。
- 如有必要，也会在build过程中修改参数的精度
TensorRT提供了哪些功能
- 模型定义：将其他深度学习框架训练好的模型转换为TensorRT的形式
- Optimization Profile：不知道该怎么翻译，是为了动态shape进行的
- Builder Configuration：定义了创建engine的一些细节，感觉就是一些配置
- Builder：定义了从模型到engine构建的接口
- Engine：执行engine的一些接口
- Caffe/UFF/ONNX Parser，就是解析Caffe/UFF/ONNX模型

2.2. C++/Python API

两者对比
- 总体来说，两者差不多。
- C++ API应该用在性能优先、安全性非常重要的场景中。
- Python API的主要优势是数据预处理与后处理非常方便，有众多第三方包的支持。
剩下的内容其实就是一些代码实例，下面大概罗列一下，用到的时候再查吧，现在看了到时候也忘了
API介绍（没单独说的就是Python和C++都支持）
- 创建TensorRT对象（仅C++）：主要包括 IExecutionContext（用于inference）和ICudaEngine（engine）
- 创建网络：包括直接通过TensorRT API一层一层构建，或通过ONNX/UFF/Caffe Parser转换
- 创建Engine
- 序列化Engine
- Inference
- 内存管理（仅C++）
- refit an engine（仅C++）：就是将engine文件替换参数
- Algorithm Selection（仅C++）：不知道干什么用的，好像是Engine创建过程中的算法？

3. Best Practices For TensorRT Performance 详解

TensorRT性能优化最佳实践，主要内容包括
- 如何评估性能，介绍了一堆性能指标以及工具
- 如何提高TensorRT性能
- 如何提高Layer的性能
- 如何提高Plugins的性能
- 如何提高Python的性能

3.1. 如何评估性能

指标
- Latency，inference时间，
- Throughout，吞吐量，固定时间内执行了多少次推理
如何选择时间点（性能都有时间，时间的起止时间点选择非常重要）
- 整体系统的性能一般会计算所有时间（包括数据预处理与后处理等）
- 但不同任务的数据预处理、后处理等时间差距太大，所以本文只考虑模型推理时间。
- 另外一种测试方式是，确定latency的最大值（猜测超过最大值就结束本次推理），计算固定时间内的inference次数。这种方法是 quality-of-service measurement，可以很好的比较用户体验与系统性能。
工具：
- trtexec提供了相关工具
- 也可以通过NVIDIA Triton Inference Server来测试并行推理性能。
CPU时间测试，有一段测试代码
CUDA Events：由于存在 host/device 同步问题，不能通过直接的方法获取时间。这可以通过CUDA Events来实现
TensorRT内置Profile
CUDA Profiling：说有俩工具NVIDIA Nsight Compute和NVIDIA Nsight Systems，没细看。
内存：说是通过a simple custom GPU allocator来监控，但也没细说。

3.2. 如何提高TensorRT性能

说白了，就是为了提高性能，TensorRT提供了哪些功能
- 文档里还说了一句，CUDA程序员看这些很合适，其他菜鸡（比如我）可能就看不懂了
Mixed Precision
- 混合精度，也就是权重的数据类型，支持FP32/FP16/INT8
- 默认是FP32，如果选择FP16模式则使用FP16或FP32，如果选择INT8模式则使用INT8或FP32
- 为了获得更好的性能，可以同时指定FP16和INT8模式，三种精度混用。
- 还可以使用trtexec中的--best选项
Batching
- 一个Batch就是一组输入。
- 这种策略增加了每个输入的latency，但提高了总体吞吐量
Streaming
- CUDA 中的streams是处理同步任务的一种方式，即同步命令放到一个stream中，其中的命令会按顺序依次执行。同一个stream中是确定同步执行的，多个streams则是异步的。
- 使用多个stream提高并行度从而提高性能。
- 使用流程大概是：
  - Identify the batches of inferences that are independent.
  - Create a single engine for the network.
  - Create a CUDA stream using cudaStreamCreate for each independent batch and an IExecutionContext for each independent batch.
  - Launch inference work by requesting asynchronous results using IExecutionContext::enqueue from the appropriate IExecutionContext and passing in the appropriate stream.
  - After all the work has been launched, synchronize with all the streams to wait for results. The execution contexts and streams can be reused for later batches of independent work.
Thread Safety
- 一个TesnorRT builder只能被一个线程使用，如果要多线程就需要创建多个builder
- 只要每个object使用不同的execution context，那么TensorRT runtime就可以被多个线程同时使用
Initializing The Engine
- 初始化Engine的时候会进行很多优化，并进行测试
Enabling Fusion：使用Fusion操作，其实就是合并操作

3.3. 如何提高 Layer/Plugin/Python 的性能

Layer：介绍了一些Layer的优化方法，包括concat/gather/matrixmultiply/fc/reduce/rnn/topk
Plugins：连插件是啥我都没了解，这部分就没看
Python：跟C++没啥区别，model inference的时间应该和C++差不多

已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Ubuntu20.04 RTX4060 AI环境搭建 stxinu 人工智能人工智能
下面记录在Ubuntu20.04环境下，使用ASUSATS-RTX4060-O8G-V2显卡，搭建NvidiaTensorRT开发环境。1.安装步骤0）准备工作使用如下命令创建我们的工作目录：mkdir~/nvidia再使用如下命令进入到上面的目录（接下来的步骤，如无特殊说明，均在该目录下进行）：cd~/nvidia1）安装CUDA下载并安装NVIDIACUDAToolkit：wgethttps:
CMake Error at myplugins_generated_yololayer.cu.o.Debug，tensorrtx编译失败解决雪可问春风 BUG 人工智能
system:ubuntu1804gpu:3060cuda:cuda11.4tensorrt:8.4使用项目tensorrtx进行yolov5的engine生成，之前在编译成功的配置为system:ubuntu1804gpu:2060cuda:cuda10.2tensorrt:7.2.3.4换到3060后，make失败，报错错误：/home/yfzx/work/vs-work/tensorrt-y
TensorRT-LLM保姆级教程-快速入门大模型八哥笔记 agi ai 大模型 ai大模型 LLM Transformer
随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇，将简要概述TensorRT-LLM的基本特性。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github，有需要的朋友自
本地部署时，如何通过硬件加速（如 CUDA、TensorRT）提升 DeepSeek 的推理性能？不同显卡型号的兼容性如何测试？百态老人人工智能科技算法 vscode
本地部署DeepSeek模型的硬件加速优化与显卡兼容性测试指南一、硬件加速技术实现路径CUDA基础环境搭建版本匹配原则：根据显卡架构选择CUDA版本（如NVIDIARTX50系列需CUDA12+，V100需CUDA11.x），并通过nvcc--version验证安装。GPU加速验证：运行以下代码检查硬件加速状态：importtensorflowastfprint("可用GPU数量：",len(tf
人工智能 - TensorRT与DeepDP终极指南：释放GPU潜能的深度学习推理优化之道天机️灵韵具身智能 VLA 人工智能人工智能算法深度学习 pytorch
TensorRTTensorRT（TensorRuntime）是英伟达（NVIDIA）推出的高性能深度学习推理（Inference）优化器和运行时库，专为在NVIDIAGPU上高效部署深度学习模型而设计。它通过模型压缩、计算图优化、硬件级加速等技术，显著提升推理速度并降低资源消耗，广泛应用于自动驾驶、工业检测、实时视频分析等对延迟敏感的领域。一、TensorRT的核心功能模型优化与加速层融合（La
onnx处理和TensorRT量化推理相关代码工具天亮换季人工智能算法深度学习
一.说明在模型量化过程中，经常要使用一些工具对onnx或者量化后的模型（这里以TensorRT为例）进行推理，往往需要一些处理工具，比如：拆分或者合并onnx；修改onnx中的量算子QuantizeLinear的scale值；以及使用onnxruntime进行推理；TensorRT的序列化文件的inference；隐式量化生成量化校准表…现提供一些封装好的工具，作为记录，方便日后查阅使用"
CUDA12.1 cudnn9.0.1 python3.10.12配置TensorRT8.6.1，完成yolov12tensorRT推理完整过程李卓璐算法实战 YOLO
一、配置TensorRT8.6.11.下载TensorRT8.6.1包TensorRT完全依赖CUDA，因此下载其版本时一定要考虑CUDA的版本。具体应该下载哪一版本的TensorRT呢，这里我问的秘塔AI，你们也可以问问它。官网地址-tensorRT8.6.1安装包下载2.解压安装包这里要注意，如果你和我一样是给win下的但是要在Linux服务器上使用。千万不要在win的环境下进行安装包的解压操
ONNX GraphSurgeon详细介绍 Lntano__y 模型部署算法
ONNXGraphSurgeon(ONNX-GS)是一个用于操作和修改ONNX（OpenNeuralNetworkExchange）模型图的Python库。它允许开发者在ONNX模型的图结构中进行修改、优化、插入节点、删除节点以及其他图结构操作，是在深度学习推理部署过程中非常有用的工具。ONNXGraphSurgeon常用于TensorRT中，用来优化和调整ONNX模型，以便于模型可以高效地在GP
Jetson系列: tensorrt-python推理yolov5（一） weixin_55083979 jetson系列 YOLO pytorch 深度学习
目录一.onnx模型导出二.TensorRT模型本地序列化三.算法整体Pipline架构四.算法整体Pipline实现一.onnx模型导出在使用tensorrt进行加速之前需要将自己的torch模型转为onnx格式的，这个操作很基础就不赘述了，自己根据自己的任务、部署设备选择合适的batch/infersize/opsetyolov5官方导出onnx脚本Example:```pythonfromp
【深度学习模型高效部署】tensorRT_Pro深度解读：部署深度学习模型的高效方案云博士的AI课堂深度学习哈佛博后带你玩转机器学习深度学习人工智能 tensorRT_Pro TensorRT 高性能推理机器学习模型部署
以下内容将对tensorRT_Pro项目做一个系统的介绍，包括其核心价值、主要功能、应用案例以及关键的示例代码（附详细解释），帮助你快速了解并上手如何基于TensorRT在NVIDIAGPU上实现高性能推理。一、项目概述GitHub-shouxieai/tensorRT_Pro:C++librarybasedontensorrtintegrationtensorRT_Pro是由开发者shouxie
【yolov8】模型导出----pytorch导出为onnx模型栗子风暴 YOLO pytorch 人工智能深度学习
【yolov8】模型导出一、为什么要使用yolo的导出模式二、确保安装必要的库：三、yolov8模型导出3.1不同格式配置参数3.2导出格式四、导出模型性能优化4.1使用TensorRT导出模型有什么好处？4.2导出YOLOv8模型时，如何启用INT8量化？4.3为什么输出模型时动态输入尺寸很重要？4.4优化模型性能需要考虑哪些关键的导出参数？五、问题六、疑问训练模型的最终目标是将其部署到实际应用
C++使用Onnxruntime/TensorRT模型推理奇华智能 AI c++开发语言人工智能 AI 计算机视觉
onnxruntime和tensorrt是我们常用的两种推理方式，下面整理了两个推理示例，仅供参考。步骤流程模型训练，python下生成pytorch的模型.pth，并基于.pth模型进行推理python下依据模型推理实现从.pth转向.onnxpython下基于.onnx进行推理，与后续两种推理方式种的推理结果进行比较环境windows10+RTX308015GB显存cuda11.3onnxru
cap4：YoloV5的TensorRT部署指南（python版）我是一个对称矩阵 TensorRT全流程部署指南 YOLO python 人工智能 TensorRT 模型部署
《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（python版）cap3：自定义数据集训练ResNet的TensorRT部署指南（python版）cap4：YoloV5目标检测任务的TensorRT部署指南（python版）cap5：YoloV5
PyTorch `.pth` 转 ONNX：从模型训练到跨平台部署 MO__YE 人工智能
PyTorch.pth转ONNX：从模型训练到跨平台部署在深度学习里，模型的格式决定了它的可用性。如果你是PyTorch用户，你可能熟悉.pth文件，它用于存储训练好的模型。但当你想在不同的环境（如TensorRT、OpenVINO、ONNXRuntime）部署模型时，.pth可能并不适用。这时，ONNX（OpenNeuralNetworkExchange）就必不可少。本文目录：什么是.pth文件
PyTorch `.pth` 转 ONNX：从模型训练到跨平台部署 MO__YE pytorch 人工智能 python
PyTorch.pth转ONNX：从模型训练到跨平台部署在深度学习里，模型的格式决定了它的可用性。如果你是PyTorch用户，你可能熟悉.pth文件，它用于存储训练好的模型。但当你想在不同的环境（如TensorRT、OpenVINO、ONNXRuntime）部署模型时，.pth可能并不适用。这时，ONNX（OpenNeuralNetworkExchange）就必不可少。本文目录：什么是.pth文件
[C#]C#使用yolov8的目标检测tensorrt模型+bytetrack实现目标追踪 FL1623863129 深度学习 c#YOLO 目标检测
【测试通过环境】win10x64vs2019cuda11.7+cudnn8.8.0TensorRT-8.6.1.6opencvsharp==4.9.0.NETFramework4.7.2NVIDIAGeForceRTX2070Super版本和上述环境版本不一样的需要重新编译TensorRtExtern.dll，TensorRtExtern源码地址：TensorRT-CSharp-API/src/T
c++加载TensorRT调用深度学习模型方法 feibaoqq 深度学习深度学习 YOLO
使用TensorRT来调用训练好的模型并输出结果是一个高效的推理过程，特别是在需要低延迟和高吞吐量的应用场景中。以下是一个基本的步骤指南，展示了如何在C++中使用TensorRT进行推理。步骤1：准备环境安装TensorRT：确保你已经安装了NVIDIATensorRT库。准备模型：确保你的训练好的模型已经转换为TensorRT支持的格式，通常是一个.engine文件。你可以使用onnx-tens
tensorrt推理 onxx转engine代码（python），cyclegan网络推理（python、C++） maobin_1 python c++
将onnx文件导出为engine，FP16格式importtensorrtastrtimportpycuda.driverascudaimportpycuda.autoinit#加载ONNX文件onnx_file_path='model.onnx'engine_file_path='model_tesfp16.trt'TRT_LOGGER=trt.Logger(trt.Logger.WARNI
模型实战（19）之从头搭建yolov9环境+tensorrt部署+CUDA前处理 -＞实现目标检测明月醉窗台 #深度学习实战例程目标检测人工智能计算机视觉图像处理 YOLO
从头搭建yolov9环境+tensorrt部署实现目标检测yolov9虚拟环境搭建实现训练、推理与导出导出onnx并转为tensorrt模型Python\C++-trt实现推理，CUDA实现图像前处理文中将给出详细实现源码python、C++效果如下：output_video_11.搭建环境拉下官方代码根据配置下载虚拟环境所需包详细步骤如下：
pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署机械心深度学习 python pytorch
目录1.采用pytorch进行推理2.采用onnx进行推理2.1pytorch转换为onnx2.2onnx推理3.采用tensorrt进行推理（python环境）3.1onnx转engine文件3.2tensorrt推理4.采用tensorrt进行推理（c++环境）5.采用torch2trt进行推理（python环境）在pytorch框架下，可以很方便进行深度学习模型的搭建、训练和保存。当模型训练
【Windows/C++/yolo开发部署03】将实例分割模型ONNX导出为 TensorRT 引擎：完整记录认识祂 CV计算机视觉 Ultralytics yolo 实例分割模型部署
【完整项目下载地址】：【TensorRT部署YOLO项目：实例分割+目标检测】+【C++和python两种方式】+【支持linux和windows】资源-CSDN文库目录写在前面环境准备1.使用trtexec将ONNX模型转换为TensorRT引擎2.验证TensorRT引擎2.1TensorRT版本2.2GPU信息2.3TensorRT引擎信息2.4推理请求2.5推理性能2.6警告信息2.7其他
TensorRT-LLM保姆级教程（一）-快速入门大模型部署人工智能 transformer 产品经理自然语言处理 kubernetes 大模型 LLM
随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第一篇，将简要概述TensorRT-LLM的基本特性。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github：llm-act
ONNX推理warning： TensorRT does not natively support INT64. Attempting to cast down to INT32. paradoxjun 人工智能
只想用ONNX进行模型推理，加载时报Warning，加载模型时间也特别长。加载模型的代码：self.session=onnxruntime.InferenceSession(model_path,providers=onnxruntime.get_available_providers())修改为：self.session=onnxruntime.InferenceSession(model_pa
通过TenSorRT转换后的engine引擎文件进行验证的脚本薇憨深度学习-硬件篇嵌入式硬件 mcu python
YOLOv8算法验证pt文件的精度脚本一般都很常见，工程项目里面一般会有importwarningswarnings.filterwarnings('ignore')fromultralyticsimportYOLOif__name__=='__main__':model=YOLO('/best.pt')#权重文件路径model.val(data='/data.yaml',#yaml文件路径spl
【TensorRT】引用了NvInferRuntimeCommon.h仍然报找不到ILogger TechBoL 人工智能
如果编译遇到error:‘ILogger’innamespace‘nvinfer1’doesnotnameatype或者error:‘nvinfer1::ILogger’hasnotbeendeclared可能需要显式的添加#include"NvInfer.h"即只includeNvInferRuntimeCommon.h是不够的。
nvdia triton server运行pt文件滑稽的柴犬神经网络机器学习 python
tritonserver默认都是tensorrt推理。但也会出现有操作不支持，导致无法转模型为engine的情况。可以选择直接运行pytorch的pt文件，以下为操作步骤。1.pytorch后端环境编译步骤原理是使用pytorchC++API运行pt文件模型。安装依赖项apt-getinstallpatchelfrapidjson-devpython3-dev构建NGC的PyTorch容器。例如，
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
导出 YOLOv11 模型的详细步骤和说明 old_power 计算机视觉 YOLO 人工智能计算机视觉
以下是关于如何导出YOLOv11模型的详细步骤和说明：1.导出YOLOv11模型的基本步骤YOLOv11模型可以通过Ultralytics提供的接口轻松导出为多种格式，如ONNX、TensorRT、CoreML等。以下是导出模型的基本步骤：1.1安装Ultralytics库首先，确保已安装Ultralytics库：pipinstallultralytics1.2加载模型并导出使用Python代码加
【CUDA-BEVFusion】tool/build_trt_engine.sh 文件解读 old_power 计算机视觉计算机视觉深度学习
build_trt_engine.sh#configuretheenvironment.tool/environment.shif["$ConfigurationStatus"!="Success"];thenecho"Exitduetoconfigurefailure."exitfi#tensorrtversion#version=`trtexec|grep-m1TensorRT|sed-n"s
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

TensorRT 入门(5) TensorRT官方文档浏览

文章目录

0. 前言

1. Quick Start Guide 详解

1.1. TensorRT 生态

1.2. ONNX 样例

1.3. TensorRT Runtime API

2. Developer Guide 详解

2.1. TensorRT 简介

2.2. C++/Python API

3. Best Practices For TensorRT Performance 详解

3.1. 如何评估性能

3.2. 如何提高TensorRT性能

3.3. 如何提高 Layer/Plugin/Python 的性能

你可能感兴趣的:(TensorRT)