HanBlogs

TensorRT优化原理和TensorRT Plguin总结

文章目录

1. TensorRT优化原理
2. TensorRT开发基本流程
3. TensorRT Network Definition API
4. TensorRT Plugin

4.1 实现plugin
4.2 编译plugin.so动态库
4.3 在TensorRT中加载plugin

5. plugin实例

1. TensorRT优化原理

TensorRT加速DL Inference的能力来源于optimizer和runtime。其优化原理包括四个方面：

Layer & Tensor fusion: 将整个网络中的convolution、bias和ReLU层进行融合，调用一个统一的kernel进行处理，让数据传输变快，kernel lauch时间减少，实现加速。此外，还会消除一些output未被使用的层、聚合一些相似的参数和相同的源张量。
Mix precision：使用混合精度，降低数据的大小，减少计算量。
kernel auto-tuning：基于采用的硬件平台、输入的参数合理的选择一些层的算法，比如不同卷积的算法，自动选择GPU上的kernel或者tensor core等。
Dynamic tensor memory：tensorrt在运行中会申请一块memory，最大限度的重复利用此内存，让计算变得高效。

2. TensorRT开发基本流程

下面代码介绍了TensorRT开发基本流程：

from random import randint
from PIL import Image
import numpy as np

import pycuda.driver as cuda
# This import causes pycuda to automatically manage CUDA context creation and cleanup.
import pycuda.autoinit
import tensorrt as trt
import sys, os
sys.path.insert(1, os.path.join(sys.path[0], ".."))
import common

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

class ModelData(object):
    MODEL_FILE = "lenet5.uff"
    INPUT_NAME ="input_1"
    INPUT_SHAPE = (1, 28, 28)
    OUTPUT_NAME = "dense_1/Softmax"

def allocate_buffers(engine):
    inputs = []
    outputs = []
    bindings = []
    stream = cuda.Stream()
    for binding in engine:
        size = trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size
        dtype = trt.nptype(engine.get_binding_dtype(binding))
        # Allocate host and device buffers
        host_mem = cuda.pagelocked_empty(size, dtype)
        device_mem = cuda.mem_alloc(host_mem.nbytes)
        # Append the device buffer to device bindings.
        bindings.append(int(device_mem))
        # Append to the appropriate list.
        if engine.binding_is_input(binding):
            inputs.append(HostDeviceMem(host_mem, device_mem))
        else:
            outputs.append(HostDeviceMem(host_mem, device_mem))
    return inputs, outputs, bindings, stream

def do_inference(context, bindings, inputs, outputs, stream, batch_size=1):
    # Transfer input data to the GPU.
    [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]
    # Run inference.
    context.execute_async(batch_size=batch_size, bindings=bindings, stream_handle=stream.handle)
    # Transfer predictions back from the GPU.
    [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]
    # Synchronize the stream
    stream.synchronize()
    # Return only the host outputs.
    return [out.host for out in outputs]

def build_engine(model_file):
    with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network, trt.UffParser() as parser:
        builder.max_workspace_size = common.GiB(1)
        # Parse the Uff Network
        parser.register_input(ModelData.INPUT_NAME, ModelData.INPUT_SHAPE)
        parser.register_output(ModelData.OUTPUT_NAME)
        parser.parse(model_file, network)
        # Build and return an engine.
        return builder.build_cuda_engine(network)

# Loads a test case into the provided pagelocked_buffer.
def load_normalized_test_case(data_path, pagelocked_buffer, case_num=randint(0, 9)):
    test_case_path = os.path.join(data_path, str(case_num) + ".pgm")
    # Flatten the image into a 1D array, normalize, and copy to pagelocked memory.
    img = np.array(Image.open(test_case_path)).ravel()
    np.copyto(pagelocked_buffer, 1.0 - img / 255.0)
    return case_num

def main():
    data_path, _ = common.find_sample_data(description="Runs an MNIST network using a UFF model file", subfolder="mnist")
    model_path = os.environ.get("MODEL_PATH") or os.path.join(os.path.dirname(__file__), "models")
    model_file = os.path.join(model_path, ModelData.MODEL_FILE)

    with build_engine(model_file) as engine:
        # Build an engine, allocate buffers and create a stream.
        inputs, outputs, bindings, stream = common.allocate_buffers(engine)
        with engine.create_execution_context() as context:
            case_num = load_normalized_test_case(data_path, pagelocked_buffer=inputs[0].host)  
            [output] = common.do_inference(context, bindings=bindings, inputs=inputs, outputs=outputs, stream=stream)
            pred = np.argmax(output)
            print("Test Case: " + str(case_num))
            print("Prediction: " + str(pred))

if __name__ == '__main__':
    main()

3. TensorRT Network Definition API

除了使用parse的方式解析模型，还可以使用Network Definition API重构整个模型，重构的方式如下图所示：

首先创建一个builder和INetworkDefinition对象network，然后开始构建network架构。一开始调用network->addInput函数添加一个input层，然后在Input的基础上再继续添加其它层，如：卷积层、Scale层、Softmax层等，构建完整个网络之后，最后设置一下整个网络的output name，并标记整个网络的输出。

这只是定义网络的骨架，那网络的权重如何导入呢？
在使用INetorkDefinition API构建network之前，需要先从checkpoint文件中将Weight导出来，在定义每一层网络时，再将Weight塞进去。如上面定义Convolution时，给出weightMap的参数，将weight导入进去。

上面介绍了TensorRT导入模型的两种方式：

Paser: 解析模型文件。
Network Definition API: 重新定义整个模型。

使用Paser方式，一般支持的层数只有十几层，那对于那些额外的不能解析的层怎么办呢？（如RNN，目前RNN还不能直接被Paser解析）
一般做法是使用Network Definition API重构这个模型，然后通过network.addRNN()函数添加RNN layer的方式解决这个问题。
目前TensorRT5.1 Network Definition API支持的层为：

如果我有一些非常不标准的层或者是我自己想定制化的层，没有办法通过Paser或者Network Definition API构建，那么该怎么办呢？
TensorRT提供了第三种方式——自定义Plugin的方式，通过自己开发CUDA，实现自定义的Layer，然后把它封装成TensortRT的Plugin，这样TensorRT可以识别自定义的层。

4. TensorRT Plugin

首先要明确Plugin是做什么的？Plugin是我们针对某个需要定制化的层或目前TensorRT还不支持的层进行实现、封装。
TensorRT Plugin是对网络层功能的扩展，TensorRT官方已经预构建了一些在目标检测中经常使用的Plugin，如：NMS、PriorBOX等，我们可以在TensorRT直接使用，其他的Plugin则需要我们自己创建。
下图显示了TensorRT官方已经构建的Plugin：

4.1 实现plugin

Plugin的实现需要分为三步：目前只能以C++实现：

Kernel代码实现：这部分是该layer需要做的具体的CUDA操作，一般放在xxx.cu、xxx.h文件中。
IPluginV2：plugin的基类，所有的插件都需要继承该类。
IPluginCreator: 该类用于在build network时创建plugin对象，或者在inference时deserialize创建plugin对象。

4.2 编译plugin.so动态库

当上面的三个类型文件实现后，即可创建Plugin.so动态库文件了，一般用CMake混合编译C++与cuda。具体可以参考：

https://blog.csdn.net/fb_help/article/details/79330815
https://pytorch.org/tutorials/advanced/cpp_extension.html

由于torch包实现CUDAExtension编译，因此这里使用此方式来混合编译，代码如下：

from setuptools import setup
from torch.utils.cpp_extension import BuildExtension, CUDAExtension

setup(
    name='retinanet_plugin',
    ext_modules=[
        CUDAExtension('retinanet_plugin',
            ['plugins/DecodePlugin.cpp', 'plugins/NMSPlugin.cpp', 'cuda/decode.cu', 'cuda/nms.cu'],
            extra_compile_args={
                'cxx': ['-std=c++11', '-O2', '-Wall'],
                'nvcc': [
                    '-std=c++11', '--expt-extended-lambda','-Xcompiler', '-Wall',
                    '-gencode=arch=compute_30,code=sm_30', '-gencode=arch=compute_35,code=sm_35',
                    '-gencode=arch=compute_61,code=sm_61', '-gencode=arch=compute_62,code=sm_62',
                    '-gencode=arch=compute_70,code=sm_70', '-gencode=arch=compute_72,code=sm_72',
                    '-gencode=arch=compute_75,code=sm_75', '-gencode=arch=compute_75,code=compute_75'
                ],
            },
            libraries=['nvinfer', 'nvinfer_plugin', 'nvonnxparser', 'opencv_highgui', 'opencv_imgproc', 'opencv_imgcodecs'])
    ],
    cmdclass={
        'build_ext': BuildExtension
    })

执行下面命令，可以得到retinanet_plugin.so文件：

# python setup.py install
# ll /usr/local/lib/python3.5/dist-packages/retinanet_plugin-0.0.0-py3.5-linux-x86_64.egg
total 4008
drwxr-sr-x 4 root staff     144 Aug  9 07:01 ./
drwxrwsr-x 1 root staff     289 Aug  9 07:00 ../
drwxr-sr-x 2 root staff     161 Aug  9 07:00 EGG-INFO/
drwxr-sr-x 2 root staff      53 Aug  9 07:00 __pycache__/
-rwxr-xr-x 1 root staff 4097408 Aug  9 07:00 retinanet_plugin.cpython-35m-x86_64-linux-gnu.so*
-rw-r--r-- 1 root staff     321 Aug  9 07:00 retinanet_plugin.py

4.3 在TensorRT中加载plugin

加载plugin的方式如下图：

1）使用C++时，直接调用initLibNvinferPlugins()即可将TensorRT pre-build plugin和我们自定义的plugin全部注册进来。

2）当使用python时，需要先使用ctypes.CDLL(XX_PLUGIN_LIBRARY)将动态库文件载入进来，然后调用trt.init_libnvinfer_plugins(TRT_LOGGER, ‘’)方法将TensorRT pre-build plugin和我们自定义的plugin全部注册进来。对于uff模型，parser在解析网络的时候TensorRT会自动map layer到plugin。而对于engine文件，tensorrt会自动搜索并使用注册进来plugin。

5. plugin实例

例1：使用Plugin替换原pb模型中的layer，作成uff模型
主要分为以下几步：

设置原pb模型node与plugin node的映射关系，并进行“手术”
参照sample：/usr/src/tensorrt/samples/python/u_ssd/utils/model.py

def ssd_unsupported_nodes_to_plugin_nodes(ssd_graph):
    """Makes ssd_graph TensorRT comparible using graphsurgeon.

    This function takes ssd_graph, which contains graphsurgeon
    DynamicGraph data structure. This structure describes frozen Tensorflow
    graph, that can be modified using graphsurgeon (by deleting, adding,
    replacing certain nodes). The graph is modified by removing
    Tensorflow operations that are not supported by TensorRT's UffParser
    and replacing them with custom layer plugin nodes.

    Note: This specific implementation works only for
    ssd_inception_v2_coco_2017_11_17 network.

    Args:
        ssd_graph (gs.DynamicGraph): graph to convert
    Returns:
        gs.DynamicGraph: UffParser compatible SSD graph
    """
    # Create TRT plugin nodes to replace unsupported ops in Tensorflow graph
    channels = ModelData.get_input_channels()
    height = ModelData.get_input_height()
    width = ModelData.get_input_width()


Input = gs.create_plugin_node(name="Input",
        op="Placeholder",
        dtype=tf.float32,
        shape=[1, channels, height, width])
    PriorBox = gs.create_plugin_node(name="GridAnchor", op="GridAnchor_TRT",
        minSize=0.2,
        maxSize=0.95,
        aspectRatios=[1.0, 2.0, 0.5, 3.0, 0.33],
        variance=[0.1,0.1,0.2,0.2],
        featureMapShapes=[19, 10, 5, 3, 2, 1],
        numLayers=6
    )
    NMS = gs.create_plugin_node(
        name="NMS",
        op="NMS_TRT",
        shareLocation=1,
        varianceEncodedInTarget=0,
        backgroundLabelId=0,
        confidenceThreshold=1e-8,
        nmsThreshold=0.6,
        topK=100,
        keepTopK=100,
        numClasses=91,
        inputOrder=[0, 2, 1],
        confSigmoid=1,
        isNormalized=1
    )
    concat_priorbox = gs.create_node(
        "concat_priorbox",
        op="ConcatV2",
        dtype=tf.float32,
        axis=2
    )
    concat_box_loc = gs.create_plugin_node(
        "concat_box_loc",
        op="FlattenConcat_TRT",
        dtype=tf.float32,
    )
    concat_box_conf = gs.create_plugin_node(
        "concat_box_conf",
        op="FlattenConcat_TRT",
        dtype=tf.float32,
    )

# 设置映射关系
    # Create a mapping of namespace names -> plugin nodes.
    namespace_plugin_map = {
        "MultipleGridAnchorGenerator": PriorBox,
        "Postprocessor": NMS,
        "Preprocessor": Input,
        "ToFloat": Input,
        "image_tensor": Input,
        "MultipleGridAnchorGenerator/Concatenate": concat_priorbox,
        "MultipleGridAnchorGenerator/Identity": concat_priorbox,
        "concat": concat_box_loc,
        "concat_1": concat_box_conf
    }
    
    # Create a new graph by collapsing namespaces
    ssd_graph.collapse_namespaces(namespace_plugin_map)
    # Remove the outputs, so we just have a single output node (NMS).
    # If remove_exclusive_dependencies is True, the whole graph will be removed!
    ssd_graph.remove(ssd_graph.graph_outputs, remove_exclusive_dependencies=False)
    return ssd_graph

2）生成uff模型文件

def model_to_uff(model_path, output_uff_path, silent=False):
    """Takes frozen .pb graph, converts it to .uff and saves it to file.

    Args:
        model_path (str): .pb model path
        output_uff_path (str): .uff path where the UFF file will be saved
        silent (bool): if True, writes progress messages to stdout

    """
    dynamic_graph = gs.DynamicGraph(model_path)
    dynamic_graph = ssd_unsupported_nodes_to_plugin_nodes(dynamic_graph)

    uff.from_tensorflow(
        dynamic_graph.as_graph_def(),
        [ModelData.OUTPUT_NAME],
        output_filename=output_uff_path,
        text=True
    )

3）加载.so库文件

ctypes.CDLL(PATHS.get_flatten_concat_plugin_path())

4）加载uff模型文件，创建engine
加载所有自定义的plugin

trt.init_libnvinfer_plugins(TRT_LOGGER, '')

创建engine

def build_engine(uff_model_path, trt_logger, trt_engine_datatype=trt.DataType.FLOAT, batch_size=1, silent=False):
    with trt.Builder(trt_logger) as builder, builder.create_network() as network, trt.UffParser() as parser:
        builder.max_workspace_size = 1 << 30
        if trt_engine_datatype == trt.DataType.HALF:
            builder.fp16_mode = True
        builder.max_batch_size = batch_size

        parser.register_input(ModelData.INPUT_NAME, ModelData.INPUT_SHAPE)
        parser.register_output("MarkOutput_0")
        parser.parse(uff_model_path, network)

        if not silent:
            print("Building TensorRT engine. This may take few minutes.")

        return builder.build_cuda_engine(network)

5）save、load engine

def save_engine(engine, engine_dest_path):
    buf = engine.serialize()
    with open(engine_dest_path, 'wb') as f:
        f.write(buf)

def load_engine(trt_runtime, engine_path):
    with open(engine_path, 'rb') as f:
        engine_data = f.read()
    engine = trt_runtime.deserialize_cuda_engine(engine_data)
    return engine

例2：使用Network De×nition API及Plugin创建网络模型
在使用Network Denition API及Plugin创建网络模型时，则只需要使用network.add_plugin_v2方法来构建网络即可。参照以下例子:

import tensorrt as trt
import numpy as np
TRT_LOGGER = trt.Logger()
trt.init_libnvinfer_plugins(TRT_LOGGER, '')
PLUGIN_CREATORS = trt.get_plugin_registry().plugin_creator_list

def get_trt_plugin(plugin_name):
    plugin = None
    for plugin_creator in PLUGIN_CREATORS:
        if plugin_creator.name == plugin_name:
            lrelu_slope_field = trt.PluginField("neg_slope",    np.array([0.1], dtype=np.float32), trt.PluginFieldType.FLOAT32)
            field_collection = trt.PluginFieldCollection([lrelu_slope_field])
            plugin = plugin_creator.create_plugin(name=plugin_name, field_collection=field_collection)
    return plugin

def main():
    with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network:
    builder.max_workspace_size = 2**20
    input_layer = network.add_input(name="input_layer", dtype=trt.float32, shape=(1, 1))
    lrelu = network.add_plugin_v2(inputs=[input_layer], plugin=get_trt_plugin("LReLU_TRT"))
    lrelu.get_output(0).name = "outputs"
    network.mark_output(lrelu.get_output(0))

TensorRT模型量化实践痛&快乐着深度学习 TensorRT c++深度学习
文章目录量化基本概念量化的方法方式1：trtexec（PTQ的一种）方式2：PTQ2.1pythononnx转trt2.2polygraphy工具:应该是对2.1量化过程的封装方式3：QAT(追求精度时推荐)使用TensorRT量化实践（C++版）使用TensorRT量化（python版）参考文献量化基本概念后训练量化PostTrainingQuantization(PTQ)量化过程仅仅通过离线推
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
python 安装 win32com 郎君啊 python 开发语言
扩展,Python,安装相关视频讲解：StableDiffusion提升出图速度,TensorRT扩展,SDXL-SSD-1B-A1111,速度提升60%,PyTorch更新python的or运算赋值用法用python编程Excel有没有用处？如何在Windows系统上安装win32com一、整体流程步骤操作1下载并安装Python2安装pywin32扩展包3验证安装是否成功二、具体操作步骤及代码
深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】 u013250861 #LLM/部署深度学习人工智能
triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小
python opencv cuda tensorrt pytorch之间的版本对应 YIACA python opencv pytorch
python3.7opencv4.4cuda10.2tensorrt7xpytorch1.5DeepStream5.xOpenCV2.x：支持Python2.xOpenCV3.x：支持Python2.7、Python3.xOpenCV4.x：支持Python2.7、Python3.x、Python3.8+CUDA11.x：支持Python3.6、3.7、3.8、3.9CUDA10.2：支持Pyth
自动驾驶之心规划控制理论&实战课程 vsdvsvfhf 自动驾驶人工智能机器学习
单目3D与单目BEV全栈教程(视频答疑)多传感器标定全栈系统学习教程多传感器融合:毫米波雷达和视觉融合感知全栈教程(深度学习传统方式)多传感器融合跟踪全栈教程(视频答疑)多模态融合3D目标检测教程(视频答疑)规划控制理论&实战课程国内首个BEV感知全栈系列学习教程首个基于Transformer的分割检测视觉大模型视频课程CUDA与TensorRT部署实战课程(视频答疑)Occupancy从入门到精
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
算法学习-2024.8.16 蓝纹绿茶学习
一、Tensorrt学习补充TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用32位或16位数据。TensorRT则在网络的推理时选用不这么高的精度，达到加速推断的目的。TensorRT对于网络结构进行了重构，把一些能够合并的运算合并在了一起，针对GPU的特性做了优化。一个深度学习模型，在没有优化的情况下，比如一个卷积层、一个偏置层和一个reload层，这三层是需要调用三
onnx转tensorRT模型出现错误 This version of TensorRT only supports input K as an initializer lainegates pytorch 人工智能深度学习神经网络
问题onnx模型转tensorRT模型时，出现错误。ThisversionofTensorRTonlysupportsinputKasaninitializer.TryapplyingconstantfoldingonthemodelusingPolygraphgoogle到tensorRT8.6支持了dynamictopk，不会再有这个问题。但项目上限制是tensorRT8.5Problemsc
trt | torch2trt的使用方式 Mopes__ 分享 TensorRT torch2trt
一、安装1.安装tensorrtpython接口下载trt包.tar.gzhttps://developer.nvidia.com/nvidia-tensorrt-5x-download解压tarxvfTensorRT-6.0.1.5.Ubuntu-18.04.x86_64-gnu.cuda-10.1.cudnn7.6.tar.gz安装trtpython接口cdpythonpipinstallte
用TensorRT-LLM跑通chatGLM3_6B模型心瘾こころ语言模型 python
零、参考资料NVIDIA官网THUDM的GithubNVIDIA的Github一、构建TensorRT-LLM的docker镜像gitlfsinstallgitclonehttps://github.com/NVIDIA/TensorRT-LLM.gitcdTensorRT-LLMgitsubmoduleupdate--init--recursivesudomake-Cdockerrelease_
Ubuntu20.04部署Ollama stxinu Nvidia 人工智能 linux 服务器人工智能
在Ubuntu20.04上面安装完RTX4060的NvidiaCuda和TensorRT环境后，就开始跑些大模型看看。下面是安装使用Ollama的过程：安装Ollama：curl-khttps://ollama.com/install.sh|sh执行上面命令，有如下打印：%Total%Received%XferdAverageSpeedTimeTimeTimeCurrentDloadUploadT
AI秒出图！StableDiffusion Automatic1111正式支持Tensorrt germandai 人工智能 stable diffusion
秒级出图的AI绘画终于支持Automatic1111。今天在AI绘画的开源平台Automatic1111上发布了Tensorrt项目，项目地址是https://github.com/AUTOMATIC1111/stable-diffusion-webui-tensorrt该项目是基于automatic1111的stable-diffusion-webui项目的子项目。基本原理：我们知道，autom
PyTorch训练，TensorRT部署的简要步骤（采用ONNX中转的方式）赛先生.AI TensorRT pytorch 人工智能 TensorRT ONNX
1.简述使用PyTorch执行训练，使用TensorRT进行部署有很多种方法，比较常用的是基于INetworkDefinition进行每一层的自定义，这样一来，会反向促使研究者能够对真个网络的细节有更深的理解。另一种相对简便的方式就是通过ONNX中间转换的形式。本文主要针对该途径进行简单的脉络阐述。2.导出ONNX如果使用的是PyTorch训练框架，可采用其自带的ONNX导出API。torch.o
ChatGPT引领的AI面试攻略系列：cuda和tensorRT 梦想的理由深度学习 c++chatgpt 人工智能面试
系列文章目录cuda和tensorRT（本文）AI全栈工程师文章目录系列文章目录一、前言二、面试题1.CUDA编程基础2.CUDA编程进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.实际应用与案例分析7.编程与代码实践8.高级话题与趋势一、前言随着人工智能技术的飞速发展，该领域的就业机会也随之增多。无论是刚刚踏入这一领域的新手，还是经验丰富的专业人士，都可能面临着各种面试挑战。
使用TensorRT在PyTorch项目中加速深度学习推理从零开始学习人工智能深度学习 pytorch 人工智能
在PyTorch项目中使用TensorRT进行深度学习推理通常涉及以下步骤：模型训练：首先，在PyTorch中训练你的深度学习模型。模型导出：训练完成后，将模型从PyTorch导出为ONNX（OpenNeuralNetworkExchange）格式。ONNX是一种用于表示深度学习模型的开放格式，它使得模型可以在不同的深度学习框架之间互操作。模型优化：使用TensorRT优化ONNX模型。Tenso
[C++]使用C++部署yolov9的tensorrt模型进行目标检测 FL1623863129 C/C++目标检测人工智能计算机视觉
部署YOLOv9的TensorRT模型进行目标检测是一个涉及多个步骤的过程，主要包括准备环境、模型转换、编写代码和模型推理。首先，确保你的开发环境已安装了NVIDIA的TensorRT。TensorRT是一个用于高效推理的SDK，它能对TensorFlow、PyTorch等框架训练的模型进行优化，从而加速模型在NVIDIAGPU上的运行速度。接下来，你需要将YOLOv9的模型转换为TensorRT
[技术杂谈]Chat With RTX 介绍 FL1623863129 技术杂谈人工智能
英伟达（Nvidia）已于近日发布了名为“ChatwithRTX”的Demo版个性化AI聊天机器人，并在其海外官网渠道中提供了下载链接。据了解，这是一款适用于Windows平台的聊天机器人，由TensorRT-LLM提供支持，完全在本地运行。据官网信息显示，想要安装该聊天机器人应用，用户的系统配置需使用Nvidia的30系/40系显卡（或Ampere/Ada架构的其他显卡），且显存至少为8GB。此
WhisperFusion：具有超低延迟无缝对话功能的AI系统语音之家智能语音人工智能语音识别语言模型
WhisperFusion基于WhisperLive和WhisperSpeech的功能而构建，在实时语音到文本管道之上集成了大型语言模型Mistral(LLM)。LLM和Whisper都经过优化，可作为TensorRT引擎高效运行，从而最大限度地提高性能和实时处理能力。WhiperSpeech是通过torch.compile进行优化的。特征实时语音转文本：利用OpenAIWhisperLive将口
心法利器[107] onnx和tensorRT的bert加速方案记录机智的叉烧 bert 人工智能深度学习自然语言处理
心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会，与大家一起成长。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。2023年新一版的文章合集已经发布，获取方式看这里：又添十万字-CS的陋室2023年文章合集来袭，更有历史文章合集，欢迎下载。往期回顾心法利器[102]|大模型落地应用架构的一种模式心法利器[103]|大模型badcase修复方案思考心法利器[104]|基础RAG-向量检索
jetson orin nano 使用yolov8导出engine coder攻城狮 YOLO
1.导出onnx经过前面训练，得到了best.pt模型，现在想要使用tensorrt进行推理，需要先导出为onnx格式，再转化为engine格式。yoloexportmodel=best.ptformat=onnxopset=12simplify=True2.解决错误在导出过程中，可能会出现错误，cmake版本问题安装好后，默认cmake版本为3.16，需要对cmake进行升级sudopipins
TensorRT下载安装 Jumy_S python
TensorRT下载安装一下载地址https://developer.nvidia.com/nvidia-tensorrt-8x-download版本8.2.3GA(成熟稳定版)和8.4.0EA（新功能测试版）以后，有C++和python的API，完全等价可以混用二安装tensorrt的python版本pipinstalltensorrt-8.5.1.7-cp38-none-win_amd64.w
安装使用MMDeploy（Python版） *Major* 人工智能 python
安装使用MMDeploy（Python版）一安装MMDeploypythonmmdeploy-main/tools/deploy.pymmdeploy-main/configs/mmdet/detection/detection_tensorrt_dynamic-320x320-1344x1344.pymmdetection/configs/faster_rcnn/faster-rcnn_r50_
Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度知来者逆 Stable Diffusion stable diffusion TensorRT 人工智能 AIGC
概述Diffusion模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，StableDiffusion采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是StableDiffusion使用了编码器将图像从原始的3512512大小转换为更小的46464大小，从而极大地降低了计算量。它还利用了潜在表示空间（latentspace）上的Diffusion过程，进一步降低了计
yolov5 torch转tensorrt详解【推荐】 Teng-Sun YOLO
转化函数#可以在https://github.com/ultralytics/yolov5/blob/master/export.py里面找到defexport_engine(model,im,file,half,dynamic,simplify,workspace=4,verbose=False,prefix=colorstr('TensorRT:')):#YOLOv5TensorRTexpor
mmdetection模型转onnx和tensorrt实战 dream_home8407 python 深度学习人工智能
一,说明1.本次实战使用的是mmdetection算法框架中的Cascase-Rcnn训练的模型；2.模型转换时,运行环境中各种工具的版本要保持一致；3.TensorRT我一直装不上,我用的是镜像环境.参考链接:link二,使用Docker镜像1.0,镜像基础环境构建exportTAG=openmmlab/mmdeploy:ubuntu20.04-cuda11.8-mmdeploydockerpu
Jetson AGX Orin安装Anaconda，Cuda，Cudnn，pytorch，Tensorrt，ROS 枭玉龙 #ubuntu系统下安装 pytorch 人工智能 python
Anaconda：https://repo.anaconda.com/archive/Cuda：https://forums.developer.nvidia.com/t/pytorch-for-jetson/720481：安装Anaconda3下载：Anaconda3-2021.11-Linux-aarch64.shchmod+xAnaconda3-2021.11-Linux-aarch64.s
Jetson Xavier NX CUDA、cuDNN、TensorRT与Pytorch环境配置想努力的人 pytorch 人工智能 python
橘子大虾关注IP属地:江苏0.1312022.05.1911:31:43字数331阅读3,854torch与vision源码安装包下载链接：https://pan.baidu.com/s/1mrIgGoMo0bq6otGhlh-E3A提取码：6sb31.Cuda、CuDNN和TensorRT在JetsonXavierNx控制台中执行指令#更新软件源sudoaptupdate#安装JetPack组件
orin nx 安装paddlespeech记录想努力的人算法语音合成人工智能
nx配置：模块版本说明CPU8核内存16GCuda版本11.4Opencv版本4.5.4Tensorrt版本5.1Cudnn版本8.6.0.166Deepstream版本6.2Python版本3.8算力100T安装paddlepaddle：去飞桨官网下载jetpack版本的：下载安装Linux推理库-PaddlePaddle深度学习平台当需要调用语速的接口时：需要安装soxbindings包，这个
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb