饿了就干饭

从0到1配置TensorRT环境

根据博文：TensorFlow2.x模型转onnx、TensorRT给出的环境来配置。
以下是该博文中给出的版本信息
TensorFlow 2.4
CUDA 11.1
CUDNN 8
TensorRT 8.2.1.8
tf2onnx 1.13.0
onnx 1.12.0

下载地址

包	下载地址
TensorRT 8.2.1.8	https://developer.nvidia.com/nvidia-tensorrt-8x-download
CUDA	https://developer.nvidia.com/cuda-toolkit-archive
CUDA11.1	https://developer.nvidia.com/cuda-11.1.1-download-archive
CUDNN 8.1.1	https://developer.nvidia.com/rdp/cudnn-archive

下载的文件名：
cuda_11.1.1_456.81_win10.exe
cudnn-11.2-windows-x64-v8.1.1.33.zip
TensorRT-8.2.1.8.Windows10.x86_64.cuda-11.4.cudnn8.2.zip：这个文件名应该是支持最大版本的cuda为11.4，cudnn为8.2，选择下面箭头这个（虽然箭头指的那个文件解释可以支持11.5版本的CUDA，我也不知道为啥文件名只写到了11.4）
不知道为什么上面这个截面下载的TensorRT安装包不能解压，出现以下问题

因此，更换一个版本的TensorRT，找了下面这个，8.4版本的，如下图：

不是版本的问题，是网络的问题，由于网络不稳定，下载的文件包会出错。这个结论出自：RAR/ZIP压缩文件解压提示文件损坏或无法解压原因及修复办法全解析，后来用手机的热点网络加上VPN下载好了可以直接解压的文件。
下载好安装一下试试
tensorrt各版本的介绍文档：https://docs.nvidia.com/deeplearning/tensorrt/release-notes/#rel_8-0-1

安装

1、安装cuda、cuDNN

安装这两个都可以参考：Windows10下多版本CUDA的安装与切换超详细教程

2、安装TensorRT

两种方法：
1）将TensorRT的中的文件按照下面的方法直接复制粘贴到相应的文件下
2）将TensorRT的文件加入到环境变量中
两者作用是一样的，网上的配置方法不外乎这两种，我就选最麻烦的第一种

2.1 法1：文件复制粘贴

配置TensorRT（忽略下面三行字的中提到的版本号）：
将 TensorRT-7.2.3.4\include 中头文件 copy 到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\include；
将 TensorRT-7.2.3.4\lib 中所有lib文件 copy 到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\lib\x64；
将 TensorRT-7.2.3.4\lib 中所有dll文件copy 到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\bin；
上面三行字参考链接：https://blog.csdn.net/m0_37605642/article/details/127583310
换句话说就是将TensorRT-8.2.0.6文件夹中的include文件所有文件移动到CUDA文件夹下的include里面，TensorRT-8.2.0.6文件夹中的lib中的dll与lib文件分别放到CUDA下的bin与lib\x64文件夹中(也是参考了多个博文的多个说法)
按照这个意思安装TensorRT8版本

2.2 法2：将 TensorRT的文件的路径放到环境变量中

C:\Users\admin\Downloads\Compressed\TensorRT-8.2.1.8\lib

2.2 pip安装包内的whl文件

参考：windows下安装tensorrt（python调用）
一共需要安装4个whl文件如下箭头的文件夹里面，安装方式如下，注意安装tensorrt的whl的时候，要根据你python环境来，我这里是3.7版本，所有就选的cp37

用哪个装哪个
想起来我还没有创建有python的虚拟环境，先建一个3.8的吧

conda create -n tensorrt python=3.8

切换cuda为11.1，根据windows下安装tensorrt（python调用）提供的代码，如下：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import tensorrt as trt
if __name__ == "__main__":
    print(trt.__version__)
    print("hello trt!!")

运行代码，报如下的错误：

我对这个错误有两个疑惑：
1）如蓝色箭头所示，其中说的是CUDA\v10.0缺少一个文件，我分明已经将cuda11.1添加到环境变量中了（参考的是Windows10下多版本CUDA的安装与切换超详细教程），且在终端中nvcc -V显示v11.1已经切换过来了
2）缺少的这些个dll文件我找不到从哪里搞。
根据一个博主的文章（windows下安装tensorrt(python调用)）的图片中，如下：

下面的红色方框中的第一个输出的文件名和我缺少的是一样的，都是nvinfer.dll，因此怀疑是不是在安装TensorRT的时候，是不是有的文件没放对地方。
针对我的两个疑惑，我的解决方案：忽略第一个出现的CUDA\v10.0这个文件的事情，直接从TensorRT文件中找到nvinfer.dll复制到v11.1\bin，运行一下试试。发现缺少其他文件。这个过程一共缺少以下3个文件：

和上面的例子类似，进行文件的复制粘贴，运行成功！
如下：

不知道为什么报错v10.0下没有这个文件，将文件放进v11.1中就解决了该问题。不管了，接下来写代码，看看TensorRT怎么用！
按这个流程：TensorRT部署流程

1、把你的模型导出成 ONNX 格式。
2、把 ONNX 格式模型输入给 TensorRT，并指定优化参数。
3、使用 TensorRT 优化得到 TensorRT Engine。
4、使用 TensorRT Engine 进行 inference。

我的模型已经转换为onnx格式了
接下来看怎么将ONNX 格式模型输入给 TensorRT，并指定优化参数。

"D:\software install location\anaconda\envs\tensorrt\python.exe" "E:/001 face/测试tensorRT是否安装成功/onnx2trt.py"
E:/001 face/测试tensorRT是否安装成功/onnx2trt.py:23: DeprecationWarning: Use set_memory_pool_limit instead.
  config.max_workspace_size = 1 << 20
[10/20/2023-17:24:53] [TRT] [W] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
E:/001 face/测试tensorRT是否安装成功/onnx2trt.py:27: DeprecationWarning: Use build_serialized_network instead.
  engine = builder.build_engine(network, config)
Traceback (most recent call last):
  File "E:/001 face/测试tensorRT是否安装成功/onnx2trt.py", line 38, in 
    onnx2trt(input_path, output_path)
  File "E:/001 face/测试tensorRT是否安装成功/onnx2trt.py", line 28, in onnx2trt
    printShape(engine)
  File "E:/001 face/测试tensorRT是否安装成功/onnx2trt.py", line 10, in printShape
    for i in range(engine.num_bindings):
AttributeError: 'NoneType' object has no attribute 'num_bindings'
[10/20/2023-17:24:53] [TRT] [E] 4: [network.cpp::nvinfer1::Network::validate::2965] Error Code 4: Internal Error (Network has dynamic or shape inputs, but no optimization profile has been defined.)

进程已结束，退出代码为 1

先来一段摘抄自网上的TensorRT介绍：

TensorRT是英伟达针对自家平台做的加速包，TensorRT主要做了这么两件事情，来提升模型的运行速度。
TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用 32 位或 16 位数据。TensorRT则在网络的推理时选用不这么高的精度，达到加速推断的目的。
TensorRT对于网络结构进行了重构，把一些能够合并的运算合并在了一起，针对GPU的特性做了优化。现在大多数深度学习框架是没有针对GPU做过性能优化的，而英伟达，GPU的生产者和搬运工，自然就推出了针对自己GPU的加速工具TensorRT。一个深度学习模型，在没有优化的情况下，比如一个卷积层、一个偏置层和一个reload层，这三层是需要调用三次cuDNN对应的API，但实际上这三层的实现完全是可以合并到一起的，TensorRT会对一些可以合并网络进行合并。我们通过一个典型的inception block来看一看这样的合并运算。

————————————————
版权声明：本文为CSDN博主「CaiDou_」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36276587/article/details/113175314

根据文章【python】tensorrt8版本下的onnx转tensorrt engine代码：

# from ：https://blog.csdn.net/weixin_42492254/article/details/125319112

import tensorrt as trt
import os

EXPLICIT_BATCH = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
TRT_LOGGER = trt.Logger()


def get_engine(onnx_file_path, engine_file_path=""):
    """Attempts to load a serialized engine if available, otherwise builds a new TensorRT engine and saves it."""

    def build_engine():
        """Takes an ONNX file and creates a TensorRT engine to run inference with"""
        with trt.Builder(TRT_LOGGER) as builder, \
            builder.create_network(EXPLICIT_BATCH) as network, \
            builder.create_builder_config() as config, \
            trt.OnnxParser(network, TRT_LOGGER) as parser, \
            trt.Runtime(TRT_LOGGER) as runtime:
            config.max_workspace_size = 1 << 32  # 4GB
            builder.max_batch_size = 1
            # Parse model file
            if not os.path.exists(onnx_file_path):
                print(
                    "ONNX file {} not found, please run yolov3_to_onnx.py first to generate it.".format(onnx_file_path)
                )
                exit(0)
            print("Loading ONNX file from path {}...".format(onnx_file_path))
            with open(onnx_file_path, "rb") as model:
                print("Beginning ONNX file parsing")
                print("-----")
                if not parser.parse(model.read()):
                    print("ERROR: Failed to parse the ONNX file.")
                    for error in range(parser.num_errors):
                        # print("-----")
                        print(parser.get_error(error))
                    return None

            # # The actual yolov3.onnx is generated with batch size 64. Reshape input to batch size 1
            # network.get_input(0).shape = [1, 3, 608, 608]

            print("Completed parsing of ONNX file")
            print("Building an engine from file {}; this may take a while...".format(onnx_file_path))
            plan = builder.build_serialized_network(network, config)
            engine = runtime.deserialize_cuda_engine(plan)
            print("Completed creating Engine")
            with open(engine_file_path, "wb") as f:
                f.write(plan)
            return engine

    if os.path.exists(engine_file_path):
        # If a serialized engine exists, use it instead of building an engine.
        print("Reading engine from file {}".format(engine_file_path))
        with open(engine_file_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
            return runtime.deserialize_cuda_engine(f.read())
    else:
        return build_engine()


def main():
    """Create a TensorRT engine for ONNX-based YOLOv3-608 and run inference."""

    # Try to load a previously generated YOLOv3-608 network graph in ONNX format:
    # onnx_file_path = "model.onnx"
    onnx_file_path = "model.onnx"
    engine_file_path = "model.trt"

    get_engine(onnx_file_path, engine_file_path)


if __name__ == "__main__":
    main()

报错：

"D:\software install location\anaconda\envs\tensorrt\python.exe" "E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py"
E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py:20: DeprecationWarning: Use set_memory_pool_limit instead.
  config.max_workspace_size = 1 << 32  # 4GB
E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py:21: DeprecationWarning: Use network created with NetworkDefinitionCreationFlag::EXPLICIT_BATCH flag instead.
  builder.max_batch_size = 1
Loading ONNX file from path model.onnx...
Beginning ONNX file parsing
-----
[10/22/2023-03:15:01] [TRT] [W] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
Completed parsing of ONNX file
Building an engine from file model.onnx; this may take a while...
[10/22/2023-03:15:01] [TRT] [E] 4: [network.cpp::nvinfer1::Network::validate::2965] Error Code 4: Internal Error (Network has dynamic or shape inputs, but no optimization profile has been defined.)
[10/22/2023-03:15:01] [TRT] [E] 2: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
Traceback (most recent call last):
  File "E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py", line 72, in 
    main()
  File "E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py", line 68, in main
    get_engine(onnx_file_path, engine_file_path)
  File "E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py", line 57, in get_engine
    return build_engine()
  File "E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py", line 45, in build_engine
    engine = runtime.deserialize_cuda_engine(plan)
TypeError: deserialize_cuda_engine(): incompatible function arguments. The following argument types are supported:
    1. (self: tensorrt.tensorrt.Runtime, serialized_engine: buffer) -> tensorrt.tensorrt.ICudaEngine

Invoked with: .tensorrt.Runtime object at 0x000001AFCFC8ECB0>, None

进程已结束，退出代码为 1

根据文章：
把onnx模型转TensorRT模型的trt模型报错：Your ONNX model has been generated with INT64 weights. while TensorRT的方法，安装：

pip install onnx-simplifier

Successfully installed markdown-it-py-3.0.0 mdurl-0.1.2 onnx-simplifier-0.4.35 pygments-2.16.1 rich-13.6.0

运行

python -m onnxsim model.onnx model2.onnx

结果

提示我cuDNN版本不符合，
虽然在网上有的博客里说没有影响，但是我还是想更换版本，因此在https://developer.nvidia.com/rdp/cudnn-archive下载了Download cuDNN v8.4.1 (May 27th, 2022), for CUDA 11.xwindows版本，文件名：cudnn-windows-x86_64-8.4.1.50_cuda11.6-archive.zip，根据Windows10下多版本CUDA的安装与切换超详细教程安装cuDNN，装完以后就不报错了
但是仍存在以下错误：

E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py:20: DeprecationWarning: Use set_memory_pool_limit instead.
  config.max_workspace_size = 1 << 32  # 4GB
E:/001 face/测试tensorRT是否安装成功/onnx转trt（第三种方法）.py:21: DeprecationWarning: Use network created with NetworkDefinitionCreationFlag::EXPLICIT_BATCH flag instead.
  builder.max_batch_size = 1
[10/23/2023-09:53:06] [TRT] [W] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
Completed parsing of ONNX file
Building an engine from file model2.onnx; this may take a while...

进程已结束，退出代码为 -1073740791 (0xC0000409)

更换策略：使用trtexec.exe在命令行中进行转换，参考：onnx转trt方法

cd  C:\Users\jiao\Desktop\推理加速环境准备\TensorRT-8.4.1.5.Windows10.x86_64.cuda-11.6.cudnn8.4\TensorRT-8.4.1.5\bin

trtexec.exe --onnx=model1023.onnx --saveEngine=moedls.egine --fp16

--onnx的参数不太懂，因此我把model1023.onnx放在了和trtexec.exe同一位置下
报错：

[10/23/2023-15:26:58] [W] [TRT] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
[10/23/2023-15:26:58] [I] Finish parsing network model
[10/23/2023-15:26:58] [W] Dynamic dimensions required for input: Input:0, but no shapes were provided. Automatically overriding shape to: 1x200x200x3
[10/23/2023-15:26:59] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +730, GPU +266, now: CPU 22634, GPU 3398 (MiB)
[10/23/2023-15:26:59] [I] [TRT] [MemUsageChange] Init cuDNN: CPU +138, GPU +58, now: CPU 22772, GPU 3456 (MiB)
[10/23/2023-15:26:59] [I] [TRT] Local timing cache in use. Profiling results in this builder pass will not be stored.
Could not locate zlibwapi.dll. Please make sure it is in your library path!

搜索：Could not locate zlibwapi.dll. Please make sure it is in your library path!
根据：【Bug】Could not locate zlibwapi.dll. Please make sure it is in your library path!，下载zlib123dllx64.zip，将zlibwapi.dll放在C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1\bin下面，继续运行

trtexec.exe --onnx=model1023.onnx --saveEngine=moedls.egine --fp16

报错：

[10/23/2023-15:32:46] [W] [TRT] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
[10/23/2023-15:32:46] [I] Finish parsing network model
[10/23/2023-15:32:46] [W] Dynamic dimensions required for input: Input:0, but no shapes were provided. Automatically overriding shape to: 1x200x200x3
[10/23/2023-15:32:47] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +717, GPU +266, now: CPU 22965, GPU 3398 (MiB)
[10/23/2023-15:32:47] [I] [TRT] [MemUsageChange] Init cuDNN: CPU +145, GPU +58, now: CPU 23110, GPU 3456 (MiB)
[10/23/2023-15:32:47] [I] [TRT] Local timing cache in use. Profiling results in this builder pass will not be stored.
[10/23/2023-15:32:53] [E] Error[1]: [caskBuilderUtils.cpp::nvinfer1::builder::trtSmToCaskCCV::548] Error Code 1: Internal Error (Unsupported SM: 0x809)
[10/23/2023-15:32:53] [E] Error[2]: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
[10/23/2023-15:32:53] [E] Engine could not be created from network
[10/23/2023-15:32:53] [E] Building engine failed
[10/23/2023-15:32:53] [E] Failed to create engine from model or file.
[10/23/2023-15:32:53] [E] Engine set up failed
&&&& FAILED TensorRT.trtexec [TensorRT v8401] # trtexec.exe --onnx=model1023.onnx --saveEngine=moedls.egine --fp16

虽然解决了，但是据【Bug】Could not locate zlibwapi.dll. Please make sure it is in your library path!所说有些东西还需要放置。
将 zlibwapi.lib 文件放到 path/to/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v11.1/lib 下
为保险起见：
将 zlibwapi.lib 文件放到了 path/to/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v11.6/lib/x64 下
参考：【Error】Could not locate zlibwapi.dll. Please make sure it is in your library path!
继续运行测试一下，报错：

[10/23/2023-15:54:16] [W] [TRT] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
[10/23/2023-15:54:16] [I] Finish parsing network model
[10/23/2023-15:54:16] [W] Dynamic dimensions required for input: Input:0, but no shapes were provided. Automatically overriding shape to: 1x200x200x3
[10/23/2023-15:54:16] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +733, GPU +266, now: CPU 21473, GPU 3398 (MiB)
[10/23/2023-15:54:16] [I] [TRT] [MemUsageChange] Init cuDNN: CPU +124, GPU +58, now: CPU 21597, GPU 3456 (MiB)
[10/23/2023-15:54:16] [I] [TRT] Local timing cache in use. Profiling results in this builder pass will not be stored.
[10/23/2023-15:54:22] [E] Error[1]: [caskBuilderUtils.cpp::nvinfer1::builder::trtSmToCaskCCV::548] Error Code 1: Internal Error (Unsupported SM: 0x809)
[10/23/2023-15:54:22] [E] Error[2]: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
[10/23/2023-15:54:22] [E] Engine could not be created from network
[10/23/2023-15:54:22] [E] Building engine failed
[10/23/2023-15:54:22] [E] Failed to create engine from model or file.
[10/23/2023-15:54:22] [E] Engine set up failed
&&&& FAILED TensorRT.trtexec [TensorRT v8401] # trtexec.exe --onnx=model1023.onnx --saveEngine=moedls.egine --fp16

报错依然如此，说明上面两个文件的移动没用！
搜索： Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
根据：onnx模型转TensorRT模型时出错说的使用onnx-simplifier来简化模型
命令：

python -m onnxsim model1023.onnx model1023s.onnx

转换结果：

解决因为模型输入名称不对问题

原先写的输入名称为Input0，报错：Cannot find input tensor with name "Input0" in the network inputs! Please make sure the input tensor names are correct.，根据：获取 onnx 模型的输入输出信息 Python 脚本，运行代码：

from pprint import pprint
import onnxruntime

onnx_path = "model1023s.onnx"
# onnx_path = "custompool/output.onnx"

provider = "CPUExecutionProvider"
onnx_session = onnxruntime.InferenceSession(onnx_path, providers=[provider])

print("----------------- 输入部分 -----------------")
input_tensors = onnx_session.get_inputs()  # 该 API 会返回列表
for input_tensor in input_tensors:         # 因为可能有多个输入，所以为列表
    
    input_info = {
        "name" : input_tensor.name,
        "type" : input_tensor.type,
        "shape": input_tensor.shape,
    }
    pprint(input_info)

print("----------------- 输出部分 -----------------")
output_tensors = onnx_session.get_outputs()  # 该 API 会返回列表
for output_tensor in output_tensors:         # 因为可能有多个输出，所以为列表
    
    output_info = {
        "name" : output_tensor.name,
        "type" : output_tensor.type,
        "shape": output_tensor.shape,
    }
    pprint(output_info)

输出：

"D:\software install location\anaconda\envs\tensorrt\python.exe" "E:/001 face/测试tensorRT是否安装成功/2 查看onnx模型文件的输入名称.py"
----------------- 输入部分 -----------------
{'name': 'Input:0', 'shape': ['unk__616', 200, 200, 3], 'type': 'tensor(float)'}
----------------- 输出部分 -----------------
{'name': 'Identity:0', 'shape': ['unk__617', 93], 'type': 'tensor(float)'}

进程已结束，退出代码为 0

因此确定输入名称为Input:0

trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x3x200x200 --optShapes=Input:0:16x3x200x200 --maxShapes=Input:0:32x3x200x200 --saveEngine=models.trt --workspace=4096 --fp16

运行后，报错Cannot find input tensor with name "Input0" in the network inputs! Please make sure the input tensor names are correct.就消失了
之前出的错误仍然没有解决掉：

--workspace flag has been deprecated by --memPoolSize flag.
[10/24/2023-10:50:04] [E] Error[4]: [network.cpp::nvinfer1::Network::validate::3008] Error Code 4: Internal Error (Input:0: for dimension number 1 in profile 0 does not match network definition (got min=3, opt=3, max=3), expected min=opt=max=200).)
[10/24/2023-10:50:04] [E] Error[2]: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
[10/24/2023-10:50:04] [E] Engine could not be created from network
[10/24/2023-10:50:04] [E] Building engine failed
[10/24/2023-10:50:04] [E] Failed to create engine from model or file.
[10/24/2023-10:50:04] [E] Engine set up failed
&&&& FAILED TensorRT.trtexec [TensorRT v8401] # trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x3x200x200 --optShapes=Input:0:16x3x200x200 --maxShapes=Input:0:32x3x200x200 --saveEngine=models.trt --workspace=4096 --fp16

针对这个错误：--workspace flag has been deprecated by --memPoolSize flag.我把--workspace=4096取消，之后就不报这个错误了，继续运行下面这句话

trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x3x200x200 --optShapes=Input:0:1x3x200x200 --maxShapes=Input:0:32x3x200x200 --saveEngine=models.trt --fp16

报错：

[10/24/2023-14:13:23] [E] Error[4]: [network.cpp::nvinfer1::Network::validate::3008] Error Code 4: Internal Error (Input:0: for dimension number 1 in profile 0 does not match network definition (got min=3, opt=3, max=3), expected min=opt=max=200).)
[10/24/2023-14:13:23] [E] Error[2]: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
[10/24/2023-14:13:23] [E] Engine could not be created from network
[10/24/2023-14:13:23] [E] Building engine failed
[10/24/2023-14:13:23] [E] Failed to create engine from model or file.
[10/24/2023-14:13:23] [E] Engine set up failed
&&&& FAILED TensorRT.trtexec [TensorRT v8401] # trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x3x200x200 --optShapes=Input:0:1x3x200x200 --maxShapes=Input:0:32x3x200x200 --saveEngine=models.trt --fp16

修改
trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x3x200x200 --optShapes=Input:0:1x3x200x200 --maxShapes=Input:0:32x3x200x200 --saveEngine=models.trt --fp16
报错：

[10/24/2023-14:21:35] [W] [TRT] onnx2trt_utils.cpp:369: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
[10/24/2023-14:21:35] [I] Finish parsing network model
[10/24/2023-14:21:35] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +730, GPU +266, now: CPU 28526, GPU 3398 (MiB)
[10/24/2023-14:21:35] [I] [TRT] [MemUsageChange] Init cuDNN: CPU +126, GPU +58, now: CPU 28652, GPU 3456 (MiB)
[10/24/2023-14:21:35] [I] [TRT] Local timing cache in use. Profiling results in this builder pass will not be stored.
[10/24/2023-14:21:41] [E] Error[1]: [caskBuilderUtils.cpp::nvinfer1::builder::trtSmToCaskCCV::548] Error Code 1: Internal Error (Unsupported SM: 0x809)
[10/24/2023-14:21:41] [E] Error[2]: [builder.cpp::nvinfer1::builder::Builder::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )
[10/24/2023-14:21:41] [E] Engine could not be created from network
[10/24/2023-14:21:41] [E] Building engine failed
[10/24/2023-14:21:41] [E] Failed to create engine from model or file.
[10/24/2023-14:21:41] [E] Engine set up failed
&&&& FAILED TensorRT.trtexec [TensorRT v8401] # trtexec.exe --onnx=model1023s.onnx --minShapes=Input:0:1x200x200x3 --optShapes=Input:0:16x200x200x3 --maxShapes=Input:0:32x200x200x3 --saveEngine=models.trt --fp16

这个报错原因网友说PointPillars-TensorRT部署：还是因为CUDA、cuDNN、TensorRT这些版本不能匹配
统计现有环境：
CUDA：11.1
cuDNN：8.4.1
TensorRT：8.4.15

(tensorrt) C:\Users\jiao\Desktop\推理加速环境准备\TensorRT-8.4.1.5.Windows10.x86_64.cuda-11.6.cudnn8.4\TensorRT-8.4.1.5\bin>conda list
# packages in environment at D:\software install location\anaconda\envs\tensorrt:
#
# Name                    Version                   Build  Channel
appdirs                   1.4.4                    pypi_0    pypi
bzip2                     1.0.8                h8ffe710_4    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
ca-certificates           2023.7.22            h56e8100_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
coloredlogs               15.0.1                   pypi_0    pypi
common                    0.1.2                    pypi_0    pypi
flatbuffers               23.5.26                  pypi_0    pypi
graphsurgeon              0.4.6                    pypi_0    pypi
humanfriendly             10.0                     pypi_0    pypi
libffi                    3.4.2                h8ffe710_5    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
libsqlite                 3.43.2               hcfcfb64_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
libzlib                   1.2.13               hcfcfb64_5    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
mako                      1.2.4                    pypi_0    pypi
markdown-it-py            3.0.0                    pypi_0    pypi
markupsafe                2.1.3                    pypi_0    pypi
mdurl                     0.1.2                    pypi_0    pypi
mpmath                    1.3.0                    pypi_0    pypi
numpy                     1.24.4                   pypi_0    pypi
onnx                      1.14.1                   pypi_0    pypi
onnx-graphsurgeon         0.3.12                   pypi_0    pypi
onnx-simplifier           0.4.35                   pypi_0    pypi
onnxruntime               1.16.1                   pypi_0    pypi
openssl                   3.1.3                hcfcfb64_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
packaging                 23.2                     pypi_0    pypi
pip                       23.3               pyhd8ed1ab_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
platformdirs              3.11.0                   pypi_0    pypi
protobuf                  4.24.4                   pypi_0    pypi
pycuda                    2022.2.2                 pypi_0    pypi
pygments                  2.16.1                   pypi_0    pypi
pyreadline3               3.4.1                    pypi_0    pypi
python                    3.8.18          h4de0772_0_cpython    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
pytools                   2023.1.1                 pypi_0    pypi
rich                      13.6.0                   pypi_0    pypi
setuptools                68.2.2             pyhd8ed1ab_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
shapely                   1.8.2                    pypi_0    pypi
sympy                     1.12                     pypi_0    pypi
tensorrt                  8.4.1.5                  pypi_0    pypi
tk                        8.6.13               hcfcfb64_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
typing-extensions         4.8.0                    pypi_0    pypi
ucrt                      10.0.22621.0         h57928b3_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
uff                       0.6.9                    pypi_0    pypi
vc                        14.3                h64f974e_17    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
vc14_runtime              14.36.32532         hdcecf7f_17    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
vs2015_runtime            14.36.32532         h05e6639_17    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
wheel                     0.41.2             pyhd8ed1ab_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
xz                        5.2.6                h8d14728_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge

(tensorrt) C:\Users\jiao\Desktop\推理加速环境准备\TensorRT-8.4.1.5.Windows10.x86_64.cuda-11.6.cudnn8.4\TensorRT-8.4.1.5\bin>pip list
Package           Version
----------------- --------
appdirs           1.4.4
coloredlogs       15.0.1
common            0.1.2
flatbuffers       23.5.26
graphsurgeon      0.4.6
humanfriendly     10.0
Mako              1.2.4
markdown-it-py    3.0.0
MarkupSafe        2.1.3
mdurl             0.1.2
mpmath            1.3.0
numpy             1.24.4
onnx              1.14.1
onnx-graphsurgeon 0.3.12
onnx-simplifier   0.4.35
onnxruntime       1.16.1
packaging         23.2
pip               23.3
platformdirs      3.11.0
protobuf          4.24.4
pycuda            2022.2.2
Pygments          2.16.1
pyreadline3       3.4.1
pytools           2023.1.1
rich              13.6.0
setuptools        68.2.2
Shapely           1.8.2
sympy             1.12
tensorrt          8.4.1.5
typing_extensions 4.8.0
uff               0.6.9
wheel             0.41.2

再看这个帖子中的一个老外的回答tensorrt报错 [F] [TRT] Assertion failed: Unsupported SM.，里面提到GPU需要更高版本的cuda。另外根据一篇博客中说RTX4080比较适用cuda12.1版本
因此下载了以下版本。
cuda12.0、cudnn8.9.1、TensorRT8.6

安装过程相当顺利，TensorRT下python内的三种whl文件都安装上，其他还有三个文件分别位于graphsurgeon、onnx_graphsurgon、uff，创建的python环境，python版本是3.10的，执行

import tensorrt as trt
import os

EXPLICIT_BATCH = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
TRT_LOGGER = trt.Logger()


def get_engine(onnx_file_path, engine_file_path=""):
    """Attempts to load a serialized engine if available, otherwise builds a new TensorRT engine and saves it."""

    def build_engine():
        """Takes an ONNX file and creates a TensorRT engine to run inference with"""
        with trt.Builder(TRT_LOGGER) as builder, \
            builder.create_network(EXPLICIT_BATCH) as network, \
            builder.create_builder_config() as config, \
            trt.OnnxParser(network, TRT_LOGGER) as parser, \
            trt.Runtime(TRT_LOGGER) as runtime:
            # config.max_workspace_size = 1 << 32  # 4GB
            # config.max_workspace_size = 1 << 31  # 4GB
            # config.set_memory_pool_limit = 1 << 31  # 4GB
            builder.max_batch_size = 1
            # Parse model file
            if not os.path.exists(onnx_file_path):
                print(
                    "ONNX file {} not found, please run yolov3_to_onnx.py first to generate it.".format(onnx_file_path)
                )
                exit(0)
            print("Loading ONNX file from path {}...".format(onnx_file_path))
            with open(onnx_file_path, "rb") as model:
                print("Beginning ONNX file parsing")
                print("-----")
                if not parser.parse(model.read()):
                    print("ERROR: Failed to parse the ONNX file.")
                    for error in range(parser.num_errors):
                        # print("-----")
                        print(parser.get_error(error))
                    return None

            # # The actual yolov3.onnx is generated with batch size 64. Reshape input to batch size 1
            # network.get_input(0).shape = [1, 3, 608, 608]
            # network.get_input(0).shape = [1, 200, 200, 3]
            network.get_input(0).shape = [1, 200, 200, 3]

            print("Completed parsing of ONNX file")
            print("Building an engine from file {}; this may take a while...".format(onnx_file_path))
            plan = builder.build_serialized_network(network, config)
            # print(network)
            # print(config)
            print(plan)
            engine = runtime.deserialize_cuda_engine(plan)

            print("Completed creating Engine")
            with open(engine_file_path, "wb") as f:
                f.write(plan)
            return engine

    if os.path.exists(engine_file_path):
        # If a serialized engine exists, use it instead of building an engine.
        print("Reading engine from file {}".format(engine_file_path))
        with open(engine_file_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
            return runtime.deserialize_cuda_engine(f.read())
    else:
        return build_engine()


def main():
    """Create a TensorRT engine for ONNX-based YOLOv3-608 and run inference."""

    # Try to load a previously generated YOLOv3-608 network graph in ONNX format:
    # onnx_file_path = "model.onnx"
    onnx_file_path = "model1023s.onnx"
    engine_file_path = "model.trt"

    get_engine(onnx_file_path, engine_file_path)


if __name__ == "__main__":
    main()

输出：

"D:\software install location\anaconda\envs\temsorrt12\python.exe" "E:/001 face/测试tensorRT是否安装成功/3 onnx转trt（第三种方法）.py"
[10/27/2023-16:14:56] [TRT] [W] CUDA lazy loading is not enabled. Enabling it can significantly reduce device memory usage and speed up TensorRT initialization. See "Lazy Loading" section of CUDA documentation https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#lazy-loading
Loading ONNX file from path model1023s.onnx...
Beginning ONNX file parsing
-----
E:\001 face\测试tensorRT是否安装成功\3 onnx转trt（第三种方法）.py:23: DeprecationWarning: Use network created with NetworkDefinitionCreationFlag::EXPLICIT_BATCH flag instead.
  builder.max_batch_size = 1
[10/27/2023-16:14:57] [TRT] [W] onnx2trt_utils.cpp:374: Your ONNX model has been generated with INT64 weights, while TensorRT does not natively support INT64. Attempting to cast down to INT32.
Completed parsing of ONNX file
Building an engine from file model1023s.onnx; this may take a while...
<tensorrt.tensorrt.IHostMemory object at 0x000002A6DE187B30>
Completed creating Engine

进程已结束，退出代码为 0

外加一个后缀为trt的文件

接下来就是怎么调用该文件：
这个VS2017+pyCUDA+CUDA+python安装配置链接里提到一个使用pycuda来调用cuda，pycuda下载地址为：[pycuda下载地址](https://www.lfd.uci.edu/~gohlke/pythonlibs/?cm_mc_uid=080853058 45514542921829&cm_mc_sid_50200000=1456395916#pycuda)，打开这个链接查看后没有适用cuda12.0版本的pycuda，无奈只能再次更换环境（继续下载cuda、cudnn、tensorrt、pycuda），保证这些版本能对应上，其中cuda版本尽量高一点。
pycuda最高支持的是cuda11.6的，那我就选择python3.10下面的pycuda11.6版本：pycuda‑2022.1+cuda116‑cp310‑cp310‑win_amd64.whl，然后下载cuda11.6，

包	版本	下载地址
pycuda	cuda116‑cp310‑cp310‑win_amd64	链接
cuda	11.6	链接
cudnn	Download cuDNN v8.9.2 (June 1st, 2023), for CUDA 11.x	https://developer.nvidia.com/rdp/cudnn-archive
tensorrt	TensorRT 8.6 GA for Windows 10 and CUDA 11.0, 11.1, 11.2, 11.3, 11.4, 11.5, 11.6, 11.7 and 11.8 ZIP Package	https://developer.nvidia.com/nvidia-tensorrt-8x-download

下载好是

Tensorrt的文件名中11.8应该是最大支持11.8版本

你可能感兴趣的:(模型部署)

【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
Ollama全面指南：安装、使用与高级定制我就是全世界 ollama
本文全面介绍了Ollama工具，包括其安装、基本使用、高级定制以及实际应用案例。详细讲解了如何在不同操作系统上安装Ollama，如何运行和自定义大型语言模型，以及如何通过Ollama进行模型部署和交互。此外，还提供了丰富的故障排除和FAQ，帮助用户解决使用过程中的常见问题。文章目录Ollama基础入门Ollama简介支持的操作系统安装Ollama快速开始使用OllamaOllama的安装与配置ma
本地部署大语言模型详细讲解程序员小羊！杂文语言模型人工智能自然语言处理
大家好，我是程序员小羊！前言：本地部署大语言模型（LLM，LargeLanguageModel）需要相应的硬件资源和技术栈支持，如GPU计算能力、大量内存、存储空间，以及模型部署框架。以下是如何在本地部署大语言模型的详细解释，包括选择模型、硬件需求、安装必要的软件和工具、下载和配置模型、以及优化运行性能的建议。一、前期准备1.硬件需求部署大语言模型的硬件要求主要取决于模型的大小和运行任务的复杂度。
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
机器学习框架巅峰对决：TensorFlow vs. PyTorch vs. Scikit-Learn实战分析 @sinner 技术选型机器学习 tensorflow pytorch scikit-learn
1.引言1.1机器学习框架的重要性在机器学习的黄金时代，框架的选择对于开发高效、可扩展的模型至关重要。合适的框架可以极大地提高开发效率，简化模型的构建和训练过程，并支持大规模的模型部署。因此，了解和选择最合适的机器学习框架对于研究人员和工程师来说是一个关键的步骤。1.2三大框架概览：TensorFlow、PyTorch、Scikit-Learn目前，最流行的机器学习框架主要有TensorFlow、
并行处理的艺术：深入探索PyTorch中的torch.nn.parallel模块杨哥带你写代码 pytorch 人工智能 python
标题：并行处理的艺术：深入探索PyTorch中的torch.nn.parallel模块在深度学习领域，模型的规模和复杂性不断增长，这要求我们利用所有可用的计算资源来加速训练和推理过程。PyTorch，作为当前流行的深度学习框架之一，提供了torch.nn.parallel模块，允许我们轻松地将模型部署到多个GPU上。本文将详细介绍如何使用这个模块，以及如何通过并行化来提高模型的计算效率。引言深度学
最新视频合成后调优技术ExVideo模型部署杰说新技术 AIGC 多模态 AIGC 人工智能
ExVideo是一种新型的视频合成模型后调优技术，由华东师范大学和阿里巴巴的研究人员共同开发。ExVideo提出了一种新的后调优策略，无需对整个模型进行大规模重训，仅通过对模型中时序相关组件的微调，就能够显著增强其生成更长视频片段的能力，大大降低了对计算资源的需求，仅需1.5kgpu小时就能将视频生成帧数提高至原模型的5倍。ExVideo在提升视频长度的同时，并没有牺牲模型的泛化能力，生成的视频在
[模型部署] ONNX模型转TRT模型部分要点 lainegates 深度学习人工智能
本篇讲“ONNX模型转TRT模型”部分要点。以下皆为TRT模型的支持情况。模型存为ONNX格式后，已经丢失了很多信息，与原python代码极难对应。因为在“ONNX转TRT”时，转换出错，更难映射回python代码。解决此类问题的关键为：转onnx时要打开verbose选项，输出每一行python的模型代码被转成了哪些ONNX算子。torch.onnx.export(model,(dummy_in
深度学习系列70：模型部署torchserve IE06 深度学习系列深度学习人工智能
1.流程说明ts文件夹下，从launcher.py进入，执行jar文件。入口为model_server.py的start()函数。内容包含：读取args，创建pid文件找到java，启动model-server.jar程序，同时读取log-config文件，TEMP文件夹地址，TS_CONFIG_FILE文件根据cpu核数、gpu个数，启动多进程。每个进程有一个socket_name和socket
在STM32上实现嵌入式人工智能应用嵌入式详谈 stm32 人工智能嵌入式硬件
引言随着微控制器的计算能力不断增强，人工智能（AI）开始在嵌入式系统中扮演越来越重要的角色。STM32微控制器由于其高性能和低功耗的特性，非常适合部署轻量级AI模型。本文将探讨如何在STM32平台上实现深度学习应用，特别是利用STM32Cube.AI工具链将训练好的神经网络模型部署到STM32设备上。环境准备硬件选择：STM32F746GDiscoverykit，具备足够的计算资源和内存支持复杂模
数据科学生命周期的7个步骤–在业务中应用AI 听忆. 人工智能
数据科学生命周期的7个步骤–在业务中应用AI1.问题定义（BusinessUnderstanding）2.数据收集（DataCollection）3.数据准备（DataPreparation）4.数据探索（ExploratoryDataAnalysis,EDA）5.模型构建（Modeling）6.模型评估（Evaluation）7.模型部署与维护（DeploymentandMaintenance）
Yolov8：模型部署到安卓端爱编码的小陈深度学习 YOLO
1.项目准备1.1先安装JDK和Androidstudio（1）JDK下载：官网站：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html同意协议后，下载相应版本的JDK我这里没有下载JDK21版的，下载的是jdk1.8版本，参考文章：AndroidStudio开发环境快速搭建（超详细
【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战 LDG_AGI AI智能体研发之路-模型篇机器学习 whisper 人工智能语音识别实时音视频 python transformer
目录一、引言二、Whisper模型原理2.1模型架构2.2语音处理2.3文本处理三、Whisper模型实战3.1环境安装3.2模型下载3.3模型推理3.4完整代码3.5模型部署四、总结一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解，第6次拿到了热榜第一。今天，分享其对称功能（语音转文本）模型：Whisper。Whisper由OpenAI研发并开源，参数量最小39M，最大1550M
pyinstaller打包onnxruntime-gpu报错找不到CUDA的解决方案布呐呐na 人工智能 python
问题说明：使用onnxruntime-gpu完成了深度学习模型部署，但在打包时发生了报错：找不到CUDA具体问题描述：RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHis
大模型量化技术原理-LLM.int8()、GPTQ 吃果冻不吐果冻皮动手学大模型人工智能
近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（KnowledgeDistillation）量化之前也写过一些文章涉及大模型量化相关的内容。基于LLaMA-7B/Bloomz-7B1-mt复现开
我把ChatGPT部署到我的手机上人工智能
正常的大模型部署都是在服务器上的但是最近我看到一个手机上可以运行的大模型分享给大家MiniCPMMiniCPM是基于MLC-LLM开发，将MiniCPM和MiniCPM-V在Android手机端上运行。使用起来很简单，下载好安装包后按照教程安装好下载2个模型一个是MiniCPM一个是MiniCPM-vMiniCPM-v是可以处理图像的下载好后，点击模型的进行对话即可安装MiniCPM只占2GB空间
81TensorFlow 2 模型部署方法实践--TensorFlow Serving 部署模型 Jachin111
TensorFlowServing部署模型TensorFlowServing是一个针对机器学习模型的灵活、高性能的服务系统，专为生产环境而设计。本节实验将使用TensorFlowServing部署MobileNetV2模型，并通过两种方法访问TensorFlowServing服务进行图像识别。TensorFlowServing安装在这里我们通过Docker来安装TensorFlowServing，
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
如何实现远程云服务器模型部署在本地使用时光诺言服务器运维 ssh
远程云服务器模型部署在本地使用1.问题说明：在使用pycharm的ssh连接到远程云服务器时，模型已经加载成功并且出现了如下标识：但是我们打开本地的7080端口，发现是拒绝访问。这是什么情况？起初我认为是代理的问题，但是我关闭代理后并无卵用。然后又重启电脑还是无效。2.解决方案直到我了解了我使用的命令是基于Gradio实现的。那么有以下几种解决方案（以远程云服务器打开7860端口为例）：2.1直接
LMDeploy 大模型量化部署实践查里王人工智能
在浦语的MDeploy大模型量化部署实践课程中，可能需要完成的任务包括：大模型部署背景2、LMDeploy简介环境配置：这个部分你需要安装并设置相关的开发工具和库。这可能包括Python环境、LMDeploy库等等。你需要明确写出你使用的操作系统以及安装所有需要的软件和库的步骤。这些信息可以来自官方文档或者课程提供的指南。服务部署：这个部分你需要使用LMDeploy部署InternLM-Chat-
AI工程化工具设计 LabVIEW_Python
1，需要有一个方便的爬虫工具，输入名字和内容，可以一键式爬出图片；2，需要有一个方便的改名字的工具，将下载的图片，一键式改名；3，需要有一个方便的，自动化的标注工具，提高标注效率4，需要有一个方便的，图形化的训练和测试工具，自动训练，并给出训练结果报告5，需要有一个方便的部署工具，方便把模型部署到CPU/GPU/ARM上
开发者都能玩转的大模型训练机器学习canvasaigc
前言看了刚结束的亚马逊云科技2023re:Invent大会，了解到AmazonSageMakerCanvas是亚马逊云科技最近刚推出的一种完全托管的机器学习服务，开发者通过AmazonSageMakerCanvas可以快速且轻松地构建、训练机器语言学习模型，最重要的是无代码界面形式的。而且基于亚马逊云科技的云服务器优势，可以直接将模型部署到线上托管环境上，非常方便，且无技术“隔阂”，无缝操作。据我
hummingbird，一个便于将模型部署到边缘设备的Python库！漫走云雾 python 开发语言边缘计算机器学习
前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。目录前言什么是PythonHummingb
hummingbird，一个非常好用的 Python 库！近咫／＼ぃ天涯 python 开发语言
随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。什么是PythonHummingbird？Py
论文撰写八大技巧与八大心得，一文读懂墨理学AI
版权:本文由【墨理学AI】原创、首发、各位大佬、敬请查阅声明:作为全网AI领域干货最多的博主之一，❤️不负光阴不负卿❤️日常搬砖帮老板审了不少Paper，总结一些心得分享给各位正在路上的科研小伙伴计算机视觉、超分重建、图像修复、目标检测、模型部署都在学习墨理学AI论文撰写八大技巧写论文的目的是为了发表，发表论文就需要按照论文的套路来写，不然审稿人就会以“不专业”的理由拒稿。辛辛苦苦做出来的科研成果
使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统 wangqiaowq 人工智能
使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统时，调度服务器资源的详情将取决于以下关键因素：模型部署：GPU资源：由于Qianwen-14B是一个大规模语言模型，推理时需要高性能的GPU支持。模型参数量大，推理过程中对显存（GPU内存）的要求高，可能需要多块高端GPU，并且考虑是否支持模型并行或数据并行以充分利用硬件资源。单卡显存需求：根据之前的信息，Qianwen-14B微调
hummingbird，一个非常好用的 Python 库！漫走云雾 python 开发语言
前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。目录编辑前言什么是PythonHummin
读懂 FastChat 大模型部署源码所需的异步编程基础 javastart python python fastapi gunicorn
原文：读懂FastChat大模型部署源码所需的异步编程基础-知乎目录0.前言1.同步与异步的区别2.协程3.事件循环4.await5.组合协程6.使用Semaphore限制并发数7.运行阻塞任务8.异步迭代器asyncfor9.异步上下文管理器asyncwith10.参考本文是读懂FastChat大模型部署源码系列的第二篇，持续更新中，欢迎关注：不理不理：读懂FastChat大模型部署源码所需的W
llama2模型部署方案的简单调研-GPU显存占用(2023年7月25日版) 海皇海皇吹 llama 人工智能自然语言处理语言模型 chatgpt gpt-3
先说结论全精度llama27B最低显存要求：28GB全精度llama213B最低显存要求：52GB全精度llama270B最低显存要求：280GB16精度llama27B预测最低显存要求：14GB16精度llama213B预测最低显存要求：26GB16精度llama270B预测最低显存要求：140GB8精度llama27B预测最低显存要求：7GB8精度llama213B预测最低显存要求：13GB8
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C