just_sort

深度学习算法优化系列十八 | TensorRT Mnist数字识别使用示例

1. 前言

上一节对TensorRT做了介绍，然后科普了TensorRT优化方式以及讲解在Windows下如何安装TensorRT6.0，最后还介绍了如何编译一个官方给出的手写数字识别例子获得一个正确的预测结果。这一节我将结合TensorRT官方给出的一个例程来介绍TensorRT的使用，这个例程是使用LeNet完成MNIST手写数字识别，例程所在的目录为：

2. 代码解析

按照上一节的讲解，我们知道TensorRT的例程主要是分为Build和Deployment(infer)这两个步骤，接下来我们就按照参数初始化，Build，Deployment这个顺序来看看代码。

2.1 主函数

sampleMNIST例程的主函数代码实现如下：

int main(int argc, char** argv)
{
	// 参数解析
    samplesCommon::Args args;
    bool argsOK = samplesCommon::parseArgs(args, argc, argv);
    if (!argsOK)
    {
        gLogError << "Invalid arguments" << std::endl;
        printHelpInfo();
        return EXIT_FAILURE;
    }
	// 打印帮助信息
    if (args.help)
    {
        printHelpInfo();
        return EXIT_SUCCESS;
    }

    auto sampleTest = gLogger.defineTest(gSampleName, argc, argv);

    gLogger.reportTestStart(sampleTest);
	// 使用命令行参数初始化params结构的成员
    samplesCommon::CaffeSampleParams params = initializeSampleParams(args);
	// 构造SampleMNIST对象
    SampleMNIST sample(params);

    gLogInfo << "Building and running a GPU inference engine for MNIST" << std::endl;
	// Build 此函数通过解析caffe模型创建MNIST网络，并构建用于运行MNIST（mEngine）的引擎
    if (!sample.build())
    {
        return gLogger.reportFail(sampleTest);
    }
	// 前向推理如果没成功，用gLogger报告状态
    if (!sample.infer())
    {
        return gLogger.reportFail(sampleTest);
    }
	// 用于清除示例类中创建的任何状态，内存释放
    if (!sample.teardown())
    {
        return gLogger.reportFail(sampleTest);
    }
	// 报告例子运行成功
    return gLogger.reportPass(sampleTest);
}

可以清晰的看到代码主要分为参数初始化，Build，Infer这三大部分，最后的输出结果是下面这样。

2.2 参数初始化

参数初始化主要由initializeSampleParams函数来完成，这个函数的详细注释如下，具体就是根据输入数据和网络文件所在的文件夹去读取LeNet的Caffe原始模型文件和均值文件，另外设置一些如输出Tensor名字，batch大小，运行时精度模式等关键参数，最后返回一个params对象。注意这里使用的LeNet模型是Caffe的原始模型，因为TensorRT是直接支持Caffe的原始模型解析的，但例如Pytorch模型之类的还要进行转换，这在以后的文章中会涉及到。

//!
//! 简介： 使用命令行参数初始化params结构的成员
//!
samplesCommon::CaffeSampleParams initializeSampleParams(const samplesCommon::Args& args)
{
    samplesCommon::CaffeSampleParams params;
    if (args.dataDirs.empty()) //!< 如果用户未提供目录路径，则使用默认目录
    {
        params.dataDirs.push_back("data/mnist/");
        params.dataDirs.push_back("data/samples/mnist/");
    }
    else //!< 使用用户提供的目录路径
    {
        params.dataDirs = args.dataDirs;
    }

    params.prototxtFileName = locateFile("mnist.prototxt", params.dataDirs); //读取params.dataDirs文件夹下的mnist.prototxt
    params.weightsFileName = locateFile("mnist.caffemodel", params.dataDirs); //读取params.dataDirs文件夹下的mnist.caffemodel
    params.meanFileName = locateFile("mnist_mean.binaryproto", params.dataDirs); //读取MNIST数字识别网络的均值文件
    params.inputTensorNames.push_back("data"); // 输入Tensor
    params.batchSize = 1; //设置batch_size大小
    params.outputTensorNames.push_back("prob"); // 输出Tensor
    params.dlaCore = args.useDLACore; // 是否使用DLA核心
    params.int8 = args.runInInt8; //以INT8的方式运行
    params.fp16 = args.runInFp16; //以FP16的方式运行

    return params; // 返回Params对象
}

2.3 Build

对于Build，具体的流程可以用下图来表示：

如上图所示，Build阶段主要完成模型转换(从Caffe/TensorFlow/Onnx->TensorRT)，在转换阶段会完成优化过程中的计算图融合，精度校准。这一步的输出是一个针对特定GPU平台和网络模型的优化过的TensorRT模型。这个TensorRT模型可以序列化的存储到磁盘或者内存中。存储到磁盘中的文件叫plan file。在sampleMNIST例子中只需要给tensorRT提供Caffe的*.prototxt，*.caffemodel,*.mean.binaryproto文件即可完成Build过程，另外这个还需要指定batch的大小并标记输出层。下面展示了sampleMNIST例子中的Build代码解析。

//! 简介： 创建网络、配置生成器并创建网络引擎
//! 细节： 此函数通过解析caffe模型创建MNIST网络，并构建用于运行MNIST（mEngine）的引擎
//! 返回值： 如果引擎被创建成功，直接返回True
bool SampleMNIST::build()
{
	// 1. Create builder
	//创建一个 IBuilder，传进gLogger参数是为了方便打印信息。
	//builder 这个地方感觉像是使用了建造者模式。
    auto builder = SampleUniquePtr(nvinfer1::createInferBuilder(gLogger.getTRTLogger()));
    if (!builder)
    {
        return false;
    }

	//创建一个 network对象，但是这个network对象只是一个空架子，里面的属性还没有具体的数值。
    auto network = SampleUniquePtr(builder->createNetwork());
    if (!network)
    {
        return false;
    }

	//创建一个配置文件解析对象
    auto config = SampleUniquePtr(builder->createBuilderConfig());
    if (!config)
    {
        return false;
    }

	//创建一个caffe模型解析对象
    auto parser = SampleUniquePtr(nvcaffeparser1::createCaffeParser());
    if (!parser)
    {
        return false;
    }
	// 使用caffe解析器创建MNIST网络并标记输出层
    constructNetwork(parser, network);
	// 设置batch大小，工作空间等等
    builder->setMaxBatchSize(mParams.batchSize);
    config->setMaxWorkspaceSize(16_MiB);
    config->setFlag(BuilderFlag::kGPU_FALLBACK);
    config->setFlag(BuilderFlag::kSTRICT_TYPES);
    if (mParams.fp16)
    {
        config->setFlag(BuilderFlag::kFP16);
    }
    if (mParams.int8)
    {
        config->setFlag(BuilderFlag::kINT8);
    }

    samplesCommon::enableDLA(builder.get(), config.get(), mParams.dlaCore);

    // 返回一个初始化好的cuda推理引擎
    mEngine = std::shared_ptr(builder->buildEngineWithConfig(*network, *config), samplesCommon::InferDeleter());

    if (!mEngine)
        return false;

    assert(network->getNbInputs() == 1);
    mInputDims = network->getInput(0)->getDimensions();
    assert(mInputDims.nbDims == 3);

    return true;
}

这个代码中的关键函数是constructNetwork，这个函数的作用是使用caffe解析器创建MNIST数字识别网络(LeNet)并标记输出层，我们可以看一下它的代码解析。可以看到代码中主要就是标记了输出Tensor，并且对网络的输入数据进行预处理包括减均值和缩放之类的操作。

//!
//! 简介： 使用caffe解析器创建MNIST网络并标记输出层
//!
//! 参数： 指向将用MNIST网络填充的网络指针
//!
//! 参数： 指向引擎生成器的生成器指针
//!
void SampleMNIST::constructNetwork(SampleUniquePtr& parser, SampleUniquePtr& network)
{
    const nvcaffeparser1::IBlobNameToTensor* blobNameToTensor = parser->parse(
        mParams.prototxtFileName.c_str(),
        mParams.weightsFileName.c_str(),
        *network,
        nvinfer1::DataType::kFLOAT);

	//输出Tensor标记
    for (auto& s : mParams.outputTensorNames)
    {
        network->markOutput(*blobNameToTensor->find(s.c_str()));
    }

    // 在网络开头添加减均值操作
    nvinfer1::Dims inputDims = network->getInput(0)->getDimensions();
	// 读取均值文件的数据
    mMeanBlob = SampleUniquePtr(parser->parseBinaryProto(mParams.meanFileName.c_str()));
    nvinfer1::Weights meanWeights{nvinfer1::DataType::kFLOAT, mMeanBlob->getData(), inputDims.d[1] * inputDims.d[2]};
    // 数据的原始分布是[0,256]
    // 减去均值之后是[-127,127]
    // The preferred method is use scales computed based on a representative data set
    // and apply each one individually based on the tensor. The range here is large enough for the
    // network, but is chosen for example purposes only.
    float maxMean = samplesCommon::getMaxValue(static_cast(meanWeights.values), samplesCommon::volume(inputDims));

    auto mean = network->addConstant(nvinfer1::Dims3(1, inputDims.d[1], inputDims.d[2]), meanWeights);
    mean->getOutput(0)->setDynamicRange(-maxMean, maxMean);
    network->getInput(0)->setDynamicRange(-maxMean, maxMean);
	// 执行减均值操作
    auto meanSub = network->addElementWise(*network->getInput(0), *mean->getOutput(0), ElementWiseOperation::kSUB);
    meanSub->getOutput(0)->setDynamicRange(-maxMean, maxMean);
    network->getLayer(0)->setInput(0, *meanSub->getOutput(0));
	// 执行缩放操作
    samplesCommon::setAllTensorScales(network.get(), 127.0f, 127.0f);
	// 最后的网络的输出就是[-1, 1]
}

3.4 Infer

如上图所示，Infer阶段就是完成前向推理过程了，这里将Build过程中获得的plan文件首先反序列化，并创建一个 runtime engine，然后就可以输入数据，然后输出分类向量结果或检测结果。Deploy阶段的实现在infer函数中，它负责分配缓冲区，设置输入，执行推理引擎并验证输出。代码解析如下：

//!
//! 简介： 对这个例子执行TensorRT的前向推理
//!
//! 细节： 此函数是示例的主要执行功能。 它分配缓冲区，设置输入，执行推理引擎并验证输出。
//!
bool SampleMNIST::infer()
{
	// 创建 RAII 缓冲区管理对象
    samplesCommon::BufferManager buffers(mEngine, mParams.batchSize);

	// 创建推理引擎
    auto context = SampleUniquePtr(mEngine->createExecutionContext());
    if (!context)
    {
        return false;
    }

    // 挑选一个要推理的随机数
    srand(time(NULL));
    const int digit = rand() % 10;

    // 读取输入数据到缓冲区管理对象中
    // 这里是由一个输入Tensor
    assert(mParams.inputTensorNames.size() == 1);
    if (!processInput(buffers, mParams.inputTensorNames[0], digit))
    {
        return false;
    }
    // 创建CUDA流以执行此推断
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));

    // 将数据从主机输入缓冲区异步复制到设备输入缓冲区
    buffers.copyInputToDeviceAsync(stream);

    // 异步排队推理工作
    if (!context->enqueue(mParams.batchSize, buffers.getDeviceBindings().data(), stream, nullptr))
    {
        return false;
    }
    // 将数据从设备输出缓冲区异步复制到主机输出缓冲区
    buffers.copyOutputToHostAsync(stream);

    // 等待流中的工作完成
    cudaStreamSynchronize(stream);

    // 释放流
    cudaStreamDestroy(stream);

    // 检查并打印推断的输出
    // 这里只有一个输出张量
    assert(mParams.outputTensorNames.size() == 1);
    bool outputCorrect = verifyOutput(buffers, mParams.outputTensorNames[0], digit);

    return outputCorrect;
}

2.5 辅助函数

在初始化函数initializeSampleParams中有一个函数叫locateFile，以及在processInput函数中有一个readPGMFile函数。这两个函数不是在sampleMNIST.cpp中实现的。而是在F:\TensorRT-6.0.1.5\samples\common文件夹下的common.h中实现的，是这个例程的辅助函数。这两个函数的实现如下：

// 定位文件
inline std::string locateFile(const std::string& filepathSuffix, const std::vector& directories)
{
    const int MAX_DEPTH{10};
    bool found{false};
    std::string filepath;

    for (auto& dir : directories)
    {
        if (!dir.empty() && dir.back() != '/')
        {
#ifdef _MSC_VER
            filepath = dir + "\\" + filepathSuffix;
#else
            filepath = dir + "/" + filepathSuffix;
#endif
        }
        else
            filepath = dir + filepathSuffix;

        for (int i = 0; i < MAX_DEPTH && !found; i++)
        {
            std::ifstream checkFile(filepath);
            found = checkFile.is_open();
            if (found)
                break;
            filepath = "../" + filepath; // Try again in parent dir
        }

        if (found)
        {
            break;
        }

        filepath.clear();
    }

    if (filepath.empty())
    {
        std::string directoryList = `在这里插入代码片`std::accumulate(directories.begin() + 1, directories.end(), directories.front(),
                                                    [](const std::string& a, const std::string& b) { return a + "\n\t" + b; });
        std::cout << "Could not find " << filepathSuffix << " in data directories:\n\t" << directoryList << std::endl;
        std::cout << "&&&& FAILED" << std::endl;
        exit(EXIT_FAILURE);
    }
    return filepath;
}
// 读图
inline void readPGMFile(const std::string& fileName, uint8_t* buffer, int inH, int inW)
{
    std::ifstream infile(fileName, std::ifstream::binary);
    assert(infile.is_open() && "Attempting to read from a file that is not open.");
    std::string magic, h, w, max;
    infile >> magic >> h >> w >> max;
    infile.seekg(1, infile.cur);
    infile.read(reinterpret_cast(buffer), inH * inW);
}

2.6 日志类

在上面的代码中我们可以看到还有大量的和日志相关的信息，这些都来源于在F:\TensorRT-6.0.1.5\samples\common\logging.h中实现的日志类class Logger : public nvinfer1::ILogger，这个日志类继承于nvinfer1::ILogger，代码简要摘抄一点：

// Logger for TensorRT info/warning/errors
class Logger : public nvinfer1::ILogger
{
public:
    Logger(): Logger(Severity::kWARNING) {}
    Logger(Severity severity): reportableSeverity(severity) {}
    void log(Severity severity, const char* msg) override
    {
        // suppress messages with severity enum value greater than the reportable
        if (severity > reportableSeverity) return;
        switch (severity)
        {
        case Severity::kINTERNAL_ERROR: std::cerr << "INTERNAL_ERROR: "; break;
        case Severity::kERROR: std::cerr << "ERROR: "; break;
        case Severity::kWARNING: std::cerr << "WARNING: "; break;
        case Severity::kINFO: std::cerr << "INFO: "; break;
        default: std::cerr << "UNKNOWN: "; break;
        }
        std::cerr << msg << std::endl;
    }
    Severity reportableSeverity{Severity::kWARNING};
};

然后nvinfer1::ILogger这个类在TensorRT的头文件NvInferRuntimeCommon.h中，目录如下图所示。

nvinfer1::ILogger类的代码如下。这个类是builder，engine和runtime类的日志接口，这个类应该以单例模式使用，即当存在多个IRuntime 和/或 IBuilder对象时仍然只能使用一个ILogger接口。这个接口中有一个枚举变量enum class Severity用来定义日志报告级别，分别为 kINTERNAL_ERROR，kERROR，kWARNING和kINFO；然后还有一个纯虚函数 log() ，用户可以自定义这个函数，以实现不同效果的打印。例如在2.6节的日志类就是根据不同的报告等级向准错误输出流输出带有不同前缀的信息。当然，我们也可以自己定义这个函数的，比如将日志信息存到一个log.txt里。

class ILogger
{
public:
    //!
    //! \enum Severity
    //!
    //! The severity corresponding to a log message.
    //!
    enum class Severity : int
    {
        kINTERNAL_ERROR = 0, //!< An internal error has occurred. Execution is unrecoverable.
        kERROR = 1,          //!< An application error has occurred.
        kWARNING = 2,        //!< An application error has been discovered, but TensorRT has recovered or fallen back to a default.
        kINFO = 3,           //!< Informational messages with instructional information.
        kVERBOSE = 4,        //!< Verbose messages with debugging information.
    };

    //!
    //! A callback implemented by the application to handle logging messages;
    //!
    //! \param severity The severity of the message.
    //! \param msg The log message, null terminated.
    //!
    virtual void log(Severity severity, const char* msg) TRTNOEXCEPT = 0;

    virtual ~ILogger() {}
};

3. 后记

这篇推文从源码角度来分析了一下TensorRT使用LeNet对MNIST数据进行推理的例程，旨在对TensorRT的推理过程有一个初步的印象，因为LeNet模型本身就很小所以加速效果也体现不太出来，这里就不贴了。

参考

//docs.nvidia.com/deeplearning/sdk/tensorrt-api/#graphsurgeon
https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/
https://arleyzhang.github.io/articles/c17471cb/

欢迎关注GiantPandaCV, 在这里你将看到独家的深度学习分享，坚持原创，每天分享我们学习到的新鲜知识。( • ̀ω•́ )✧

有对文章相关的问题，或者想要加入交流群，欢迎添加BBuf微信：

TensorRT模型量化实践痛&快乐着深度学习 TensorRT c++深度学习
文章目录量化基本概念量化的方法方式1：trtexec（PTQ的一种）方式2：PTQ2.1pythononnx转trt2.2polygraphy工具:应该是对2.1量化过程的封装方式3：QAT(追求精度时推荐)使用TensorRT量化实践（C++版）使用TensorRT量化（python版）参考文献量化基本概念后训练量化PostTrainingQuantization(PTQ)量化过程仅仅通过离线推
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
python 安装 win32com 郎君啊 python 开发语言
扩展,Python,安装相关视频讲解：StableDiffusion提升出图速度,TensorRT扩展,SDXL-SSD-1B-A1111,速度提升60%,PyTorch更新python的or运算赋值用法用python编程Excel有没有用处？如何在Windows系统上安装win32com一、整体流程步骤操作1下载并安装Python2安装pywin32扩展包3验证安装是否成功二、具体操作步骤及代码
深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】 u013250861 #LLM/部署深度学习人工智能
triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小
python opencv cuda tensorrt pytorch之间的版本对应 YIACA python opencv pytorch
python3.7opencv4.4cuda10.2tensorrt7xpytorch1.5DeepStream5.xOpenCV2.x：支持Python2.xOpenCV3.x：支持Python2.7、Python3.xOpenCV4.x：支持Python2.7、Python3.x、Python3.8+CUDA11.x：支持Python3.6、3.7、3.8、3.9CUDA10.2：支持Pyth
自动驾驶之心规划控制理论&实战课程 vsdvsvfhf 自动驾驶人工智能机器学习
单目3D与单目BEV全栈教程(视频答疑)多传感器标定全栈系统学习教程多传感器融合:毫米波雷达和视觉融合感知全栈教程(深度学习传统方式)多传感器融合跟踪全栈教程(视频答疑)多模态融合3D目标检测教程(视频答疑)规划控制理论&实战课程国内首个BEV感知全栈系列学习教程首个基于Transformer的分割检测视觉大模型视频课程CUDA与TensorRT部署实战课程(视频答疑)Occupancy从入门到精
LLM大模型落地-从理论到实践 hhaiming_ 语言模型人工智能 ai 深度学习
简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM、vLLM等主流推理加速框架
算法学习-2024.8.16 蓝纹绿茶学习
一、Tensorrt学习补充TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用32位或16位数据。TensorRT则在网络的推理时选用不这么高的精度，达到加速推断的目的。TensorRT对于网络结构进行了重构，把一些能够合并的运算合并在了一起，针对GPU的特性做了优化。一个深度学习模型，在没有优化的情况下，比如一个卷积层、一个偏置层和一个reload层，这三层是需要调用三
onnx转tensorRT模型出现错误 This version of TensorRT only supports input K as an initializer lainegates pytorch 人工智能深度学习神经网络
问题onnx模型转tensorRT模型时，出现错误。ThisversionofTensorRTonlysupportsinputKasaninitializer.TryapplyingconstantfoldingonthemodelusingPolygraphgoogle到tensorRT8.6支持了dynamictopk，不会再有这个问题。但项目上限制是tensorRT8.5Problemsc
trt | torch2trt的使用方式 Mopes__ 分享 TensorRT torch2trt
一、安装1.安装tensorrtpython接口下载trt包.tar.gzhttps://developer.nvidia.com/nvidia-tensorrt-5x-download解压tarxvfTensorRT-6.0.1.5.Ubuntu-18.04.x86_64-gnu.cuda-10.1.cudnn7.6.tar.gz安装trtpython接口cdpythonpipinstallte
用TensorRT-LLM跑通chatGLM3_6B模型心瘾こころ语言模型 python
零、参考资料NVIDIA官网THUDM的GithubNVIDIA的Github一、构建TensorRT-LLM的docker镜像gitlfsinstallgitclonehttps://github.com/NVIDIA/TensorRT-LLM.gitcdTensorRT-LLMgitsubmoduleupdate--init--recursivesudomake-Cdockerrelease_
Ubuntu20.04部署Ollama stxinu Nvidia 人工智能 linux 服务器人工智能
在Ubuntu20.04上面安装完RTX4060的NvidiaCuda和TensorRT环境后，就开始跑些大模型看看。下面是安装使用Ollama的过程：安装Ollama：curl-khttps://ollama.com/install.sh|sh执行上面命令，有如下打印：%Total%Received%XferdAverageSpeedTimeTimeTimeCurrentDloadUploadT
AI秒出图！StableDiffusion Automatic1111正式支持Tensorrt germandai 人工智能 stable diffusion
秒级出图的AI绘画终于支持Automatic1111。今天在AI绘画的开源平台Automatic1111上发布了Tensorrt项目，项目地址是https://github.com/AUTOMATIC1111/stable-diffusion-webui-tensorrt该项目是基于automatic1111的stable-diffusion-webui项目的子项目。基本原理：我们知道，autom
PyTorch训练，TensorRT部署的简要步骤（采用ONNX中转的方式）赛先生.AI TensorRT pytorch 人工智能 TensorRT ONNX
1.简述使用PyTorch执行训练，使用TensorRT进行部署有很多种方法，比较常用的是基于INetworkDefinition进行每一层的自定义，这样一来，会反向促使研究者能够对真个网络的细节有更深的理解。另一种相对简便的方式就是通过ONNX中间转换的形式。本文主要针对该途径进行简单的脉络阐述。2.导出ONNX如果使用的是PyTorch训练框架，可采用其自带的ONNX导出API。torch.o
ChatGPT引领的AI面试攻略系列：cuda和tensorRT 梦想的理由深度学习 c++chatgpt 人工智能面试
系列文章目录cuda和tensorRT（本文）AI全栈工程师文章目录系列文章目录一、前言二、面试题1.CUDA编程基础2.CUDA编程进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.实际应用与案例分析7.编程与代码实践8.高级话题与趋势一、前言随着人工智能技术的飞速发展，该领域的就业机会也随之增多。无论是刚刚踏入这一领域的新手，还是经验丰富的专业人士，都可能面临着各种面试挑战。
使用TensorRT在PyTorch项目中加速深度学习推理从零开始学习人工智能深度学习 pytorch 人工智能
在PyTorch项目中使用TensorRT进行深度学习推理通常涉及以下步骤：模型训练：首先，在PyTorch中训练你的深度学习模型。模型导出：训练完成后，将模型从PyTorch导出为ONNX（OpenNeuralNetworkExchange）格式。ONNX是一种用于表示深度学习模型的开放格式，它使得模型可以在不同的深度学习框架之间互操作。模型优化：使用TensorRT优化ONNX模型。Tenso
[C++]使用C++部署yolov9的tensorrt模型进行目标检测 FL1623863129 C/C++目标检测人工智能计算机视觉
部署YOLOv9的TensorRT模型进行目标检测是一个涉及多个步骤的过程，主要包括准备环境、模型转换、编写代码和模型推理。首先，确保你的开发环境已安装了NVIDIA的TensorRT。TensorRT是一个用于高效推理的SDK，它能对TensorFlow、PyTorch等框架训练的模型进行优化，从而加速模型在NVIDIAGPU上的运行速度。接下来，你需要将YOLOv9的模型转换为TensorRT
[技术杂谈]Chat With RTX 介绍 FL1623863129 技术杂谈人工智能
英伟达（Nvidia）已于近日发布了名为“ChatwithRTX”的Demo版个性化AI聊天机器人，并在其海外官网渠道中提供了下载链接。据了解，这是一款适用于Windows平台的聊天机器人，由TensorRT-LLM提供支持，完全在本地运行。据官网信息显示，想要安装该聊天机器人应用，用户的系统配置需使用Nvidia的30系/40系显卡（或Ampere/Ada架构的其他显卡），且显存至少为8GB。此
WhisperFusion：具有超低延迟无缝对话功能的AI系统语音之家智能语音人工智能语音识别语言模型
WhisperFusion基于WhisperLive和WhisperSpeech的功能而构建，在实时语音到文本管道之上集成了大型语言模型Mistral(LLM)。LLM和Whisper都经过优化，可作为TensorRT引擎高效运行，从而最大限度地提高性能和实时处理能力。WhiperSpeech是通过torch.compile进行优化的。特征实时语音转文本：利用OpenAIWhisperLive将口
心法利器[107] onnx和tensorRT的bert加速方案记录机智的叉烧 bert 人工智能深度学习自然语言处理
心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会，与大家一起成长。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。2023年新一版的文章合集已经发布，获取方式看这里：又添十万字-CS的陋室2023年文章合集来袭，更有历史文章合集，欢迎下载。往期回顾心法利器[102]|大模型落地应用架构的一种模式心法利器[103]|大模型badcase修复方案思考心法利器[104]|基础RAG-向量检索
jetson orin nano 使用yolov8导出engine coder攻城狮 YOLO
1.导出onnx经过前面训练，得到了best.pt模型，现在想要使用tensorrt进行推理，需要先导出为onnx格式，再转化为engine格式。yoloexportmodel=best.ptformat=onnxopset=12simplify=True2.解决错误在导出过程中，可能会出现错误，cmake版本问题安装好后，默认cmake版本为3.16，需要对cmake进行升级sudopipins
TensorRT下载安装 Jumy_S python
TensorRT下载安装一下载地址https://developer.nvidia.com/nvidia-tensorrt-8x-download版本8.2.3GA(成熟稳定版)和8.4.0EA（新功能测试版）以后，有C++和python的API，完全等价可以混用二安装tensorrt的python版本pipinstalltensorrt-8.5.1.7-cp38-none-win_amd64.w
安装使用MMDeploy（Python版） *Major* 人工智能 python
安装使用MMDeploy（Python版）一安装MMDeploypythonmmdeploy-main/tools/deploy.pymmdeploy-main/configs/mmdet/detection/detection_tensorrt_dynamic-320x320-1344x1344.pymmdetection/configs/faster_rcnn/faster-rcnn_r50_
Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度知来者逆 Stable Diffusion stable diffusion TensorRT 人工智能 AIGC
概述Diffusion模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，StableDiffusion采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是StableDiffusion使用了编码器将图像从原始的3512512大小转换为更小的46464大小，从而极大地降低了计算量。它还利用了潜在表示空间（latentspace）上的Diffusion过程，进一步降低了计
yolov5 torch转tensorrt详解【推荐】 Teng-Sun YOLO
转化函数#可以在https://github.com/ultralytics/yolov5/blob/master/export.py里面找到defexport_engine(model,im,file,half,dynamic,simplify,workspace=4,verbose=False,prefix=colorstr('TensorRT:')):#YOLOv5TensorRTexpor
mmdetection模型转onnx和tensorrt实战 dream_home8407 python 深度学习人工智能
一,说明1.本次实战使用的是mmdetection算法框架中的Cascase-Rcnn训练的模型；2.模型转换时,运行环境中各种工具的版本要保持一致；3.TensorRT我一直装不上,我用的是镜像环境.参考链接:link二,使用Docker镜像1.0,镜像基础环境构建exportTAG=openmmlab/mmdeploy:ubuntu20.04-cuda11.8-mmdeploydockerpu
Jetson AGX Orin安装Anaconda，Cuda，Cudnn，pytorch，Tensorrt，ROS 枭玉龙 #ubuntu系统下安装 pytorch 人工智能 python
Anaconda：https://repo.anaconda.com/archive/Cuda：https://forums.developer.nvidia.com/t/pytorch-for-jetson/720481：安装Anaconda3下载：Anaconda3-2021.11-Linux-aarch64.shchmod+xAnaconda3-2021.11-Linux-aarch64.s
Jetson Xavier NX CUDA、cuDNN、TensorRT与Pytorch环境配置想努力的人 pytorch 人工智能 python
橘子大虾关注IP属地:江苏0.1312022.05.1911:31:43字数331阅读3,854torch与vision源码安装包下载链接：https://pan.baidu.com/s/1mrIgGoMo0bq6otGhlh-E3A提取码：6sb31.Cuda、CuDNN和TensorRT在JetsonXavierNx控制台中执行指令#更新软件源sudoaptupdate#安装JetPack组件
orin nx 安装paddlespeech记录想努力的人算法语音合成人工智能
nx配置：模块版本说明CPU8核内存16GCuda版本11.4Opencv版本4.5.4Tensorrt版本5.1Cudnn版本8.6.0.166Deepstream版本6.2Python版本3.8算力100T安装paddlepaddle：去飞桨官网下载jetpack版本的：下载安装Linux推理库-PaddlePaddle深度学习平台当需要调用语速的接口时：需要安装soxbindings包，这个
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite