浩瀚之水_csdn

TensorRT(3)-C++ API使用：mnist手写体识别

本节将介绍如何使用tensorRT C++ API 进行网络模型创建。

1 使用C++ API 进行 tensorRT 模型创建

还是通过 tensorRT官方给的一个例程来学习。

还是mnist手写体识别的例子。上一节主要是用 tensorRT提供的NvCaffeParser来将 Caffe中的model 转换成tensorRT中特有的模型结构。NvCaffeParser是tensorRT封装好的一个用以解析Caffe模型的工具（较顶层的API），同样的还有 NvUffPaser是用于解析TensorFlow的工具。

除了以上两个封装好的工具之外，还可以使用tensorRT提供的C++ API（底层的API）来直接在tensorRT中创建模型。这时 tensorRT 相当于是一个独立的深度学习框架了，这个框架和其他框架（Caffe, TensorFlow，MXNet等）一样都具备搭建网络模型的能力（只有前向计算没有反向传播）。

不同之处在于：

这个框架不能用于训练，模型的权值参数要人为给定；
可以针对设定网络模型（自己使用API创建网络模型）或给定模型（使用NvCaffeParser或NvUffPaser导入其他深度学习框架训练好的模型）做一系列优化，以加快推理速度（inference）

使用C++ API函数部署网络主要分为四个步骤：

创建网络；
为网络添加输入；
添加各种各样的层；
设定网络输出；

以上，第1,2,4步骤在使用 NvCaffeParser 时也是有的。只有第3步是本节所讲的方法中特有的，其实对于NvCaffeParser 工具来说，他只是把第 3步封装起来了而已。

如下，对比一下 NvCaffeParser 的使用方法，下面的代码中只列出了关键部分的代码。完整代码请看上一节。

//build phase

INetworkDefinition* network = builder->createNetwork(); //1. 创建网络

CaffeParser* parser = createCaffeParser();

std::unordered_map blobNameToTensor;

const IBlobNameToTensor* blobNameToTensor = //3. 添加各种各样的层

parser->parse(locateFile(deployFile).c_str(), //NvCaffeParser 工具

locateFile(modelFile).c_str(), //把添加层的内容封装起来了

*network,

DataType::kFLOAT);

for (auto& s : outputs)

network->markOutput(*blobNameToTensor->find(s.c_str())); // 4. 设定网络输出

ICudaEngine* engine = builder->buildCudaEngine(*network); //创建engine

//省略一些内容………………

//execution phase

IExecutionContext *context = engine->createExecutionContext(); //创建 context

int inputIndex = engine->getBindingIndex(INPUT_BLOB_NAME),

outputIndex = engine->getBindingIndex(OUTPUT_BLOB_NAME); //2.为网络添加输入

//省略一些内容………………

context.enqueue(batchSize, buffers, stream, nullptr); //调用cuda核计算

cudaStreamSynchronize(stream); //同步cuda 流

上述四个步骤对应部分已在注释标出。可见 NvCaffeParser 工具中最主要的是 parse 函数，这个函数接受网络模型文件（deploy.prototxt）、权值文件（net.caffemodel）为参数，这两个文件是caffe的模型定义文件和训练参数文件。parse 函数会解析这两个文件并对应生成 tensorRT的模型结构。

对于NvCaffeParser 工具来说，是需要三个文件的，分别是：

网络模型文件（比如，caffe的deploy.prototxt）
训练好的权值文件（比如，caffe的net.caffemodel）
标签文件（这个主要是将模型产生的数字标号分类，与真实的名称对应起来）

以下分步骤说明四个步骤：

1.1 创建网络

先创建一个tensorRT的network，这个network 现在只是个空架子，比较简单：

1	INetworkDefinition* network = builder->createNetwork();

1.2 为网络添加输入

所有的网络都需要明确输入是哪个blob，因为这是数据传送的入口。

1 2	// Create input of shape { 1, 1, 28, 28 } with name referenced by INPUT_BLOB_NAME auto data = network->addInput(INPUT_BLOB_NAME, dt, DimsCHW{ 1, INPUT_H, INPUT_W});

INPUT_BLOB_NAME 是为输入 blob起的名字;

dt是指数据类型，有kFLOAT(float 32), kHALF(float 16), kINT8(int 8)等类型;

//位于 NvInfer.h 文件

enum class DataType : int

{

kFLOAT = 0, //!< FP32 format.

kHALF = 1, //!< FP16 format.

kINT8 = 2, //!< INT8 format.

kINT32 = 3 //!< INT32 format. 这个是TensorRT新增的

};

DimsCHW{ 1, INPUT_H, INPUT_W} 是指，batch为1（省略），channel 为1，输入height 和width分别为 INPUT_H, INPUT_W的blob；

1.3 添加各种各样的层

以下示例是添加一个 scale layer

// Create a scale layer with default power/shift and specified scale parameter. float

scale_param = 0.0125f;

Weights power{DataType::kFLOAT, nullptr, 0};

Weights shift{DataType::kFLOAT, nullptr, 0};

Weights scale{DataType::kFLOAT, &scale_param, 1};

auto scale_1 = network->addScale(*data, ScaleMode::kUNIFORM, shift, scale, power);

主要就是 addScale 函数，后面接受的参数是这一层需要设置的参数。

scale 层的作用是对每个输入数据进行幂运算

f(x)= (shift + scale * x) ^ power

层类型：Power

可选参数：

　　power: 默认为1

　　scale: 默认为1

　　shift: 默认为0

就是一种激活层。

Weights 类的定义如下：

//NvInfer.h 文件

class Weights

{

public:

DataType type; //!< the type of the weights

const void* values; //!< the weight values, in a contiguous array

int64_t count; //!< the number of weights in the array

};

以上是不包含训练参数的层，还有 Relu层，Pooling层等。

包含训练参数的层，比如卷积层，全连接层，要先加载权值文件。

以下示例是添加一个卷积层

// Add convolution layer with 20 outputs and a 5x5 filter.

// 加载权值文件，加载一次即可

std::map weightMap = loadWeights(locateFile("mnistapi.wts"));

//添加卷积层

IConvolutionLayer* conv1 = network->addConvolution(*scale_1->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);

//设置步长

conv1->setStride(DimsHW{1, 1});

第6行添加卷积层：

1	IConvolutionLayer* conv1 = network->addConvolution(*scale_1->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);

*scale_1->getOutput(0) ：获取上一层 scale层的输出

20：卷积核个数，或者输出feature map 层数

DimsHW{5, 5}：卷积核大小

weightMap["conv1filter"], weightMap["conv1bias"]：权值系数矩阵

上面的 mnistapi.wts 文件，是用于存放网络中各个层间的权值系数的，该文件位于 /usr/src/tensorrt/data 文件夹中。

可以用notepad打开看一下，如下：

可见每一行都是一层的一些参数，比如 conv1bias 是指第一个卷积层的偏置系数，后面的0 指的是 kFLOAT 类型，也就是 float 32；后面的20是系数的个数，因为输出是20，所以偏置是20个；下面一行是卷积核的系数，因为是20个 5×5的卷积核，所以有 20×5×5=500个参数。其它层依次类推。

这个文件是例程中直接给的，感觉像是用caffe等工具训练后，将weights系数从caffemodel 中提取出来的。直接读取caffemodel应该也是可以的，稍微改一下接口：解析caffemodel文件然后将层名和权值参数键值对存到一个map中，网上大概找了一下，比如这个，解析后的caffemodel如下所示：

conv1 最下面有一个 blobs结构，这个是weights系数；每一个包含参数的层（卷积，全连接等；激活层，池化层没有参数）都有一个 blobs结构。只需将这些参数提取出来，保存到一个map中。

除此之外也可以添加很多其他的层，比如反卷积层，池化层，全连接层等，具体参考英伟达官方API 。

添加层的过程就相当于 NvCaffeParser 工具中 parse 函数解析 deploy.prototxt 文件的过程。

1.4 设定网络输出

网络必须知道哪一个blob是输出的。

如下代码，在网络的最后添加了一个softmax层，并将这个层命名为 OUTPUT_BLOB_NAME，之后指定为输出层。

// Add a softmax layer to determine the probability.

auto prob = network->addSoftMax(*ip2->getOutput(0));

prob->getOutput(0)->setName(OUTPUT_BLOB_NAME);

network->markOutput(*prob->getOutput(0));

那直接使用底层API有什么好处呢？看下表

Feature	C++	Python	NvCaffeParser	NvUffParser
CNNs	yes	yes	yes	yes
RNNs	yes	yes	no	no
INT8 Calibration	yes	yes	NA	NA
Asymmetric Padding	yes	yes	no	no

上表列出了 tensorRT 的不同特点与 API 对应的情况。可以看到对于 RNN，int8校准（float 32 转为 int8），不对称 padding 来说，NvCaffeParser是不支持的，只有 C++ API 和 Python API，才是支持的。

所以说如果是针对很复杂的网络结构使用tensorRT，还是直接使用底层的 C++ API，和Python API 较好。底层C++ API还可以解析像 darknet 这样的网络模型，因为它需要的就只是一个层名和权值参数对应的map文件。

2 官方例程

例程位于 /usr/src/tensorrt/samples/sampleMNISTAPI

2.1 build phase

//这个是main函数中的代码片段

// create a model using the API directly and serialize it to a stream

IHostMemory *modelStream{nullptr};

//调用APIToModel函数，手动创建网络模型

APIToModel(1, &modelStream);

APIToModel函数：

void APIToModel(unsigned int maxBatchSize, IHostMemory** modelStream)

{

// Create builder

IBuilder* builder = createInferBuilder(gLogger);

//下面这个createMNISTEngine函数才是真正手动创建网络的过程

// Create model to populate the network, then set the outputs and create an engine

ICudaEngine* engine = createMNISTEngine(maxBatchSize, builder, DataType::kFLOAT);

assert(engine != nullptr);

// Serialize the engine

(*modelStream) = engine->serialize();

// Close everything down

engine->destroy();

builder->destroy();

}

createMNISTEngine函数如下：

// Creat the engine using only the API and not any parser.

ICudaEngine* createMNISTEngine(unsigned int maxBatchSize, IBuilder* builder, DataType dt)

{

INetworkDefinition* network = builder->createNetwork();

// Create input tensor of shape { 1, 1, 28, 28 } with name INPUT_BLOB_NAME

ITensor* data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{1, INPUT_H, INPUT_W});

assert(data);

// Create scale layer with default power/shift and specified scale parameter.

const float scaleParam = 0.0125f;

const Weights power{DataType::kFLOAT, nullptr, 0};

const Weights shift{DataType::kFLOAT, nullptr, 0};

const Weights scale{DataType::kFLOAT, &scaleParam, 1};

IScaleLayer* scale_1 = network->addScale(*data, ScaleMode::kUNIFORM, shift, scale, power);

assert(scale_1);

// Add convolution layer with 20 outputs and a 5x5 filter.

// 加载权值文件，加载一次即可

std::map weightMap = loadWeights(locateFile("mnistapi.wts"));

// 添加卷积层

IConvolutionLayer* conv1 = network->addConvolution(*scale_1->getOutput(0), 20, DimsHW{5, 5}, weightMap["conv1filter"], weightMap["conv1bias"]);

assert(conv1);

//设置步长

conv1->setStride(DimsHW{1, 1});

// Add max pooling layer with stride of 2x2 and kernel size of 2x2.

IPoolingLayer* pool1 = network->addPooling(*conv1->getOutput(0), PoolingType::kMAX, DimsHW{2, 2});

assert(pool1);

pool1->setStride(DimsHW{2, 2});

// Add second convolution layer with 50 outputs and a 5x5 filter.

IConvolutionLayer* conv2 = network->addConvolution(*pool1->getOutput(0), 50, DimsHW{5, 5}, weightMap["conv2filter"], weightMap["conv2bias"]);

assert(conv2);

conv2->setStride(DimsHW{1, 1});

// Add second max pooling layer with stride of 2x2 and kernel size of 2x3>

IPoolingLayer* pool2 = network->addPooling(*conv2->getOutput(0), PoolingType::kMAX, DimsHW{2, 2});

assert(pool2);

pool2->setStride(DimsHW{2, 2});

// Add fully connected layer with 500 outputs.

IFullyConnectedLayer* ip1 = network->addFullyConnected(*pool2->getOutput(0), 500, weightMap["ip1filter"], weightMap["ip1bias"]);

assert(ip1);

// Add activation layer using the ReLU algorithm.

IActivationLayer* relu1 = network->addActivation(*ip1->getOutput(0), ActivationType::kRELU);

assert(relu1);

// Add second fully connected layer with 20 outputs.

IFullyConnectedLayer* ip2 = network->addFullyConnected(*relu1->getOutput(0), OUTPUT_SIZE, weightMap["ip2filter"], weightMap["ip2bias"]);

assert(ip2);

// Add softmax layer to determine the probability.

ISoftMaxLayer* prob = network->addSoftMax(*ip2->getOutput(0));

assert(prob);

prob->getOutput(0)->setName(OUTPUT_BLOB_NAME);

network->markOutput(*prob->getOutput(0));

// Build engine

builder->setMaxBatchSize(maxBatchSize);

builder->setMaxWorkspaceSize(1 << 20);

ICudaEngine* engine = builder->buildCudaEngine(*network);

// Don't need the network any more

network->destroy();

// Release host memory

for (auto& mem : weightMap)

{

free((void*) (mem.second.values));

}

return engine;

}

可见里面包含了很多 add* 函数，都是用于添加各种各样的层的。可参考英伟达官方API 。

2.2 deploy phase

deploy阶段基本与之前的无异。

int main(int argc, char** argv)

{

………………

// Deserialize engine we serialized earlier

// 创建运行时环境 IRuntime对象，传入 gLogger 用于打印信息

IRuntime* runtime = createInferRuntime(gLogger);

assert(runtime != nullptr);

ICudaEngine* engine = runtime->deserializeCudaEngine(trtModelStream->data(), trtModelStream->size(), nullptr);

assert(engine != nullptr);

trtModelStream->destroy();

//创建上下文环境，主要用于inference 函数中启动cuda核

IExecutionContext* context = engine->createExecutionContext();

assert(context != nullptr);

//2.deploy 阶段：调用 inference 函数，进行推理过程

// Run inference on input data

float prob[OUTPUT_SIZE];

doInference(*context, data, prob, 1);

………………

}

doInference函数如下：

void doInference(IExecutionContext& context, float* input, float* output, int batchSize)

{

const ICudaEngine& engine = context.getEngine();

// Pointers to input and output device buffers to pass to engine.

// Engine requires exactly IEngine::getNbBindings() number of buffers.

assert(engine.getNbBindings() == 2);

void* buffers[2];

// In order to bind the buffers, we need to know the names of the input and output tensors.

// Note that indices are guaranteed to be less than IEngine::getNbBindings()

const int inputIndex = engine.getBindingIndex(INPUT_BLOB_NAME);

const int outputIndex = engine.getBindingIndex(OUTPUT_BLOB_NAME);

// Create GPU buffers on device

CHECK(cudaMalloc(&buffers[inputIndex], batchSize * INPUT_H * INPUT_W * sizeof(float)));

CHECK(cudaMalloc(&buffers[outputIndex], batchSize * OUTPUT_SIZE * sizeof(float)));

// Create stream

cudaStream_t stream;

CHECK(cudaStreamCreate(&stream));

// DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host

CHECK(cudaMemcpyAsync(buffers[inputIndex], input, batchSize * INPUT_H * INPUT_W * sizeof(float), cudaMemcpyHostToDevice, stream));

context.enqueue(batchSize, buffers, stream, nullptr);

CHECK(cudaMemcpyAsync(output, buffers[outputIndex], batchSize * OUTPUT_SIZE * sizeof(float), cudaMemcpyDeviceToHost, stream));

cudaStreamSynchronize(stream);

// Release stream and buffers

cudaStreamDestroy(stream);

CHECK(cudaFree(buffers[inputIndex]));

CHECK(cudaFree(buffers[outputIndex]));

}

参考资料

caffe中的一些激活函数：Caffe学习系列(4)：激活层（Activiation Layers)及参数 - denny402 - 博客园
caffemodel 解析：python读取caffemodel文件 - ChrisZZ - 博客园
caffemodel 解析：http://www.cnblogs.com/zzq1989/p/4439429.html
tensorRT C++ API：TensorRT: TensorRT
tensorRT python API：TensorRT — NVIDIA TensorRT Standard Python API Documentation 8.4.0 documentation
tensorRT 开发者指南：Developer Guide :: NVIDIA Deep Learning TensorRT Documentation
NVIDIA Deep Learning SDK：NVIDIA Documentation Center | NVIDIA Developer

你可能感兴趣的:(TensorRT,c++,caffe,深度学习)

华为OD机试2024年E卷-分苹果[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go ）实现100%通过率梅花C 华为OD题库华为od
题目描述A、B两个人把苹果分为两堆，A希望按照他的计算规则等分苹果Q，他的计算规则是按照二进制加法计算，并且不计算进位12+5=9(1100+0101=9)，B的计算规则是十进制加法，包括正常进位，B希望在满足A的情况下获取苹果重量最多。输入苹果的数量和每个苹果重量，输出满足A的情况下B获取的苹果总重量。如果无法满足A的要求，输出-1。数据范围1<=总苹果数量<=200001<=每个苹果重量<=1
侯捷 C++ 课程学习笔记：开启 C++ 深度探索之旅秃头小饼干 jvm 开发语言 c++
在C++的学习道路上，侯捷老师的课程宛如一座明亮的灯塔，为无数学习者照亮前行的方向。经过一段时间对侯捷C++课程的深入学习，我收获颇丰，在此将自己的学习笔记和感悟分享给大家，希望能对正在学习C++或者准备踏入C++领域的朋友们有所帮助。一、课程初印象初次接触侯捷老师的课程，就被其深入浅出的讲解风格所吸引。老师不仅有着深厚的技术功底，更具备出色的教学能力，能够将复杂的C++知识以通俗易懂的方式呈现出
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
ROS 实时修改动态参数的方法 jucat ROS 机器人自动驾驶 linux
参考HokuyoLaser动态参数设置wikiipa覆盖算法源码背景工作中需要在C++程序运行过程中，根据场景开关costmap2d的障碍物感知图层以及膨胀图层。在yaml启动参数配置中加载障碍物层插件和膨胀层插件，但是关闭它们的更新，大概如下：global_costmap:global_frame:maprobot_base_frame:base_footprint...plugins:-{na
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
C++实现设计模式---职责链模式 (Chain of Responsibility) 计算机小混子设计模式 c++设计模式责任链模式
职责链模式(ChainofResponsibility)职责链模式是一种行为型设计模式，它允许多个对象都有机会处理请求，从而避免请求的发送者和接收者之间的耦合。这些对象通过形成一条链，沿着这条链传递请求，直到有对象处理它为止。意图通过将请求的发送者与接收者解耦，动态地决定由哪个对象来处理请求。使多个对象有机会处理请求，而不是由固定的对象处理。使用场景请求的处理者不确定：在运行时，可能需要多个对象来
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
InceptionV1实现猴痘病识别案例小叮当爱咖啡计算机视觉人工智能神经网络深度学习
本文为为365天深度学习训练营内部文章原作者：K同学啊InceptionModule是InceptionV1的核心组成单元，提出了卷积层的并行结构，实现了在同一层就可以提取不同的特征为了改善计算量大的问题，使用了1*1的卷积核实现降维操作，以此来减小网络的参数量与计算量1*1卷积核的作用：降低输入特征图的通道数，减小网络的参数量与计算量最后InceptionModule基本由1*1卷积，3*3卷积
华为OD机试E卷 --连续字母长度--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java python 华为od javascript c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定一个字符串，只包含大写字母，求在包含同一字母的子串中，长度第k长的子串的长度，相同字母只取最长的那个子串。输入描述第一行有一个子串(1<长度<=100)，只包含大写字母。第二行为k的值输出描述输出连续出现次数第k多的字母的次数。用例输入AAAAHHHBBCDHHHH3输出
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
(c/c++)——C++和python的异常处理想要躺平的一枚 C++python c语言 c++
目录一、C++的异常处理二、python的异常处理——自定义异常一、C++的异常处理C++中选择用throw来抛出异常，catch来捕捉异常和处理try{//可能发生异常的语句//throw异常对象}catch(类型1){//发生类型1异常时的处理代码}catch(类型2){//发生类型2异常时的处理代码}catch(...){//不管什么异常，都在这里统一处理。}throw抛出异常对象，异常对象
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
ROS VScode 使用笔记 zhanglianzhao 机器人技术基础 c++vscode
ROSVScode使用笔记编译快捷方式修改功能包下CMakeList.txt136行和149-151行程序如果C++文件返回的日志信息乱码，可以在程序main中开头添加下面内容在写C++程序时如果不能自动提示，需要在.vscode目录下的c_cpp_properties.json文件中的name下一行添加下面代码编译快捷方式Ctrl+Shift+B，选择第二个的小齿轮，将以下代码替换掉原先内容，保
C++多线程几种方法 yy__xzz c++多线程
在Windows平台上，C++可以使用多种方法来实现多线程编程。以下是一些常见的方法：1.Win32API线程使用Win32API创建线程，这涉及到`CreateThread`函数。这种方法较为底层，提供了更多的控制，但也需要更多的代码和手动管理。#include //线程函数 DWORDWINAPIThreadFunction(LPVOIDlpParam){ //线程要执行的代码
C++/C木马病毒1.0 星星来啦 C++C++（看这个另一个要收费）c++c语言开发语言 windows 编辑器
今天我做了一个电脑木马病毒，运行结果废了五个电脑亲测！！头文件：#include#include#include#include#include#include#define_CRT_SECURE_NO_WARNINGS1#pragmacomment(lib,"winmm.lib")#include#include"fstream"#includeusingnamespacestd;#includ
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
WGAN - 瓦萨斯坦生成对抗网络池央生成对抗网络人工智能神经网络
1.背景与问题生成对抗网络（GenerativeAdversarialNetworks,GANs）是由IanGoodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分：生成器（Generator）和判别器（Discriminator），两者通过对抗训练的方式，彼此不断改进，生成器的目标是生成尽可能“真实”的数据，而判别器的目标是区分生成的数据和真实数据。虽然传统GAN在多个领域
【C++基础】std::vector详解 kucupung C++c++开发语言数据结构排序算法
std::vector是C++标准库中的一个容器，提供了动态数组的功能。它的底层实现通常是使用连续的内存块来存储元素，因此可以通过指针算术来访问元素，并且支持常数时间的随机访问，并支持在容器末尾高效地添加和删除元素。一、底层实现std::vector的底层通常由一个连续的内存块（数组）来存储其元素，内部的元素在内存中是依次排列的，可以通过指针算术或迭代器进行快速的随机访问。当std::vector
【C++基础】std::string详解 kucupung C++c++数据结构开发语言算法
std::string是C++标准库提供的用于处理字符串的类。它在头文件中定义。std::string提供了一种灵活、高效的字符串表示方式，相比于C语言中的字符串表示（使用字符数组或指针），std::string更易于使用，更安全，并且提供了许多便捷的操作。一、底层实现std::string类的底层实现通常是一个动态分配的字符数组（即堆上的内存），并且该数组的长度可以动态地增长和收缩以适应字符串的
华为OD机试E卷 --分苹果 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述A、B两个人把苹果分为两堆，A希望按照他的计算规则等分苹果，他的计算规则是按照二进制加法计算，并且不计算进位12+5=9(1100+0101=9)，B的计算规则是十进制加法，包括正常进位，B希望在满足A的情况下获取苹果重量最多。输入苹果的数量和每个苹果重量，输出满足A的情况下
C++小病毒-1.0勒索小唐C++ c++话题存储 c++开发语言 c#算法 python vscode 编辑器
内容供学习使用,不得转卖,代码复制后请1小时内删除,此代码会危害计算机安全,谨慎操作在C++20环境下,并在虚拟机里运行此代码!#include#include#include#include#include#include#include#include#include#include#include#include#include#pragmacomment(lib,"shlwapi.lib"
【C++基础】多线程并发场景下的同步方法 kucupung C++c++开发语言
如果在多线程程序中对全局变量的访问没有进行适当的同步控制（例如使用互斥锁、原子变量等），会导致多个线程同时访问和修改全局变量时发生竞态条件（racecondition）。这种竞态条件可能会导致一系列不确定和严重的后果。在C++中，可以通过使用互斥锁（mutex）、原子操作、读写锁来实现对全局变量的互斥访问。一、缺乏同步控制造成的后果1.数据竞争（DataRace）数据竞争发生在多个线程同时访问同一
InternLM: LMDeploy 量化部署进阶实践 dilvx 机器学习
LMDeploy部署模型模型部署是将训练好的深度学习模型在特定环境中运行。欢迎使用LMDeploy，支持市面上主流的格式和算法。大模型缓存推理本章的前半部分主要讲量化，包括KV-Cache量化、权重量化、激活值量化。量化主要是为了节省存储空间，用int4,int8来重新表示fp16，将模型的显存占用控制在200G可接受的范围下。值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
NCNN推理呆呆珝推理框架 c++人工智能
1.前言ncnn是一个高性能的神经网络前向计算框架，专门针对移动设备和嵌入式设备设计。它由腾讯优图实验室开发，旨在提供高效的神经网络推理能力，特别是在资源受限的环境中，如智能手机和嵌入式系统。ncnn被广泛应用于移动端和嵌入式设备上的各种深度学习应用，包括但不限于：图像分类/目标检测/语义分割/人脸识别/图像生成与处理2.NCNN的CMakeLists.txt编写ncnn的头文件，链接文件，静态链
用Python写一个UI界面南风寺山 python 开发语言
要用Python写一个UI界面，你可以使用一些图形用户界面(GUI)工具包，如：Tkinter，wxPython，PyQt等。Tkinter是Python内置的GUI库，是一个轻量级的工具包，适合于简单的图形界面。wxPython是一个功能强大的GUI工具包，支持跨平台，并且可以与C++代码集成。PyQt是一个商业许可的GUI工具包，也是一个功能强大且高效的选项。如果你是初学者，可以先尝试使用Tk
基于深度学习的鸟类识别系统详解（UI界面 + YOLOv10 + 数据集） 2025年数学建模美赛深度学习 ui YOLO 人工智能 python 计算机视觉
引言鸟类识别是计算机视觉领域中一个独具挑战性的任务，尤其是在复杂的自然环境中，识别不同种类的鸟类需要非常强大的模型和丰富的数据集。随着深度学习技术的发展，基于YOLO（YouOnlyLookOnce）系列模型的目标检测系统展现了卓越的性能，特别是在速度和精度上的平衡方面。本博客将详细讲解如何利用YOLOv10模型来构建一个基于深度学习的鸟类识别系统。该系统会结合自定义鸟类数据集，设计一个简洁直观的
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>