shchojj

NVIDIA TensorRT----Quick Start Guide | NVIDIA Docs

一、引言

tensorRT是一个高性能深度学习推理库。tensorrt包含推理优化器和运行时。TensorRT能够以更高的吞吐量和更低的延迟运行。

本指南包含tensorrt基本的安装、转换、运行时选择以及最佳运用。

二、安装tensorrt

包含：容器、Debian、pip安装方式。

2.1、容器中安装

公有云上部署参照：NGC Certified Public Clouds Documentation

2.2、Debian安装

1、下载tensorRT

2、安装

os="ubuntuxx04"
tag="cudax.x-trt8.x.x.x-yyyymmdd"
sudo dpkg -i nv-tensorrt-repo-${os}-${tag}_1-1_amd64.deb
sudo apt-key add /var/nv-tensorrt-repo-${os}-${tag}/7fa2af80.pub
sudo apt-get update
sudo apt-get install tensorrt

python3-libnvinfer安装

python3 -m pip install numpy
sudo apt-get install python3-libnvinfer-dev

TensorFlow中使用tesnorrt，graphsurgeon-tf也会被一起安装

python3 -m pip install protobuf
sudo apt-get install uff-converter-tf

某些例子和python中需要ONNX graphsurgeon

python3 -m pip install numpy onnx
sudo apt-get install onnx-graphsurgeon

3、验证安装

dpkg -l | grep TensorRT

2.3. pip安装

虽然pip方式安装没啥问题，但实际上还是需要依赖很多其他的项

仅支持python3.6到python3.9，以及CUDA11.x。Linux和X86_64 CPU。CentOS 7和Ubuntu 18.04以上。

开始之前

升级一下pip和setuptools

python3 -m pip install --upgrade setuptools pip

安装nvidia-pyindex。

python3 -m pip install nvidia-pyindex

如果使用requirements.txt可以在里面添加命以安装nvidia-pyindex。

--extra-index-url https://pypi.ngc.nvidia.com

步骤

1、安装tensorrt

python3 -m pip install --upgrade nvidia-tensorrt

安装的时候CUDA和CUDNN也会下载下来，因为tensorrt需要这些。

如果出现了一些错误信息，要么是nvidia-pyindex没有安装好，要么就是python版本不对。

2、验证安装是否成功

导入tensorrt包

确认安装的tensorRT版本是否正确。

创建一个builder对象

python3
>>> import tensorrt
>>> print(tensorrt.__version__)
>>> assert tensorrt.Builder(tensorrt.Logger())

驱动安装有问题

三、tensorRT的生态圈

tensorrt会将模型部署成一个engine。

3.1 最基本的tensorrt工作流

3.2、转换和部署选项

3.2.1 转换

转换一个tensorrt能够使用的模型主要有三个选择：

使用TF-TRT
使用.onnx文件。
使用c++和python手动构建一个TensorRT API能够使用的网络。

TF-TRT可以转换TensorFlow模型的同时也提供了一个高级runtime API，但是个别特定的算子是不支持的。

ONNX是最常见的选择，它与框架无关，可以支持TensorFlow、pytorch等。ONNX中所有的算子都必须是tensorrt支持的，那些不支持的算子需要自己手动添加。ONNX转换只会生成单一的tensorrt 引擎，比TF-TRT开销要小一些。

某些情况下，比如为了提升性能或者自定义的要求，会通过TensorRT network defintion API手动构建一个TensorRT engines。实际上的手动构建过程也是一一对应的使用TensorRT算子去构建网络，并且载入训练好的模型参数。

3.2.2 部署

有三种部署的方式：

在tensorFlow中直接部署
使用独立的tensorrt runtime API部署
使用NVIDIA Triton Inference Server部署

我们需要根据部署的方式选择对应的模型转换方式。

使用TF-TRT一般都是部署在TensorFlow中的，TF-TRT转换的结果是一个Tensorflow图，只不过其中的操作是TensorRT算子。也就是说TF-TRT模型可以在python中和使用其他TensorFlow模型一样使用。

TensorRT runtime API开销最小，控制最细微，但是如果有一些需要自定义的算子，需要编写成插件形式。一般都是其他AI框架导出到ONNX的。

NVIDIA Triton Inference Server是一个开源的推理服务软件，可以支持部署任意框架的模型（TensorFlow、tensorrt、pytorch、ONNX runtime），可以直接部署在本地或者其他云服务平台。可以并发执行多个推理，自带负载均衡。假如这是一个云服务，例如http形式的NVIDIA Triton Inference Server是你很好的选择。

3.3 选择一个正确的工作流

选择转换和部署模型的两个重要因素：

选择的深度学习框架
部署TensorRT的目的

四、部署ONNX的示例

4.1 导出模型

两个主要的方式

TF-TRT使用TensorFlow savedmodels
保存成ONNX

下载ONNX形式的ResNet-50模型，并解压

wget https://s3.amazonaws.com/download.onnx/models/opset_8/resnet50.tar.gz
tar xzf resnet50.tar.gz

4.2 选择batch size

小的batch size延时会比较小，大的batch size吞吐量比较大。batch size越大，处理时间越长，但是减少了每个样本的推理时间。

TensorRT可以动态的设置batchsize的大小，也可以设置一个固定的值。比如BATCH_SIZE=64

4.3 选择精度

推理的精度明显可以比训练的时候要小，精度越低，计算越快、显存消耗越低，并且不会损失太多重要的精度信息。TensorRT支持TF32、FP32、FP16和INT8。

FP32是大多数框架在训练的时候默认的训练精度

import numpy as np
PRECISION = np.float32

4.4 转换模型

trtexec --onnx=resnet50/model.onnx --saveEngine=resnet_engine.trt

resnet_engine.trt就是TensorRT engine

4.5 部署模型
独立部署在python、C++中

部署在TensorFlow中。

1、创建ONNXClassifierWrapper

from onnx_helper import ONNXClassifierWrapper
N_CLASSES = 1000 # Our ResNet-50 is trained on a 1000 class ImageNet task
trt_model = ONNXClassifierWrapper("resnet_engine.trt", [BATCH_SIZE, N_CLASSES],
target_dtype = PRECISION)

2、生成模拟批量

BATCH_SIZE=32
dummy_input_batch = np.zeros((BATCH_SIZE, 224, 224, 3))

3、将batch数据喂入engine，得到预期的预测

predictions = trt_model.predict(dummy_input_batch)

直到运行的时候才开始导入和初始化engine，因此需要一些时间。

五、TF-TRT集成

TF-TRT是一个python接口，可以直接TensorFlow中使用，可以使用TensorFlow SavedModels直接保存

六、ONNX转换和部署

6.1导出ONNX

TensorFlow可以使用keras2onnx和tf2onnx。

也可以使用trtexec

6.1.1 从TensorFlow中到处ONNX

步骤

1、从keras.applications导入ResNet-50模型，这里面也包含了预训练的权重

from tensorflow.keras.applications import ResNet50
model = ResNet50(weights='imagenet')

2、转换ResNet-50模型到ONNX形式

import tf2onnx
model.save('my_model')
!python -m tf2onnx.convert --saved-model my_model --output temp.onnx
onnx_model = onnx.load_model('temp.onnx')

3、设置batch size

import onnx
BATCH_SIZE = 64
inputs = onnx_model.graph.input
for input in inputs:
dim1 = input.type.tensor_type.shape.dim[0]
dim1.dim_value = BATCH_SIZE

4、保存ONNX文件

model_name = "resnet50_onnx_model.onnx"
onnx.save_model(onnx_model, model_name)

6.1.2 从pytorch中导出ONNX

步骤

1、从torchvision中导出ResNet-50模型，并且包含预训练权重

import torchvision.models as models
resnext50_32x4d = models.resnext50_32x4d(pretrained=True)

2、保存ONNX

import torch
BATCH_SIZE = 64
dummy_input=torch.randn(BATCH_SIZE, 3, 224, 224)

这里会创建一个假的batch。

3、保存ONNX文件

import torch.onnx
torch.onnx.export(resnext50_32x4d, dummy_input, "resnet50_onnx_model.onnx",
verbose=False)

6.2 将ONNX转换成TensorRT Engine

使用trtexect
使用TensorRT API

trtexec --onnx=resnet50_onnx_model.onnx --saveEngine=resnet_engine.trt

6.3 部署TensorRT Engine到python runtime API中

七、使用TensorRT Runtime API

TensorRT直接运行比TensorFlow的TF-TRT的性能要好很多。C++ API的开销是最低的，但是python的API很多，比如Numpy、Scipy，比较容易做一些原型设计、debugging和测试。

7.1 创建测试容器并构建tensorrt engine

步骤

1、下载源码

$ git clone https://github.com/NVIDIA/TensorRT.git
$ cd TensorRT/quickstart

2、将模型转换成ONNX

运行一个NVIDIA PyTorch容器

$ docker run --rm -it --gpus all -p 8888:8888 -v `pwd`:/workspace -w /workspace/
SemanticSegmentation nvcr.io/nvidia/pytorch:20.12-py3 bash

导出模型到ONNX

$ python export.py

3、使用trtexec将ONNX构建成一个tensorRT engine

trtexec利用tensorrt onnx解析器载入onnx模型到TensorRT网络图中，然后TensorRT Builder API生成一个被优化的engine。这个构建过程比较耗时，但是可以离线操作。

trtexec --onnx=fcn-resnet101.onnx --fp16 --workspace=64 --minShapes=input:1x3x256x256
--optShapes=input:1x3x1026x1282 --maxShapes=input:1x3x1440x2560 --buildOnly --
saveEngine=fcn-resnet101.engine

--fp16 使用FP16精度，还有一个选项是FP32

--int8 使用INT8精度，还有一个选项是FP32

--best 为每一层使用所有支持的精度，以达到最佳性能

--workspace为算法设置持久显存的大小MB。基于特定平台，这个值应该尽可能的高，TensorRT会分配所需要的量，但是不会超过最大值。

--minShapes 和 --maxShapes指定网络输入的每个维度上的范围。--optShape指定auto-tuner应该处理的尺寸。
--buildOnly 不需要度量推理性能

--saveEngine 保存的序列化引擎的路径

--safe 就是tensorRT安全模式下运行。

--minTiming 和 --avgTiming在tactic selection时的最小和平均迭代次数。

--noBuilderCache 在tensorRT中禁用层定时缓存，通过缓存层概要信息，计时缓存有助于减少构建阶段花费的时间，并且对大多数模型都适用。在遇到问题的时候才打开这个开关。

--timingCacheFile可以保存和载入全局的timing cache。

4、可选项目。使用trtexect验证随机生成的伪数据输入情况。

trtexec --shapes=input:1x3x1026x1282 --loadEngine=fcn-resnet101.engine

--shapes就是输入的形状，假设成功了。

7.2 c++中调用Engine

1、构建并运行c++分割教程。

$ make
$ ./bin/segmentation_tutorial

步骤

1、从文件中反序列化TensorRT engine。该文件内容将被读取到缓冲并反序列化到内存。

td::vector engineData(fsize);
engineFile.read(engineData.data(), fsize);
util::UniquePtr
runtime{nvinfer1::createInferRuntime(sample::gLogger.getTRTLogger())};
util::UniquePtr mEngine(runtime-
>deserializeCudaEngine(engineData.data(), fsize, nullptr));

TensorRT对象通过destory()方法销毁，本示例中使用自定义删除方法的智能指针来管理生存周期。

struct InferDeleter
{
template 
void operator()(T* obj) const
{
if (obj) obj->destroy();
}
};
template 
using UniquePtr = std::unique_ptr

2、TensorRT执行上下文封装了执行状态，比如推理过程中产生的临时变量保存在持久化显存中。

因为分割模型的输入是动态变化的，但是推理的时候必须设置固定的形状。输出的形状可以查询网络输出形状。

auto input_idx = mEngine->getBindingIndex("input");
assert(mEngine->getBindingDataType(input_idx) == nvinfer1::DataType::kFLOAT);
auto input_dims = nvinfer1::Dims4{1, 3 /* channels */, height, width};
context->setBindingDimensions(input_idx, input_dims);
auto input_size = util::getMemorySize(input_dims, sizeof(float));
auto output_idx = mEngine->getBindingIndex("output");
assert(mEngine->getBindingDataType(output_idx) == nvinfer1::DataType::kINT32);
auto output_dims = context->getBindingDimensions(output_idx);
auto output_size = util::getMemorySize(output_dims, sizeof(int32_t));

网络输入输出索引可以通过名称查询

3、在准备推理的时，为输入输出分配CUDA显存，处理完数据后，就将数据复制到分配的显存当中，并生成引擎绑定列表。

语义分割中，输入数据会被归一化到[0,1]，RGB归一化使用的均值是[0.485, 0.456, 0.406]，标准差[0.229, 0.224,0.225]。此处操作有utility 类 RGBImageReader抽象。

void* input_mem{nullptr};
cudaMalloc(&input_mem, input_size);
void* output_mem{nullptr};
cudaMalloc(&output_mem, output_size);
const std::vector mean{0.485f, 0.456f, 0.406f};
const std::vector stddev{0.229f, 0.224f, 0.225f};
auto input_image{util::RGBImageReader(input_filename, input_dims, mean, stddev)};
input_image.read();
auto input_buffer = input_image.process();
cudaMemcpyAsync(input_mem, input_buffer.get(), input_size, cudaMemcpyHostToDevice, stream);

4、推理执行使用上下文executionV2或enqueueV2。在执行完成后，将预测结果复制到主机内存，并释放所有显存。

void* bindings[] = {input_mem, output_mem};
bool status = context->enqueueV2(bindings, stream, nullptr);
auto output_buffer = std::unique_ptr{new int[output_size]};
cudaMemcpyAsync(output_buffer.get(), output_mem, output_size, cudaMemcpyDeviceToHost, stream);
cudaStreamSynchronize(stream);
cudaFree(input_mem);
cudaFree(output_mem);

5、为了可视化结果，将预测结果用伪彩色显示，输出到output.ppm。有utility类ArgmaxImageWriter抽象。

const int num_classes{21};
const std::vector palette{ (0x1 << 25) - 1, (0x1 << 15) - 1, (0x1 << 21) - 1};
auto output_image{util::ArgmaxImageWriter(output_filename, output_dims, palette, num_classes)};
output_image.process(output_buffer.get());
output_image.write();

7.3 在python中运行engine

1、安装pycuda

$ pip install pycuda

2、运行jupyter，并且复制对应token到浏览器中http://:8888

$ jupyter notebook --port=8888 --no-browser --ip=0.0.0.0 --allow-root

3、打来tutorial-runtime.ipynb作参考

八、其他资源

表1.

资源	描述
layer构建的API文档	layer层手动构建是很有必要的，这样我们可以自定义的构建网络模型。
ONNX解析插件示例文档	如果模型中有TensorRT不支持的层，我们就可以自己写一个解析ONNX的插件。
ONNX-TensorRT 的GitHub	在python中使用ONNX-TensorRT做早期的原型设计非常有效。
TF-TRT产品文档	TF-TRT产品文档
分析工具	分析工具
TensorRT的产品文档	TensorRT的产品文档
TensorRT OSS的GitHub	有OSS TensorRT的组件、运用、插件示例等
TensorRT开发者页	包含下载、博客、代码示例

8.1 术语

Batch

batch是统一处理的输入集合，batch中每个实例具有相同的形状，并且经过网络的处理流程也是一样的，在推理过程中是并行处理的。

Builder

TensorRT的模型优化器，Builder接受一个网络的定义作为输入、执行一个与设备无关和指定设备的优化，并创建一个engine。

Dynamic batch

一种推理部署模式，batch size只有在运行的时候才知道。batch是推理时唯一可以配置的维度。

Engine

由TensorRT Builder优化的网络模型表达。

Explicit batch

指定Batch大小，ONNX解析中不支持。

Framework integration

一些如TensorFlow框架中集成了tensorRT.

Network definition

网络模型在TensorRT中的表示，包含tensor和operators的graph

ONNX

Open Neural Network eXchange，用于表示机器学习模型的独立框架标准。

ONNX parser

从ONNX模型中解析并创建一个tensorRT的网络定义。

Plan

序列化形式的优化后的推理引擎，为了初始化推理引擎，应用程序首先会从一个plan文件中反序列化出一个模型。典型的应用程序之构建一次引擎，并将其序列化为plan文件以供后续使用。

Precision

表示数值的精度，这个是在构建tensorRT的时候就会被指定，tensorRT支持FP32、FP16、INT8。之前大多数设备默认是FP32，现在默认为TF32，这是一种使用FP32存储用于低精度快速计算的形式。

Runtime

在engine推理时执行TensorRT的组件。runtime API支持引擎输入输出的同步异步执行、分析、枚举和查询。

TF-TRT

TensorFlow中集成的TensorRT,优化并执行兼容的子图，并允许tensorFlow执行剩余的子图。

你可能感兴趣的:(pytorch,深度学习)

LeetCode98-验证二叉搜索树学习的学习者 LeetCode Python 二叉搜索树
上个星期和导师去了华农一趟名义上是和导师去参加一个国家级的项目其实没我啥事都是我导师在那口若悬河当时和那边的本科生去了另一间会议室交流了关于GAN的知识偶然听说大家都在用pytorch好像最新版的也挺好用的反正就是学术界目前主要用这个框架工业界主要用Tensorflow(没办法，Google出品)这两天也拿来瞧了瞧好像也确实可以的！！！98-验证二叉搜索树给定一个二叉树，判断其是否是一个有效的二叉
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
pytorch小记（十二）：pytorch中 masked_fill_() vs. masked_fill() 详解墨绿色的摆渡人 python pytorch小记 pytorch 人工智能 python
pytorch小记（十二）：pytorch中masked_fill_（）vs.masked_fill（）详解PyTorch`masked_fill_()`vs.`masked_fill()`详解1️⃣`masked_fill()`和`masked_fill_()`的作用2️⃣`masked_fill()`vs.`masked_fill_()`示例3️⃣输出结果4️⃣`masked_fill()`v
pytorch小记（十）：pytorch中torch.tril 和 torch.triu 详解墨绿色的摆渡人 python pytorch小记 pytorch 人工智能 python
pytorch小记（十）：pytorch中torch.tril和torch.triu详解PyTorch`torch.tril`和`torch.triu`详解1.`torch.tril`（计算下三角矩阵）作用语法参数示例`diagonal`参数`torch.tril`的应用2.`torch.triu`（计算上三角矩阵）作用语法参数示例`diagonal`参数3.`torch.tril`vs`torc
Pytorch torch.prod函数介绍 qq_27390023 pytorch 人工智能 python
torch.prod是PyTorch库中的一个函数，用于计算输入张量中所有元素或者指定维度上元素的乘积。下面将从函数的基本语法、参数、返回值、使用示例几个方面进行详细介绍。基本语法torch.prod(input,dim=None,keepdim=False,dtype=None)参数input：必需参数，是一个输入的PyTorch张量，函数将对这个张量的元素进行乘积计算。dim：可选参数，指定要
深度学习框架PyTorch——从入门到精通（5）自动微分 Fansv587 深度学习 pytorch 人工智能
使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数的梯度相对于给定参数进行调整。为了计算这些梯度，PyTorch有一个内置的微分引擎，名为torch.autograd。它支持为任何计算图自动计算梯度。考虑最简单的一层神经网络，具有输入x、参数w和b以
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，