模型部署（tensorRT) 第2页

清华和哈工大把大模型量化做到了1比特，把世界顶尖多模态大模型开源大模型量化个人电脑运行！机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能，视 Mamba速度提升2.8倍，内存能省87%

在追求更高效的机器学习模型部署时，模型量化技术应运而生，它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需求。我们一般的双精度浮点型double是64位

代码讲故事·2025-01-22 05:45

模型部署工具01：Docker || 用Docker打包模型 Build Once Run Anywhere

Docker是一个开源的容器化平台，可以让开发者和运维人员轻松构建、发布和运行应用程序。Docker的核心概念是通过容器技术隔离应用及其依赖项，使得软件在不同的环境中运行时具有一致性。无论是开发环境、测试环境，还是生产环境，Docker都能够提供高效、可靠的解决方案。在本教程中，我们将详细介绍Docker的核心概念、安装方法，以及如何使用Docker进行容器化操作。Docker是什么？为什么值得学

Tiandaren·2025-01-22 03:05

基于 Python 的机器学习模型部署到 Flask Web 应用：从训练到部署的完整指南

目录引言技术栈步骤一：数据预处理步骤二：训练机器学习模型步骤三：创建FlaskWeb应用步骤四：测试Web应用步骤五：模型的保存与加载保存模型加载模型并在Flask中使用步骤六：Web应用的安全性考量示例：简单的输入验证示例：自定义错误处理示例：使用Flask-JWT-Extended进行认证结论参考资料引言在当今数据驱动的时代，机器学习模型已经广泛应用于各行各业，从金融、医疗到教育等领域。然而，

m0_74825223·2025-01-21 15:53

大模型推理：vllm多机多卡分布式本地部署

文章目录1、vLLM分布式部署docker镜像构建通信环境配置2、其他大模型部署工具3、问题记录参考文献单台机器GPU资源不足以执行推理任务时，一个方法是模型蒸馏量化，结果就是会牺牲些效果。

m0_74824755·2025-01-21 08:20

深度学习笔记——模型部署

本文简要概括模型部署的知识点，包括步骤和部署方式。

好评笔记·2025-01-21 04:11

./yolov8_det: error while loading shared libraries: libnvinfer.so.8: cannot open shared object file:

tensorrt编译的时候报错动态链接库有问题，直接吧把libnvinfer.so.8所在文件夹下的所有文件全部复制到根目录下：/usr/lib/sudocp-rf/home/lzw/TensorRT-

小鲁嵌入式开发之路·2025-01-19 14:38

ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory

安装完TensorRT后，导入报错ImportError:libcudnn.so.8:cannotopensharedobjectfile:Nosuchfileordirectory上面报错信息的意思主要是

kyle-fang·2025-01-19 14:37

【已解决】ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory

问题描述：按照tensorrt官方安装文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar

小小小小祥·2025-01-19 14:30

加速AI模型部署：深入探索Banana的无服务架构

加速AI模型部署：深入探索Banana的无服务架构引言在AI模型的构建与部署中，无服务架构（ServerlessArchitecture）正逐渐成为开发者的首选方案。

afTFODguAKBF·2025-01-19 13:30

Jetson Nano部署TensorRT加速的YOLO V8

JetsonNano部署YOLOV8刷JetPack镜像Step1：格式化SD卡Step2：下载镜像文件Step3：烧录镜像文件Python环境配置Solution1：更改默认的Python环境Solution2：使用conda管理Python环境YOLOV8部署Step1：源码下载Step2：trtexec环境变量设置Step3：pt权重文件导出为ONNX格式Step4：ONNX文件生成engi

Hylan_J·2025-01-18 04:43

Python小项目：利用U-net完成细胞图像分割

本文将详细介绍如何利用U-Net完成细胞图像分割项目，涵盖从数据准备到模型部署的各个步骤。

·2025-01-16 17:22

【大模型】triton inference server

前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。

idiotyi·2024-09-15 05:47

【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程

【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime

牙牙要健康·2024-09-14 14:34

Ollama全面指南：安装、使用与高级定制

详细讲解了如何在不同操作系统上安装Ollama，如何运行和自定义大型语言模型，以及如何通过Ollama进行模型部署和交互。此外，还提供了丰富的故障排除和FAQ，帮助用户解决使用过程中的常见问题。

我就是全世界·2024-09-12 18:51

本地部署大语言模型详细讲解

前言：本地部署大语言模型（LLM，LargeLanguageModel）需要相应的硬件资源和技术栈支持，如GPU计算能力、大量内存、存储空间，以及模型部署框架。

程序员小羊！·2024-09-12 04:25

TensorRT模型量化实践

文章目录量化基本概念量化的方法方式1：trtexec（PTQ的一种）方式2：PTQ2.1pythononnx转trt2.2polygraphy工具:应该是对2.1量化过程的封装方式3：QAT(追求精度时推荐)使用TensorRT

痛&快乐着·2024-09-12 01:00

【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1)

cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu

2401_83703835·2024-09-11 13:36

使用TensorRT对YOLOv8模型进行加速推理

这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT

fengbingchun·2024-09-11 04:30

ONNX Runtime、CUDA、cuDNN、TensorRT版本对应

文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime

可keke·2024-09-10 22:45

python 安装 win32com

郎君啊·2024-09-10 08:40

深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】

triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小

u013250861·2024-09-10 03:09

机器学习框架巅峰对决：TensorFlow vs. PyTorch vs. Scikit-Learn实战分析

合适的框架可以极大地提高开发效率，简化模型的构建和训练过程，并支持大规模的模型部署。因此，了解和选择最合适的机器学习框架对于研究人员和工程师来说是一个关键的步骤。

@sinner·2024-09-08 18:42

python opencv cuda tensorrt pytorch之间的版本对应

python3.7opencv4.4cuda10.2tensorrt7xpytorch1.5DeepStream5.xOpenCV2.x：支持Python2.xOpenCV3.x：支持Python2.7

YIACA·2024-09-06 16:33

自动驾驶之心规划控制理论&实战课程

)多传感器融合跟踪全栈教程(视频答疑)多模态融合3D目标检测教程(视频答疑)规划控制理论&实战课程国内首个BEV感知全栈系列学习教程首个基于Transformer的分割检测视觉大模型视频课程CUDA与TensorRT

vsdvsvfhf·2024-09-04 10:05

并行处理的艺术：深入探索PyTorch中的torch.nn.parallel模块

PyTorch，作为当前流行的深度学习框架之一，提供了torch.nn.parallel模块，允许我们轻松地将模型部署到多个GPU上。

杨哥带你写代码·2024-09-04 06:10

LLM大模型落地-从理论到实践

Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异，能快速掌握业界进展，有对话系统相关研发经验掌握TensorRT-LLM

hhaiming_·2024-09-04 01:12

算法学习-2024.8.16

一、Tensorrt学习补充TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用32位或16位数据。TensorRT则在网络的推理时选用不这么高的精度，达到加速推断的目的。

蓝纹绿茶·2024-09-04 01:42

onnx转tensorRT模型出现错误 This version of TensorRT only supports input K as an initializer

问题onnx模型转tensorRT模型时，出现错误。

lainegates·2024-08-31 04:49

[模型部署] ONNX模型转TRT模型部分要点

本篇讲“ONNX模型转TRT模型”部分要点。以下皆为TRT模型的支持情况。模型存为ONNX格式后，已经丢失了很多信息，与原python代码极难对应。因为在“ONNX转TRT”时，转换出错，更难映射回python代码。解决此类问题的关键为：转onnx时要打开verbose选项，输出每一行python的模型代码被转成了哪些ONNX算子。torch.onnx.export(model,(dummy_in

lainegates·2024-08-31 04:19

深度学习系列70：模型部署torchserve

1.流程说明ts文件夹下，从launcher.py进入，执行jar文件。入口为model_server.py的start()函数。内容包含：读取args，创建pid文件找到java，启动model-server.jar程序，同时读取log-config文件，TEMP文件夹地址，TS_CONFIG_FILE文件根据cpu核数、gpu个数，启动多进程。每个进程有一个socket_name和socket

IE06·2024-08-31 00:25

在STM32上实现嵌入式人工智能应用

本文将探讨如何在STM32平台上实现深度学习应用，特别是利用STM32Cube.AI工具链将训练好的神经网络模型部署到STM32设备上。

嵌入式详谈·2024-08-28 19:30

数据科学生命周期的7个步骤–在业务中应用AI

DataCollection）3.数据准备（DataPreparation）4.数据探索（ExploratoryDataAnalysis,EDA）5.模型构建（Modeling）6.模型评估（Evaluation）7.模型部署与维护

听忆.·2024-08-28 11:10

trt | torch2trt的使用方式

一、安装1.安装tensorrtpython接口下载trt包.tar.gzhttps://developer.nvidia.com/nvidia-tensorrt-5x-download解压tarxvfTensorRT

Mopes__·2024-08-28 10:31

用TensorRT-LLM跑通chatGLM3_6B模型

零、参考资料NVIDIA官网THUDM的GithubNVIDIA的Github一、构建TensorRT-LLM的docker镜像gitlfsinstallgitclonehttps://github.com

心瘾こころ·2024-08-27 11:33

Yolov8：模型部署到安卓端

1.项目准备1.1先安装JDK和Androidstudio（1）JDK下载：官网站：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html同意协议后，下载相应版本的JDK我这里没有下载JDK21版的，下载的是jdk1.8版本，参考文章：AndroidStudio开发环境快速搭建（超详细

爱编码的小陈·2024-08-25 17:04

Ubuntu20.04部署Ollama

在Ubuntu20.04上面安装完RTX4060的NvidiaCuda和TensorRT环境后，就开始跑些大模型看看。

stxinu·2024-08-24 05:22

【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战

目录一、引言二、Whisper模型原理2.1模型架构2.2语音处理2.3文本处理三、Whisper模型实战3.1环境安装3.2模型下载3.3模型推理3.4完整代码3.5模型部署四、总结一、引言上一篇对ChatTTS

LDG_AGI·2024-08-24 03:06

pyinstaller打包onnxruntime-gpu报错找不到CUDA的解决方案

问题说明：使用onnxruntime-gpu完成了深度学习模型部署，但在打包时发生了报错：找不到CUDA具体问题描述：RuntimeError:D:\a\_work\1\s\onnxruntime\python

布呐呐na·2024-08-22 15:56

StableDiffusion Automatic1111正式支持Tensorrt

今天在AI绘画的开源平台Automatic1111上发布了Tensorrt项目，项目地址是https://github.com/AUTOMATIC1111/stable-diffusion-webui-tensorrt

germandai·2024-03-08 10:33

PyTorch训练，TensorRT部署的简要步骤（采用ONNX中转的方式）

1.简述使用PyTorch执行训练，使用TensorRT进行部署有很多种方法，比较常用的是基于INetworkDefinition进行每一层的自定义，这样一来，会反向促使研究者能够对真个网络的细节有更深的理解

赛先生.AI·2024-03-08 07:30

ChatGPT引领的AI面试攻略系列：cuda和tensorRT

系列文章目录cuda和tensorRT（本文）AI全栈工程师文章目录系列文章目录一、前言二、面试题1.CUDA编程基础2.CUDA编程进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.

梦想的理由·2024-03-05 12:04

使用TensorRT在PyTorch项目中加速深度学习推理

在PyTorch项目中使用TensorRT进行深度学习推理通常涉及以下步骤：模型训练：首先，在PyTorch中训练你的深度学习模型。

从零开始学习人工智能·2024-03-02 05:48

[C++]使用C++部署yolov9的tensorrt模型进行目标检测

部署YOLOv9的TensorRT模型进行目标检测是一个涉及多个步骤的过程，主要包括准备环境、模型转换、编写代码和模型推理。首先，确保你的开发环境已安装了NVIDIA的TensorRT。

FL1623863129·2024-02-26 22:35

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

吃果冻不吐果冻皮·2024-02-20 21:39

我把ChatGPT部署到我的手机上

正常的大模型部署都是在服务器上的但是最近我看到一个手机上可以运行的大模型分享给大家MiniCPMMiniCPM是基于MLC-LLM开发，将MiniCPM和MiniCPM-V在Android手机端上运行。

·2024-02-20 17:55

[技术杂谈]Chat With RTX 介绍

据了解，这是一款适用于Windows平台的聊天机器人，由TensorRT-LLM提供支持，完全在本地运行。

FL1623863129·2024-02-20 13:46

WhisperFusion：具有超低延迟无缝对话功能的AI系统

LLM和Whisper都经过优化，可作为TensorRT引擎高效运行，从而最大限度地提高性能和实时处理能力。WhiperSpeech是通过torch.compile进行优化的。

语音之家·2024-02-20 11:39

心法利器[107] onnx和tensorRT的bert加速方案记录

心法利器本栏目主要和大家一起讨论近期自己学习的心得和体会，与大家一起成长。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。2023年新一版的文章合集已经发布，获取方式看这里：又添十万字-CS的陋室2023年文章合集来袭，更有历史文章合集，欢迎下载。往期回顾心法利器[102]|大模型落地应用架构的一种模式心法利器[103]|大模型badcase修复方案思考心法利器[104]|基础RAG-向量检索

机智的叉烧·2024-02-19 12:49

81TensorFlow 2 模型部署方法实践--TensorFlow Serving 部署模型

TensorFlowServing部署模型TensorFlowServing是一个针对机器学习模型的灵活、高性能的服务系统，专为生产环境而设计。本节实验将使用TensorFlowServing部署MobileNetV2模型，并通过两种方法访问TensorFlowServing服务进行图像识别。TensorFlowServing安装在这里我们通过Docker来安装TensorFlowServing，

Jachin111·2024-02-14 13:25

推荐频道

模型部署（tensorRT)