刷BOSS掉的小明

ubuntu18一文学会Pytorch端到端网络部署Tensorrt模型推理

由于博主最近实验需要将tensorrt部署到端到端的抓取网络当中，但之前没有使用过tensorrt，查阅了很多资料，踩了很多坑，最后才部署成功。于是想着记录一下，本篇内容主要以Unet和grcnn（antipodal robotic grasping）为例来讲解端到端pytorch模型转换为tensorrt。

文章索引

第一章：前期准备
- Step1：安装tensorRT8.5.2.2
- Step2：安装onnx-tensorrt工具包
第二章：Pytorch-Unet to TensorRT-Unet
- Step1：从github拉取代码
- Step2：训练网络
- Step3：将pt模型文件转换为onnx
- Step4：将onnx转换为trt模型
- Step5：编写推理代码
第三章：Pytorch-grcnn to Tensorrt-grcnn
- Step1：训练rgb输入pytorch网络
- Step2：将模型文件转换为onnx文件
- Step3：将onnx转换为.trt文件
- Step4：编写推理代码

第一章：前期准备

博主的软件环境：ubuntu18+cuda11.3+cudnn8.6.0+python3.8+torch1.12.0+tensorrt8.5.2.2，GPU为RTX3070。由于cuda+cudnn安装网络上有很多教程，这里就不再赘述。

Step1：安装tensorRT8.5.2.2

可以通过官网下载。

因为去nvidia官网还需要登录，为了方便这里提供百度云网盘下载：提取码ltjy。
解压文件：

tar -xzvf TensorRT-8.5.2.2.Linux.x86_64-gnu.cuda-11.8.cudnn8.6.tar.gz

添加环境变量：

export PATH="$PATH:*****/TensorRT-8.5.2.2/bin"#自己下载的TensorRT/bin所在地址
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:*******/TensorRT/lib"#自己下载的TensorRT/lib所在地址

创建并且激活虚拟环境：

conda create -n pt12 python=3.8
conda activate pt12

安装wheel文件：

cd TensorRT-8.5.2.2/python
pip install tensorrt-8.5.2.2-cp38-none-linux_x86_64.whl

Step2：安装onnx-tensorrt工具包

由onnx文件转到trt文件有很多种方法，如果不需要使用INT8进行量化推理，推荐使用该工具包来进行转换。

git clone https://github.com/onnx/onnx-tensorrt.git
cd onnx-tensorrt
git checkout 8.0-GA
git submodule update --init
mkdir build && cd build
cmake .. -DTENSORRT_ROOT=/******/TensorRT-8.5.2.2 #刚才装的位置

与该博客类似，报错1：cmake版本太低
解决：升级cmake版本

pip install cmake --upgrade
或去cmake官网下载

报错2：Could NOT find Protobuf（missing：Protobuf_LIBRARIESProtobuf_INCLUDE_DIR）
解决：安装libprotobuf-dev protobuf-compiler

sudo apt-get install libprotobuf-dev protobuf-compiler
proto --version

开始编译

make -j8

报错：/usr/include/NvInferRuntimeCommon.h:56:10:fatal error:cuda_runtime_api.h:没有那个文件或目录
解决：配置cuda相关环境变量

sudo gedit ~/.bashrc
export PATH=/usr/local/cuda-11.3/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH
export CPATH=/usr/local/cuda-11.3/targets/x86_64-linux/include:$CPATH
export LD_LIBARARY_PATH=/usr/local/cuda-11.3/targets/x86_64-linux/lib:$LD_LIBARARY_PATH
source ~/.basrc

开始安装：

sudo make install

运行测试：

onnx2trt -V

查看版本号，至此所有前期准备完成。

第二章：Pytorch-Unet to TensorRT-Unet

要将pytorch模型转换为tensorrt的engine模型需要经过一下两个步骤。
1、将pt或者模型文件转换为onnx文件；
2、使用转换工具将onnx文件转换为trt文件。
Pytorch-Unet通过输入一张rgb图片通过网络得到其分割后的灰度图，其github项目地址在此，其相关讲解可以参考该博客。这里直接上干货。

Step1：从github拉取代码

git clone https://github.com/milesial/Pytorch-UNet.git
cd Pytorch-UNet
git checkout v1.0

下载数据集：
通过github中代码的项目readme文件，下载其数据集，将train_hq.zip里面的图片放入data/img里，将train_mask.zip里面的图片放入data/mask里。

Step2：训练网络

为方便后续部署，修改utils中的dataset.py中preprocess函数内容，将NewW，NewH修改为960，640。

直接运行train.py文件即可。

Step3：将pt模型文件转换为onnx

test.py：

这里的dummy_input改为我们修改的（1，3，640，960）初始化模型参数保证与train.py中一致。
train.py

Step4：将onnx转换为trt模型

onnx2trt unet_deconv.onnx -o unet_deconv.trt

报错1：onnx模型太复杂，无法转换。
解决：安装onnxsim工具

pip install onnx-simplifier
python -m onnxsim input_onnx_model output_onnx_model

报错2：不能打开目标文件libnvinfer.so.8

解决：链接动态库

sudo gedit  /etc/ld.so.conf
添加一行：
/home/lab/xcy/TensorRT-8.5.2.2/lib #自己TensorRT中lib所在路径
sudo ldconfig

报错3：找不到libnvinfer.so.8.4.3
解决：

sudo cp /home/lab/xcy/TensorRT-8.5.2.2/lib/libvinfer_build_resource.so.8.4.3 /usr/lib

Step5：编写推理代码

inference.py

import os
import sys
import time
# from PIL import Image
import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np
import cv2
# TensorRT logger singleton
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
 
def allocate_buffers(engine):
    inputs = []
    outputs = []
    bindings = []
    stream = cuda.Stream()
    class HostDeviceMem(object):
        def __init__(self, host_mem, device_mem):
            self.host = host_mem
            self.device = device_mem

        def __str__(self):
            return "Host:\n" + str(self.host) + "\nDevice:\n" + str(self.device)

        def __repr__(self):
            return self.__str__()

    for binding in engine:
        size = trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size
        dtype = trt.nptype(engine.get_binding_dtype(binding))
        # Allocate host and device buffers
        host_mem = cuda.pagelocked_empty(size, dtype)
        device_mem = cuda.mem_alloc(host_mem.nbytes)
        # Append the device buffer to device bindings.
        bindings.append(int(device_mem))
        # Append to the appropriate list.
        if engine.binding_is_input(binding):
            inputs.append(HostDeviceMem(host_mem, device_mem))
        else:
            outputs.append(HostDeviceMem(host_mem, device_mem))

    return inputs, outputs, bindings, stream

def load_engine(trt_path):
    # 反序列化引擎
    with open(trt_path, "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
        return runtime.deserialize_cuda_engine(f.read())


class TRTInference(object):
    """Manages TensorRT objects for model inference."""
 
    def __init__(self, trt_engine_path, onnx_model_path, trt_engine_datatype=trt.DataType.FLOAT, batch_size=1):
        """Initializes TensorRT objects needed for model inference.
        Args:
            trt_engine_path (str): path where TensorRT engine should be stored
            uff_model_path (str): path of .uff model
            trt_engine_datatype (trt.DataType):
                requested precision of TensorRT engine used for inference
            batch_size (int): batch size for which engine
                should be optimized for
        """
 
        # Initialize runtime needed for loading TensorRT engine from file
        # TRT engine placeholder
        self.trt_engine = None
 
        # Display requested engine settings to stdout
        print("TensorRT inference engine settings:")
        print("  * Inference precision - {}".format(trt_engine_datatype))
        print("  * Max batch size - {}\n".format(batch_size))
        # If we get here, the file with engine exists, so we can load it
        if not self.trt_engine:
            print("Loading cached TensorRT engine from {}".format(
                trt_engine_path))
            self.trt_engine = load_engine(
                trt_engine_path)
 
        # This allocates memory for network inputs/outputs on both CPU and GPU
        self.inputs, self.outputs, self.bindings, self.stream = allocate_buffers(self.trt_engine)
 
        # Execution context is needed for inference
        self.context = self.trt_engine.create_execution_context()
 
    def infer(self, full_img, output_shapes, new_width, new_height):
        """Infers model on given image.
        Args:
            image_path (str): image to run object detection model on
        """
        
        assert new_width > 0 and new_height > 0, "Scale is too small"
        # resize and transform to array
        scale_img = cv2.resize(full_img, (new_width, new_height))
        print("scale image shape:{}".format(scale_img.shape))
        # scale_img = np.array(scale_img)
        # HWC to CHW
        scale_img = scale_img.transpose((2, 0, 1))
        # 归一化
        if scale_img.max() > 1:
            scale_img = scale_img / 255
        # 扩增通道数
        # scale_img = np.expand_dims(scale_img, axis=0)
        # 将数据成块
        scale_img = np.array(scale_img, dtype=np.float32, order='C')
        # Copy it into appropriate place into memory
        # (self.inputs was returned earlier by allocate_buffers())
        np.copyto(self.inputs[0].host, scale_img.ravel())
        # Output shapes expected by the post-processor
        # output_shapes = [(1, 11616, 4), (11616, 21)]
        # When infering on single image, we measure inference
        # time to output it to the user
        inference_start_time = time.time()
 
        # Fetch output from the model
        trt_outputs = do_inference(
            self.context, bindings=self.bindings, inputs=self.inputs,
            outputs=self.outputs, stream=self.stream)
        print("network output shape:{}".format(trt_outputs[0].shape))
        # Output inference time
        print("TensorRT inference time: {} ms".format(
            int(round((time.time() - inference_start_time) * 1000))))
        # Before doing post-processing, we need to reshape the outputs as the common.do_inference will
        # give us flat arrays.
        outputs = [output.reshape(shape) for output, shape in zip(trt_outputs, output_shapes)]
        # And return results
        return outputs
 
 
# This function is generalized for multiple inputs/outputs.
# inputs and outputs are expected to be lists of HostDeviceMem objects.
def do_inference(context, bindings, inputs, outputs, stream, batch_size=1):
    # Transfer input data to the GPU.
    [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]
    # Run inference.
    context.execute_async(batch_size=batch_size, bindings=bindings, stream_handle=stream.handle)
    # Transfer predictions back from the GPU.
    [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]
    # Synchronize the stream
    stream.synchronize()
    # Return only the host outputs.
    return [out.host for out in outputs]

ps：这里是完整的推理代码，网上很多资料都不全，所以贴上去了。

predict.py
根据实际情况需要设置的参数：
engine_file_path：engine的文件路径
onnx_file_path：onnx文件路径
new_width, new_height: 输入的宽和高
trt_engine_datatype：engine的精度支持fp32和fp16
image_path：测试图片路径

import tensorrt as trt
import numpy as np
import cv2
import inference as inference_utils  # TRT/TF inference wrappers
 
if __name__ == "__main__":
    # 1. 网络构建
    # Precision command line argument -> TRT Engine datatype
    TRT_PRECISION_TO_DATATYPE = {
        16: trt.DataType.HALF,
        32: trt.DataType.FLOAT
    }
    # datatype: float 32
    trt_engine_datatype = TRT_PRECISION_TO_DATATYPE[16]
    # batch size = 1
    max_batch_size = 1
    engine_file_path = "unet_deconv_sim.trt"
    onnx_file_path = "unet_deconv_sim.onnx"
    new_width, new_height = 960, 640
    output_shapes = [(1, new_height, new_width)]
    trt_inference_wrapper = inference_utils.TRTInference(
        engine_file_path, onnx_file_path,
        trt_engine_datatype, max_batch_size,
    )
    
    # 2. 图像预处理
    image_path = "example.jpg"
    img = cv2.imread(image_path)
    # inference
    trt_outputs = trt_inference_wrapper.infer(img, output_shapes, new_width, new_height)[0]
    # 输出后处理
    out_threshold = 0.5
    print("the size of tensorrt output : {}".format(trt_outputs.shape))
    output = trt_outputs.transpose((1, 2, 0))
    # 0/1像素值
    output[output > out_threshold] = 255
    output[output <= out_threshold] = 0
    
    output = output.astype(np.uint8)
    result = cv2.resize(output, (img.shape[1], img.shape[0]))
    cv2.imwrite("best_output_deconv.jpg", result)

最后结果：

因为这个网络只是用来测试能否部署tensorrt。为了节省时间，训练模型只使用了一个epoch，故精度不高。

第三章：Pytorch-grcnn to Tensorrt-grcnn

antipodal robotic grasping网络输入一张224x224x(1,3,4)的图片，这张图片可以是rgbd类型，rgb类型和d类型，输出抓取pos，抓取sin，抓取cos和抓取夹爪开度。其github项目在此，这里讲解输入rgb图片网络转换的方法。

Step1：训练rgb输入pytorch网络

这个步骤就不讲解了，其github官网上readme有教程，去看一看。

Step2：将模型文件转换为onnx文件

其onnxtotrt.py代码内容如下：

由于输入图片为rgb是三个通道的，输入类型即为（3，224，224）于是需要修改dummy_input的内容，再初始化其模型参数（输入通道，通道个数）等等。这里需要注意的是由于其训练模型不是按.pt文件保存的，所以这里在加载权重时只需要调用torch.load即可。其余与第二章的转换一致。

Step3：将onnx转换为.trt文件

由于篇幅原因，这里直接贴上代码：

onnx2trt grcnn.onnx -o grcnn.trt

Step4：编写推理代码

得到trt文件后，开始写inference和predict代码。
inferencetest.py中的重点：

由于网络模型输出有4个，所以在do_inference得到output后，需要通过切片操作，分别取4个结果。
predict.py中的重点：

这里的输入图片预处理与原网络中run_offline.py输入图片一致，只是将深度设置成了false
run_offline.py

与pytorch不同的是，要部署tensorrt，需要将里面的predict函数换成tensorrt的推理函数，其余不变。对于其后处理函数也与原网络相同，只是需要将pytorch所支持的tensor变量操作改为numpy操作。

最后得出结果如下图

通过评估代码，将数据集中所有图像用于验证，得到原推理速度为33ms每一张图片：

经过tensorrt加速后的推理速度为：

可以看出还是有加速效果的（博主电脑拉）估计在台式机上会更好。此外，原网络占用显存会比经过tensorrt加速后网络占用显存大很多，博主忘了截图了就口头说明一下。其经过tensorrt开源代码在此。不要白嫖~点个star再克隆吧！

Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
Docker技术全景解析：从核心原理到实践应用 Liudef06小白 docker 容器运维
Docker技术全景解析：从核心原理到实践应用引言：容器化革命的引擎2013年诞生的Docker并非容器技术的发明者，却成功地将Linux容器（LXC）这一底层技术转化为开发者友好的标准化工具。它通过镜像封装、环境一致性和资源隔离三大创新，解决了“在我机器上能跑，线上为什么不行”这一行业顽疾。Docker的核心突破在于创建了跨环境的应用交付标准——开发者构建的Docker镜像可在开发笔记本、测试服
PHP 安装指南 wjs2024 开发语言
PHP安装指南引言PHP是一种广泛使用的开源服务器端脚本语言，常用于Web开发。正确安装PHP是开始构建动态网站或应用程序的第一步。本文将详细介绍如何在各种操作系统上安装PHP，并指导您完成必要的配置步骤。安装环境准备在安装PHP之前，请确保您的系统满足以下条件：操作系统：PHP可以在多种操作系统上运行，包括Windows、Linux和macOS。Web服务器：虽然PHP主要用作服务器端脚本语言，
VMware Fusion 虚拟机安装CentOS 7 Mac 2501_92680691 macos mac vmware 虚拟机 centos7
CentOS是CommunityEnterpriseOperatingSystem的缩写，也叫做社区企业操作系统。是企业Linux发行版领头羊RedHatEnterpriseLinux的再编译版本（是一个再发行版本），而且在RHEL的基础上修正了不少已知的Bug，相对于其他Linux发行版，其稳定性值得信赖,广泛用于服务器、云计算、虚拟化等领域。原文地址：VMwareFusion虚拟机安装Cent
高通 QRB5165 GPIO 子系统
深度掌握高通QRB5165平台的GPIO子系统：原理、配置、调试与实战案例目录深度掌握高通QRB5165平台的GPIO子系统：原理、配置、调试与实战案例1.引言：GPIO在嵌入式系统中的重要性2.QRB5165平台GPIO硬件结构概述3.LinuxGPIO子系统原理解析TLMM驱动的注册流程4.DeviceTree配置详解TLMM节点结构gpios属性解析中断配置5.用户态控制GPIO：Sysfs
1. Linux 基本命令 GotoLevel Linux编译基础 linux ffmpeg 运维
安装工具包:安装工具包:【1.brew;(MacOS)；2.apt;(Linux-乌班图);3.yum;(Linux-服务器端)】brewsearchffmpeg：在服务源上查找显示ffmepg的安装包;brewinstallffmpeg：安装服务器上的ffmepg包;brewremoveffmpeg:移除安装的ffmepg包；Linux基本命令:ctrl+l:清屏;ctrl+c:取消当前命令;s
【CMake】CMake简介及使用示例晴雨日记 CMake c++
CMake简介CMake是一个跨平台的开源构建系统生成器，用于管理软件构建过程。它不直接编译代码，而是根据CMakeLists.txt文件生成标准构建文件（如Makefile、VisualStudio项目等），再调用底层工具（如gcc、MSVC）编译。核心优势：跨平台：支持Windows、Linux、macOS可扩展：支持C/C++/CUDA/Fortran等多种语言模块化：提供find_pack
基于MQTT的温湿度采集服务 aiprtem 嵌入式Linux MQTT AM335x linux 物联网 c语言
基于MQTT的温湿度采集服务1.项目概述thdetect是一个基于RS485的温湿度采集服务程序，通过Modbus-RTU协议读取传感器数据，并将数据通过MQTT协议发布到消息代理服务器。该服务可以作为后台守护进程运行，为上层应用提供实时的温湿度数据。2.开发环境处理器：AM3354显示屏：支持触摸功能的LCD屏幕操作系统：Linux3.2LVGL版本：v8.3构建工具：CMake3.16+交叉编
centos7 ifconfig命令不显示IP号的解决方法奔跑向Python的小兔 tcp/ip 网络协议网络
当使用ifconfig命令时，对于ens33这个第一网卡不显示ip地址，用ip-a并不显示正确的ip号，用下面的方式来解决用sudodhclient-v命令这是一个在Linux系统中获取IP地址的命令，通过启动DHCP客户端程序向DHCP服务器请求IP地址等网络配置信息。sudo是以管理员权限运行dhclient命令，-v选项指定输出详细调试信息。执行该命令后，DHCP客户端会自动在网络中寻找DH
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
Linux系统学习：文件、目录操作，简单语法橙小花 linux 学习
DAY2文件系统Linux本质上就是一个文件系统。Linux文件系统是操作系统组织、存取、保存数据的一种手段。整体采用层级式的倒状目录结构。倒状树结构中的目录/:根目录/bin：主要存放系统普通指令/boot：主要存放系统的引导程序/dev：存放硬件设备对应的文件（Linux应用开发阶段，访问其中的文件）/etc：存放系统和应用程序的配置文件（如：profile）/home：家目录，存放当前系统下
Linux 系统安全加固篇之安全加固脚本 Stdboy 网络空间安全研究系统安全安全 linux
该专栏内的脚本都会定期更新，请注意变化脚本适用于Centos7.x系列，同样支持Redhat7.x系列使用之前建议通读脚本注释，并确认不会影响你现在在用的业务注意脚本内部包含一定的参数，这些参数比较重要，涉及用户、NTP第三放服务器地址等#!/bin/bash###################################################################Lin
介绍6款密码暴力破解工具网安导师小李程序员网络安全编程 web安全网络安全 tcp/ip php python java
暴力破解就是通过不断穷举可能的密码，直至密码验证成功，暴力破解分为密码爆破和密码喷洒，密码爆破就是不断的去尝试不同的密码，密码喷洒就是通过已知密码不断去尝试账号。下面介绍6款常见的暴力破解工具。01hydraHydra（九头蛇）是THC组织开发的，是一款非常流行的密码破解工具，可以对多种服务的账号和密码进行爆破，包括Web登录、数据库、SSH、FTP等服务，支持Linux、Windows、Mac平
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
linux环境中配置中文输入法王慧-tyger linux linux中文
rpm方式。在安装盘上已经有各种语言包了，我们只需要找到他们，并安装就可以了。中文的是fonts-chinese-3.02-9.6.el5.noarch.rpmfonts-ISO8859-2-75dpi-1.0-17.1.noarch.rpm进入各文件对应目录，运行下面命令：#rpm-ivhfonts-chinese-3.02-9.6.el5.noarch.rpm#rpm-ivhfonts-ISO
深度模型训练，加速数据读取遇到显卡跑不满的问题不是吧这都有重名遇到的问题 llama 人工智能 LLM python
实测在pytorch的dataloader中使用prefetch_factor参数的时候，如果数据在机械硬盘上显卡始终是跑不满的，瓶颈在数据预加载速度上，当数据放在固态硬盘的时候就可以跑满。问题排查过程：一直在跑模型，但是数据量比较大，之前有段时间还是比较头疼显卡跑不满的。后来直接用钞能力，加了内存条，将数据缓存后一次性读到内存中终于可以跑满了，然后后面就一直没管这个了，唯一的缺点就是每次开始训练
设计模式系列（10）：结构型模式 - 桥接模式(Bridge)
系列导读：在学习了接口适配后，我们来看如何处理抽象与实现的分离问题。桥接模式解决的是"多维度变化"的设计难题。解决什么问题：将抽象部分与实现部分分离，使它们都可以独立变化。避免在多个维度上变化时出现类爆炸问题。想象一下，你要设计一个图形绘制系统，既要支持不同的形状（圆形、矩形），又要支持不同的绘制方式（Windows绘制、Linux绘制）。如果用继承，你需要WindowsCircle、LinuxC
linux 中路由解决方案1
在Linux的路由表中，当存在多条默认路由（0.0.0.0）且它们的Metric值相同时，内核会根据其他因素决定优先使用哪条路由。在你的例子中，eth1和wlan0的Metric值均为1024，但系统优先选择eth1，可能原因如下：可能原因分析接口优先级（基于接口索引或名称顺序）Linux内核可能会根据网络接口的创建顺序或接口索引号（ifindex）决定优先级。通常，先初始化的接口（如eth1）会
ubuntu 6.8.0 安装xenomai3.3 ZPC8210 ROS ubuntu linux 运维
通过以下步骤来获取和准备Linux内核6.8.0的源码，并应用Xenomai补丁：1.下载Linux内核6.8.0源码你可以从TheLinuxKernelArchives下载Linux内核6.8.0的源码。以下是具体步骤：访问内核官方网站：打开TheLinuxKernelArchives。找到对应版本的内核：在网站中找到内核6.8.0的下载链接。通常在v6.x目录下。下载源码：下载linux-6.
交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
yolov5训练失败总结 BTU_YC 深度学习 python pytorch
yolov5训练失败总结版本原因：在进行训练时，出现如下报错：UserWarning:Detectedcalloflr_scheduler.step()beforeoptimizer.step().InPyTorch1.1.0andlater,youshouldcallthemintheoppositeorder:optimizer.step()beforelr_scheduler.step().
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
在Linux环境下从0私有化部署Dify
在Linux环境下从0搭建Dify准备工作系统环境私有化部署下载Dify代码ZIP包启动Dify启动Docker容器访问Dify本地环境服务器环境准备工作因工作需要私有化部署公司内部的知识库，研究了一下准备采用Dify+RAG的方式实现，以下是具体步骤。系统环境服务器配置：官方建议2核4G以上；Liunx版本：RockyLinuxrelease9.4；Docker版本：28.1.1；Dify版本：
嵌入式Linux内核镜像生成过程飘逸轻舞 linux arm开发运维嵌入式
嵌入式Linux内核镜像生成过程嵌入式Linux系统的核心组件是内核，它是操作系统的核心部分，负责管理硬件资源、提供系统调用接口以及驱动设备等功能。在嵌入式系统中，将内核编译成镜像文件是部署系统的关键步骤之一。本文将介绍嵌入式Linux的内核镜像生成过程，并提供相应的源代码示例。获取Linux内核源代码首先，我们需要获取Linux内核的源代码。可以从Linux官方网站（www.kernel.org
PyTorch中 item()、tolist()使用详解和实战示例点云SLAM PyTorch深度学习 pytorch 人工智能 python 深度学习张量的操作 item tolist
在PyTorch中，.item()和.tolist()是两个常用于从Tensor中提取Python原生数据的方法，尤其在调试、日志记录或将结果传给非张量库时非常有用。下面是它们的详解与代码示例。1..item()方法用途：将仅包含一个元素的张量（即标量张量）转换为对应的Python原生数据类型（float,int,等）。限制：只能用于只包含一个元素的Tensor，否则会报错。示例代码：import
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，