ZONG_XP

NVIDIA之TLT迁移学习训练自己的数据集

0 背景

NVIDIA Transfer Learning Toolkit是英伟达推出的迁移学习工具包，使用提供的预训练模型来训练自己的数据，并可以完成模型裁剪、导出到deepstream框架中，实现快速部署。流程如下：

本文以训练faster rcnn为例，对TLT的使用方法进行介绍，并记录我在部署过程中踩过的那些（深）坑，如果你要训练其它模型，方法是类似的。参考资源

官网介绍：https://developer.nvidia.com/transfer-learning-toolkit

开发文档：https://docs.nvidia.com/metropolis/TLT/tlt-getting-started-guide/index.html

版本信息：v2.0_dp_py2，更新时间：2020年5月7日

注：2020.08.05 v2.0_py3版本更新，使用方法类似

1 安装方法

1.1 拉取镜像

TLT需要在docker中运行，因此第一步拉取镜像

首先登陆NGC，如果你是第一次注册NGC，你需要获得一个API KEY，这个值需要保存下来，因为他只会显示一次，并且以后会经常用到

docker login nvcr.io
# 用户名固定为  $oauthtoken
# 密码为你自己的API_KEY
docker pull nvcr.io/nvidia/tlt-streamanalytics:v2.0_dp_py2

这个过程比较漫长，第一次拉完之后，如果有自己的镜像仓库，可以推送到本地镜像仓库，以后下载时就会快很多

1.2 启动容器

镜像下载好之后，启动容器

sudo nvidia-docker run --gpus 4 -it --name tlt -v /your/local/path/tlt-experiments/:/workspace/tlt-experiments -p 8888:8888 nvcr.io/nvidia/tlt-streamanalytics:v2.0_dp_py2:v2.0_dp_py2 /bin/bash

有几个点需要注意：

--gpus要根据自己硬件条件设置，我这里有4张显卡可以用，就设置为4
-v表示将自己本地目录/your/local/path/tlt-experiments/与容器中的/workspace/tlt-experiments目录绑定，这样方便拷贝我们的训练数据

1.3 修改entrypoint.sh文件

2.0DP版本的镜像有个bug，就是当你启动容器退出后无法再次进入，根据docker logs tlt可以看到报错信息是：

mkdir: cannot create directory ‘/opt/ngccli’: File exists（具体看参考论坛提问）

并且会重复下载ngccli_reg_linux.zip文件，这里的解决方法是注释掉相关代码，entrypoint.sh文件在进入容器后的上一级目录（cd ..）

#!/usr/bin/env bash
set -e

## Run startup command 
#mkdir -p /opt/ngccli
#wget https://ngc.nvidia.com/downloads/ngccli_reg_linux.zip -P /opt/ngccli
#unzip -o /opt/ngccli/ngccli_reg_linux.zip -d /opt/ngccli/
#rm /opt/ngccli/*.zip
#chmod u+x /opt/ngccli/ngc

## Running passed command
if [[ "$1" ]]; then
        eval "$@"
fi

2.0GA版本对应的是修改 install_ngc_cli.sh脚本

#!/usr/bin/env bash
set -eo pipefail

# Select NGC CLI type based on command line arg
BATCH_CLI='ngccli_bat_linux.zip'
REG_CLI='ngccli_reg_linux.zip'

# Installing NGC CLI type based on env variable.
if [ "x$NGC_INSTALL_CLI" == 'xBATCH' ]; then
    CLI="$BATCH_CLI"
elif [ "x$NGC_INSTALL_CLI" == 'xREGISTRY' ]; then
    CLI="$REG_CLI"
else
    echo "Invalid NGC_INSTALL_CLI asked for. Exiting"
    exit 1
fi

## Download and install
#mkdir -p /opt/ngccli && \
#wget "https://ngc.nvidia.com/downloads/$CLI" -P /opt/ngccli && \
#unzip -u "/opt/ngccli/$CLI" -d /opt/ngccli/ && \
#rm /opt/ngccli/*.zip && \
#chmod u+x /opt/ngccli/ngc

## Running passed command
if [[ "$1" ]]; then
        eval "$@"
fi

2 准备数据集

接下来准备我们的训练数据，数据集的要求如下：

tlt-train不支持多分辨率图片的训练，需要将图片resize到统一大小，同时要对应的更改lable。官方建议图片的宽高应为16的整数倍，例如1920x1080

图片resize的方法可以参考下边的代码

def resize_img(img_path, save_path, img_size):
    w = img_size[0]
    h = img_size[1]

    img_list = os.listdir(img_path)
 
    for i in img_list:
        if i.endswith('.jpg'):
            img_array = cv2.imread((img_path + '/' + i), cv2.IMREAD_COLOR)
            new_array = cv2.resize(img_array, (w, h), interpolation=cv2.INTER_CUBIC)
            img_name = str(i)
            if os.path.exists(save_path):
                print(i)
                save_img = save_path + img_name
                cv2.imwrite(save_img, new_array)
            else:
                os.mkdir(save_path)
                save_img = save_path + img_name
                cv2.imwrite(save_img, new_array)

提供一个label resize的思路：先将xml中的xmin\ymin\xmax\ymax进行归一化保存，然后再乘以新的长宽即可

2.1 label转换

TLT的训练标注数据需要用KITTI数据集格式，所以如果你的数据集是其它格式的，需要做一个转化，这里我们提供VOC数据集和coco数据集的转化方法

2.1.1 voc数据集转换方法

import xml.etree.ElementTree as ET
import os

base_xml_dir = "./vocdata/Annotations/"
xml_list = os.listdir(base_xml_dir)
kitti_saved_dir = "./kitti/kitti_txt/"


def convert_annotation(file_name):
    in_file = open(base_xml_dir + file_name)
    tree = ET.parse(in_file)
    root = tree.getroot()

    with open(kitti_saved_dir + file_name[:-4] + '.txt', 'w') as f:
        for obj in root.iter('object'):
            cls = obj.find('name').text
            xmlbox = obj.find('bndbox')
            
            xmin, ymin, xmax, ymax = xmlbox.find('xmin').text, xmlbox.find('ymin').text, \
                                     xmlbox.find('xmax').text, xmlbox.find('ymax').text
            f.write(cls + " " + '0' + " " + '0' + " " + '0' + " " + str(xmin) + '.0' + " "
                    + str(ymin) + '.0' + " " + str(xmax) + '.0' + " " + str(ymax) + '.0' + " " +
                    '0' + " " + '0' + " " + '0' + " " + '0' + " " + '0' + " " + '0' + " " + '0' + '\n')


for i in xml_list:
    convert_annotation(i)

2.1.2 coco数据集转换方法

def coco2kitti(coco_path, kitti_path, classes):
    width = 1280
    height = 720
    # 创建保存结果的文件夹
    if not os.path.exists(kitti_path):
        os.mkdir(kitti_path)

    for root, _, files in os.walk(coco_path):
        for file in files:
            filename, extension = os.path.splitext(file)
            print("------------------"+file+"------------------")
            if extension == '.txt':
                file_path = os.path.join(root, file)
                out_file = open(kitti_path + '%s.txt'%(filename), 'w')
                with open(file_path, "r") as fr:
                    lines = fr.readlines()
                
                for line in lines:
                    data = line.split(" ")
                    try:
                        class_id = int(data[0])
                        x = float(data[1])
                        y = float(data[2])
                        w = float(data[3])
                        h = float(data[4])
                    except:
                        print(file + 'is wrong')
                        os.remove(file_path)
                        # 删除有问题的label
                        # os.remove(img_path + '%s.jpg'%(filename))
                        os.remove(kitti_path + '%s.txt'%(filename))
                        continue
                    Xmax = (2*x*width + w* width) / 2
                    Xmin = (2*x*width - w* width) / 2
                    Ymax = (2*y*height + h* height) / 2
                    Ymin = (2*y*height - h* height) / 2
                    bb = (round(Xmin, 2), round(Ymin, 2), round(Xmax, 2), round(Ymax, 2))
                    print(bb)
                    out_file.write(classes[class_id] + " 0 0 0 " + " ".join([str(a) for a in bb]) + " 0 0 0 0 0 0 0" + '\n')

2.2 创建目录

按照下边的目录结构创建各级目录（用下边的目录名字配置文件改动最少）

└── tlt-experiments
├── data
│   ├── faster_rcnn
│   ├── testing
│   │   └── image_2
│   └── training
│    ├── image_2
│    └── label_2
└── tfrecords
└── kitti_trainval

创建完文件夹后，将自己的训练图片和对应的KITTI标签放到training目录对应位置，在testing文件夹中放入测试图片

3 模型训练

TLT提供了很多jupyter notebook文件，将运行的命令都封装起来了，我们直接使用这些文件来进行训练就可以，当然也可以在容器中自己敲命令来训练。

进入容器中后，在workspace路径下，运行下边的启动命令

jupyter notebook --ip 0.0.0.0 --allow-root

然后根据token，在自己的浏览器中打开对应的IP和端口，打开后内容如下

3.1 环境设置

我们依次点击examples/faster_rcnn/faster_rcnn.ipynb，进入jupyter文件，如下

将第0步中KEY的值替换为自己的KEY值，获取方法参考1.1步骤，然后运行这个cell，就会输出运行结果

下边的第1步是下载KITTI数据集，因为我们准备了自己的数据集，这一步可以跳过不运行，为了防止出错，可以把cell中的代码全部注释掉，如下

3.2 生成tfrecords

接下来的步骤是生成tfrecords文件，首先需要修改tfrecords spec文件，这个文件里配置了数据集的位置信息

依次点击打开examples/faster_rcnn/specs/frcnn_tfrecords_kitti_trainval.txt文件，然后修改里边的值，如果你按照我上边的方法创建了文件夹，路径那些都不需要修改，如果你的图片是jpg格式，则只需要把imge_extension改一下，如下

其它都使用默认即可，修改完之后ctrl + s 保存一下，回到faster_rcnn的jupyter文件

依次运行接下来的两个cell

接下来你可以显示你生成的tfrecords文件

3.3 预训练模型

jupyter中提供了预训练模型的下载方法，但速度比较慢，我们注释掉，直接从NGC中手动下载

进入NGC官网，选择MODELS中的TLT Object Detection

进入后选择File Browser，选择自己要训练的预训练模型，这里我们选择的是RESNET 50，然后点击下载到本地

下载完后，拷贝到/workspace/tlt-experiments/data/faster_rcnn路径下，并重命名为resnet50.hdf5，至此预训练模型准备完毕

3.4 训练配置文件

打开faster_rcnn/specs下边的default_spec_resnet50.txt文件，从上到下依次有下边内容需要修改：

size_height_width中的height和width修改为自己图片的实际值
image_extension修改为jpg
target_class_mapping要修改为自己的类别，将key和value一一对应，比如我自己的类别是bicycle和motorbike，则改成下边的内容

target_class_mapping {
key: 'bicycle'
value: 'bicycle'
}
target_class_mapping {
key: 'motorbike'
value: 'motorbike'
}

output_image_width和output_image_height修改为自己图片的实际值
batch_size_per_gpu：根据自己显卡情况设置，如果显存不大，可以设成较小值，比如设成1或4
num_epochs：训练回合数，根据经验100-200可以有一个好的效果，太小了什么也检测不出来，我自己设成了200
freeze_bn：默认为True，当你的batch size大于16的时候可以设置为False，让BN层自动计算均值和偏差
checkpoint_interval：设置训练过程中保存模型的间隔，默认为1，可以根据自己需求调整
inference_config/model修改为/workspace/tlt-experiments/data/faster_rcnn/frcnn_kitti_resnet50.epoch200.tlt
evaluation_config/model修改为/workspace/tlt-experiments/data/faster_rcnn/frcnn_kitti_resnet50.epoch200.tlt

保存退出

要指定验证数据，请使用validation_fold，同时指定validation_data_source

 validation_fold: 0
 # For evaluation on test set
 # validation_data_source: {
 #    tfrecords_path: "/path/to/test_tfrecords/*"
 #  image_directory_path: "/path/to/test_root"
 # }

3.5 开始训练

使用tlt-train指令开始训练，注意要改成自己的配置文件，如果有多个GPU的话，可以指定使用的GPU个数，默认为1

为了避免出现显存报错问题，训练前先设置下环境变量：

$ export TF_FORCE_GPU_ALLOW_GROWTH=true

3.6 检测模型

经过漫长的等待，训练结束后，可以验证以下自己的模型效果

会输出每个类别的AP值以及mAP值，如果模型效果不错的话可以进行裁剪，如果mAP值很低，或者直接 mAP = 0的话，说明训练有问题，需要检查下自己的配置文件重新训练

4 模型优化

经过上述步骤，我们得到了一个检测效果不错的模型，但不会直接拿来部署，而是需要prune裁剪一下，然后第二次训练，得到最终模型

4.1 模型剪枝

使用tlt-prune指令对模型进行剪枝

4.2 重新训练

首先宝贝一份specs/default_spec_resnet18_retrain_spec.txt为default_spec_resnet50_retrain_spec.txt，然后打开做几处修改，和3.4中修改的内容类似，额外需要修改下边的内容

feature_extractor修改为resnet:50
num_epochs可以设置的比第一阶段小一些，我这里设置了100
对应的把inference_config和evaluation_config中的model修改为/workspace/tlt-experiments/data/faster_rcnn/frcnn_kitti_resnet50_retrain.epoch100.tlt
把全文resnet18的地方都替换为resnet50

然后可以开始训练

训练完之后，同样可以使用tlt-evaluate来计算一下模型的mAP，看看与未剪枝的模型相比是否有大的下降

4.3 可视化结果

可以使用tlt-infer工具对模型的检测效果进行可视化，运行后会输出两个文件夹，分别是faster_rcnn/inference_results_imgs_retrain和faster_rcnn/inference_dump_labels_retrain，用来保存检测结果图片和标签

当然也可以运行未剪枝的配置文件来检测未剪枝模型的检测效果

5 模型部署

TLT支持两种类型的模型导出，分别是etlt格式和engine格式，都可以用在deepstream中，但是engine是平台相关的，跟cuda、tensorrt等版本相关，所以如果部署的平台与训练的平台环境有差异，不建议直接导出engine使用，而是导出etlt模型，然后在deepstream中自动生成engine。

5.1 导出etlt模型

支持导出三种精度的模型，分别是FP32/FP16/INT8，如果要生成INT8模型，还需要生成一个量化表calibration cache file，具体方法如下

实际上，无论选择的是哪种类型（FP32/FP16/INT8），导出的模型都是相同大小的，类型都是FP32，只不过如果选择INT8的时候，会额外生成INT8 calibration table。（来源）

5.2 导出engine模型

也可以直接导出tensorrt的engine模型，方法如下

5.3 模型推理

可以使用上述的模型进行推理，计算mAP值，方法如下

5.4 deepstream部署

导出的这些模型可以直接在deepstream中进行部署，关于具体的部署方法，参考另一篇文章《DeepStream5.0系列之TLT模型调用》。

6 问题记录

6.1 XLA_GPU_JIT错误

tensorflow.python.framework.errors_impl.InvalidArgumentError: Invalid device ordinal value (5). Valid range is [0, 4].
        while setting up XLA_GPU_JIT device number 5

实际可用GPU与docker指定GPU不符，例如启动docker时指定--gpus all，而运行时第5张卡被占用无法使用，就会报错，

同样的，如果你指定一张不存在的GPU，比如只有gpu0,而你指定了--gpus 2则会报类似的错

6.2 类别问题

ValueError: Layer #206 (named "dense_class_td"), weight  has shape (2048, 8), but the saved weight has shape (2048, 7).

6.3 OOM问题

tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shape[1,128,120,160] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
         [[{{node b3_conv4_1_bn/batchnorm/mul_1}}]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

         [[{{node loss/dense_regress_td_loss/cond_3/Min/Switch}}]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

这个是显存不足导致的，将batch设置的小一些即可，注意TLT的GPU默认从0号开始，所以指定多GPU的时候，显卡不要有其它任务，否则也容易报显存不足问题

6.4 datasize问题

tensorflow.python.framework.errors_impl.InvalidArgumentError: Invalid JPEG data or crop window, data size 688128

首先检查图片有没有问题，然后图片需要resize到统一大小，不支持不同分辨率的图片一起训练，同时要注意标签要一起修改

6.5 loss nan问题

训练开始时，如果报错Invalid loss, terminating training，则需要调整学习率

从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory kyle-fang 模型部署经验分享
安装完TensorRT后，导入报错ImportError:libcudnn.so.8:cannotopensharedobjectfile:Nosuchfileordirectory上面报错信息的意思主要是liblibcudnn.so.8这个文件找不到在网上查资料后知道了这个文件是在cudnn的安装包里的，那需要先安装cudnnNVIDIA官网下载cuDNN8.2.1CUDA11.x安装包并解压到
【已解决】ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory 小小小小祥 python
问题描述：按照tensorrt官方安装文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar安装完成后，使用python测试导入tensorrtimporttensorrt上述代码报错：Traceback(mostrecentcalllast):File“main.py”,li
NVIDIA发布企业级硬件 AI 参考架构深度学习服务器深度学习架构服务器 python plotly
NVIDIA发布企业级硬件AI参考架构NVIDIA英伟达在OCP峰会后发布了许多AI参考架构，#GPU服务器#供应商与Nvidia合作开发了大规模部署NvidiaAI硬件所需的基础设施硬件，近日Nvidia宣布企业级客户构建的参考架构。NVIDIADGXSuperPOD架构，该架构完全使用Nvidia服务器和网络技术构建。从设计到部署进行优化新发布的参考架构（RA）产品适用于部署范围为32到102
实验室多人共享GPU服务器搭建指南（更新ing） Geodesy&Geomatic 服务器运维 gpu算力深度学习 docker
1.服务器参数设置1.1实验室服务器参数操作系统Ubuntu20.04LTS系统挂盘：SSD（2×960GB）为Raid1、STAT（2×10T）为Raid0什么是raid0、raid1、raid5、raid10？需要几块硬盘？linux安装nvidia驱动必备（笔者实验室的GPU服务器交货时已安装驱动，不再详述）Ubuntu20.04安装Nvidia驱动——4060显卡（黑屏解决方法）1.首先禁
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
NVIDIA下一代Hopper架构曝光，采用5nm工艺晶体管超1400亿 Java小海. 架构人工智能后端程序人生 java
据媒体报道，NVIDIA下一代主要面向高性能计算、人工智能等Hopper架构，将会采用5nm工艺制程，晶体管多达1400亿个，面积核心达到了900平方毫米，是有史以来最大的GPU。作为参考，NVIDIA自家旗舰Ampere架构的A100为542亿个晶体管（每平方毫米约为6560万个晶体管），AMD阵营中采用Aldebaran架构的InstinctMI200系列为582亿个晶体管（每平方米约为736
NVIDIA Hopper解说白总Server redis 数据库缓存 rust mongodb 大数据数据仓库
NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。它代表了NVIDIA在加速计算领域的最新进展，旨在为AI训练和推理、HPC应用提供前所未有的性能提升。NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore
NVIDIA Hopper 架构深入 RZer 硬件工程架构 NVIDIA
在2022年NVIDIAGTC主题演讲中，NVIDIA首席执行官黄仁勋介绍了基于全新NVIDIAHopperGPU架构的全新NVIDIAH100TensorCoreGPU。文章目录前言一、NVIDIAH100TensorCoreGPU简介二、NVIDIAH100GPU主要功能概述1.新的流式多处理器（SM）具有许多性能和效率改进。主要新功能包括：2.新的transformer引擎结合使用软件和定制
centos7安装cuda、dudnn、Nvidia驱动[最详细的教程和报错解决方案] LensonYuan 自然语言处理深度学习自然语言处理数据挖掘机器学习深度学习
现在很多教程都没有覆盖全报错问题，本文几乎把所有问题都描述到位首先说下我电脑的环境：centos7x86-64：uname-r命令显示为3.10.0-1160.el7.x86_64；物理显卡为单卡2080ti；gcc通过yum安装，yuminstallgcc版本为4.8.5,同时会显示安装一些其他包，如glibc版本为2.17；安装准备以下为驱动和官网文件名一致，可到nvidia官网下载，选择历史
Ultralytics YOLOv8 英伟达™ Jetson®处理器部署 kuan_li_lyg 树莓派 &Jetson YOLO 机器人自动驾驶强化学习计算机视觉深度学习人工智能
系列文章目录前言本综合指南提供了在英伟达Jetson设备上部署UltralyticsYOLOv8的详细攻略。此外，它还展示了性能基准，以证明YOLOv8在这些小巧而功能强大的设备上的性能。备注本指南使用SeeedStudioreComputerJ4012进行测试，它基于运行最新稳定JetPack版本JP5.1.3的NVIDIAJetsonOrinNX16GB。对于较
华为昇腾AI处理器，atc模型转换和推理过程，华为的CANN库对标的是NVIDIA的cuda，所以在华为昇腾AI处理器上安装了CANN后，就可以直接使用pytorch了，以及推理框架(参考学习) 鼾声鼾语嵌入式硬件学习 stm32 python 数据库
1，模型转换atc模型转换模型转换如图参考链接如下：https://toscode.mulanos.cn/ascend/samples/tree/master/inference/modelInference/sampleResnetQuickStart/cpp2，推理运行，这里需要注意用到了infer，有点类似的pytorch对模型的加载使用model=InferSession(0,model_
报错解决：undefined symbol: _ZN15TracebackLoggerC1EPKc, version libcudnn_ops_infer.so.8 打工人你好 python
搭建resemble-enhance这个项目的过程中，在Ubuntu20.04的机器上跑，报错如下：undefinedsymbol:_ZN15TracebackLoggerC1EPKc,versionlibcudnn_ops_infer.so.8这个错误是在NVIDIAGPU上使用PyTorch2.1.2和cuDNN12.1时使用torch.nn.Conv2d时出现符号查找错误，这意味着PyTor
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
黄仁勋最新演讲全文：我忍受的一切挫折、痛苦和磨难淬炼了超能力｜钛媒体AGI | 最新快讯... 深夜冒泡媒体 agi 人工智能
“我们彻底改变了公司。我们也彻底改变了计算。”英伟达创始人、CEO黄仁勋（JensenHuang）钛媒体App获悉，当地时间6月15日，英伟达创始人、CEO黄仁勋（JensenHuang）参加美国加州理工学院第130届毕业典礼，并发表了一段题为“迎难而上抓住机会“（EmbraceChallengesandSeizeOpportunities）的主题演讲。黄仁勋畅谈了英伟达（NVIDIA）自1993
黄仁勋的思维世界：Nvidia的AI和游戏之王 AI小夏人工智能游戏百度
在这个行业中，黄仁勋是一位举足轻重的人物，也是Nvidia的联合创始人之一。他因在创新方面的强大而富有远见的领导力而受到认可。从卑微的起点到领导一家改变了电子游戏和人工智能面貌的公司，黄仁勋的故事启迪了人们的雄心、韧性以及如何超前思考。早年生活和职业生涯黄仁勋出生于台湾，九岁时移居美国。在成长过程中，他的生活充满了辛劳和决心，这些品质后来成为他职业生涯的标志。随后，黄仁勋就读于俄勒冈州立大学，攻读
缩小模拟与现实之间的差距：使用 NVIDIA Isaac Lab 训练 Spot 四足动物运动 AI人工智能集结号人工智能
目录在IsaacLab中训练四足动物的运动能力目标观察和行动空间域随机化网络架构和RL算法细节先决条件用法训练策略执行训练好的策略结果使用JetsonOrin在Spot上部署经过训练的RL策略先决条件JetsonOrin上的硬件和网络设置Jetson上的软件设置运行策略开始开发您的自定义应用程序由于涉及复杂的动力学，为四足动物开发有效的运动策略对机器人技术提出了重大挑战。训练四足动物在现实世界中上
Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用) Artintel 学习 ubuntu
远程连接进入命令行：rm-rf/etc/X11/xorg.confcp/etc/X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0\+\cudnn/sudochmoda+xnv.runsudo./nv.run-no-x-check-no
华为云端畅玩《黑神话：悟空》单车~ 算法数据结构华为云服务器运维
在华为云端畅玩《黑神话：悟空》，其电脑配置最低要求如下28：操作系统：需要64位处理器和操作系统，如Windows1064-bit。处理器：IntelCorei5-8400/AMDRyzen51600。内存：16GBRAM。显卡：NVIDIAGeForceGTX10606GB/AMDRadeonRX5808GB。DirectX版本：11。存储空间：需要130GB可用空间，推荐使用固态硬盘（SSD）
CentOS 7 上安装 NVIDIA Docker ManchiBB centos docker linux
在CentOS7上安装NVIDIADocker需要几个步骤。以下是安装NVIDIADocker的基本步骤：安装NVIDIA驱动：确保您的系统已经安装了NVIDIA驱动。如果没有，请先安装驱动。添加NVIDIADocker仓库：添加NVIDIADocker的官方仓库，以便安装最新版本的NVIDIADocker。distribution=$(./etc/os-release;echo$ID$VERSI
windows11 wsl2 ubuntu20.04安装vision mamba并进行测试一剑斩蛟龙人工智能深度学习图像处理计算机视觉 python 机器学习 pytorch
windows11wsl2ubuntu20.04安装visionmamba安装流程使用cifar-100测试安装成功安装流程visionmamba安装了半天才跑通，记录一下流程在wsl上安装cudawgethttps://developer.download.nvidia.cn/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_l
深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】 u013250861 #LLM/部署深度学习人工智能
triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小
OSError: libnccl.so.2: cannot open shared object file: No such file or directory 王小葱鸭 python
linux安装完torch或者tensorflow的gpu版本，安装没问题，但是import就有问题，报错OSError:libnccl.so.2:cannotopensharedobjectfile:Nosuchfileordirectory，是缺少nvidia的ncll，下面介绍解决方法：1安装ncll下载链接https://developer.nvidia.com/nccl/nccl-dow
活动｜华院计算宣晓华受邀出席“AI引领新工业革命”大会，探讨全球科技的最新趋势华院计算人工智能
8月31日，“AI引领新工业革命”大会于上海图书馆圆满落幕。本次大会由TAA校联会和台协科创工委会联合主办，得到上海市台办、上海市台联、康师傅的大力支持。大会邀请了NVIDIA全球副总裁、亚太区企业营销负责人刘念宁，元禾厚望资本创始合伙人潘海东，芯原微电子董事长兼总裁戴伟民及华院计算技术（上海）股份有限公司（以下简称“华院计算”）创始人、董事长宣晓华分别就各自领域的最新动态与未来趋势展开精彩分享，
电脑驱动分类黄卷青灯77 电脑驱动分类
电脑驱动程序（驱动程序）是操作系统与硬件设备之间的桥梁，用于使操作系统能够识别并与硬件设备进行通信。以下是常见的驱动分类：1.设备驱动程序显示驱动程序：控制显卡和显示器的显示功能，负责图形渲染和屏幕显示。示例：NVIDIA、AMD显示驱动程序。打印机驱动程序：允许操作系统与打印机通信，控制打印任务。示例：HP、Canon打印机驱动程序。声卡驱动程序：管理音频输入和输出，与声卡硬件交互。示例：Rea
合约跟单（对接火币/币安/OK/欧易OKEX交易所）系统开发 2301_78234743 java
合约跟单（对接火币/币安/OK/欧易OKEX交易所）系统开发合约跟单开发是指开发一个系统，让用户能够根据专业交易者的交易策略自动执行交易。以下是合约跟单系统开发NvidiaSONiC测开面经已octimeline一面3.111.英文自我介绍2.英文介绍项目3.ARP协议已知目的ip获数马笔试全a没面正常嘛看群里都在面试了，焦虑[牛泪]在boss投的还查不到状态短剧对接广告联盟系统开发详情玩法/案例
机器人仿真常用软件简介三十度角阳光的问候机器人
目录1ros-gazebo2agxunity3matlab-robotstudio-simscape4rviz+box2d,2d仿真方案5nvidia-issac-sim/gym6mujaco7pybullet结合工作经验简单介绍下目前比较常用的机器人仿真软件。1ros-gazebo基于ros系统，ros安装包自带的插件，用urdf文件描述刚体属性和连接关系，3d物理引擎，简单易用，上手快可以与r
apex安装，解决ModuleNotFoundError: No module named ‘packaging‘ error: subprocess-exited-with-error pingtaner1105 python pip
在anaconda上安装apex：安装步骤：gitclonehttps://github.com/NVIDIA/apexcdapexpipinstall-v--no-cache-dir--global-option="--pyprof"--global-option="--cpp_ext"--global-option="--cuda_ext"./报错：ModuleNotFoundError:No
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&