cuda原子操作

【Golang 面试题】每日 3 题（三十八）

http://t.csdnimg.cn/UWz06专栏简介：在这个专栏中，我将会分享Golang面试中常见的面试题给大家~❤️如果有收获的话，欢迎点赞收藏，您的支持就是我创作的最大动力112.什么操作叫做原子操作

Pandaconda·2025-01-20 14:22

从零开始的 AI Infra 学习之路

概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN

SSS不知-道·2025-01-19 15:15

ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory

Nosuchfileordirectory上面报错信息的意思主要是liblibcudnn.so.8这个文件找不到在网上查资料后知道了这个文件是在cudnn的安装包里的，那需要先安装cudnnNVIDIA官网下载cuDNN8.2.1CUDA11

kyle-fang·2025-01-19 14:37

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeError triu_tril_cuda_template not implemented for ‘BFloat16‘”

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeErrortriu_tril_cuda_templatenotimplementedfor‘BFloat16’”问题描述：CUDA_DEVICE

wang151038606·2025-01-19 00:31

深度学习(1)

一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码

浅忆へ梦微凉·2025-01-18 18:57

[python]通过whl文件安装torchvision和torchaudio及国内whl文件下载地址汇总

你可以从PyTorch的官方网站获取适合你系统的安装命令例如，如果你使用的是CUDA11.3和Python3.8，你可以使用以下命令安装PyTorch：p

萌萌哒240·2025-01-18 16:40

CAS操作的底层原理（总线锁定机制和缓存锁定机制）

目录处理器级别的实现总线锁定机制缓存锁定机制MSEI表示缓存行的四种状态MESI协议状态转换CAS操作是不保证可见性的CAS基本概念ABA问题的处理性能考虑先总结一下，CAS（CompareAndSwap）是一种原子操作

xweiran·2025-01-18 10:56

centos7安装cuda、dudnn、Nvidia驱动[最详细的教程和报错解决方案]

现在很多教程都没有覆盖全报错问题，本文几乎把所有问题都描述到位首先说下我电脑的环境：centos7x86-64：uname-r命令显示为3.10.0-1160.el7.x86_64；物理显卡为单卡2080ti；gcc通过yum安装，yuminstallgcc版本为4.8.5,同时会显示安装一些其他包，如glibc版本为2.17；安装准备以下为驱动和官网文件名一致，可到nvidia官网下载，选择历史

LensonYuan·2025-01-18 08:10

【0394】Postgres内核（checkpoint）执行一个 checkpoint ④

文章目录1.获取requestflags1.1发出警告1.2获取XLOGinsertlocation2.开始执行一个checkpoint1.获取requestflags以原子操作的方式获取请求标志，以明确我们应当执行何种类型的

内核之道·2025-01-17 17:12

华为昇腾AI处理器，atc模型转换和推理过程，华为的CANN库对标的是NVIDIA的cuda，所以在华为昇腾AI处理器上安装了CANN后，就可以直接使用pytorch了，以及推理框架(参考学习)

1，模型转换atc模型转换模型转换如图参考链接如下：https://toscode.mulanos.cn/ascend/samples/tree/master/inference/modelInference/sampleResnetQuickStart/cpp2，推理运行，这里需要注意用到了infer，有点类似的pytorch对模型的加载使用model=InferSession(0,model_

鼾声鼾语·2025-01-17 12:53

【vLLM 学习】安装

·2025-01-17 00:08

保证RTOS线程安全的常规操作

线程安全定义原子操作：一种不可分割的操作，要么完全执行成功，要么完全不执行，不能被打断临界区：一段代码，这段代码需要在同一时间只允许一个线程执行互斥锁：一种用于保护共享资源的机制，确保同一时间只有一个线程可以访问特定资源应用裸机原子操作

WittXie·2024-09-15 22:02

【安装环境】配置MMTracking环境

condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit

xuanyu22·2024-09-15 18:53

安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions

文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1

待磨的钝刨·2024-09-14 17:51

SAM2跑通（Ubuntu20.04)内含安装多个cuda

参考链接：github链接安装cuda，之前借鉴的方法安装多个cuda补充cuda安装：Asymlinkalreadyexistsat/usr/local/cuda.Updatetothisinstallation

好好607·2024-09-14 17:49

使用vllIm部署大语言模型

-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c

添砖JAVA的小墨·2024-09-14 12:18

vllm在线推理踩坑记

优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过PagedAttention实现）、连续批处理输入请求、优化的CUDA

懂点投资的码农·2024-09-14 12:14

多版本cuda安装及灵活切换详细教程

一、首先介绍下我所使用的环境ubuntu18.04+1080ti二、下载安装包1.cudatoolkit下载①环境选择，想要多版本共存的，尽量选择runfile文件进行安装②有些cudatoolkit下载页面

Fzc_PCL·2024-09-14 07:14

Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory

编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h

原野寻踪·2024-09-14 07:44

C++新特性以及应用场景

异步编程（ConcurrencyandMultithreading）：提供了线程和原子操作等工具。

平凡而伟大(心之所向)·2024-09-14 05:32

PyTorch官方免CUDA加速推理，Triton时代要来？

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。

诗者才子酒中仙·2024-09-14 04:56

GPU版pytorch安装

由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。

普通攻击往后拉·2024-09-13 03:13

人工智能-GPU版本机器学习、深度学习模型安装

背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU

bw876720687·2024-09-13 02:06

CUDA 编程入门（2）：CUDA 调度模型

参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block

知识搬运工人·2024-09-12 02:33

Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用)

X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0

Artintel·2024-09-12 00:20

Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda

一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址

徐小妞66666·2024-09-11 20:58

【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1)

cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu

2401_83703835·2024-09-11 13:36

pytorch计算网络参数量和Flops

batch_size=-1)输出的参数是除以一百万（/1000000）M，fromfvcore.nnimportFlopCountAnalysisinputs=torch.randn(1,3,256,256).cuda

Mr_Lowbee·2024-09-11 10:08

使用TensorRT对YOLOv8模型进行加速推理

这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT

fengbingchun·2024-09-11 04:30

ONNX Runtime、CUDA、cuDNN、TensorRT版本对应

文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime

可keke·2024-09-10 22:45

ONNXRuntime与CUDA版本对应

通常在安装onnxruntime时，需要将其版本与pytorch版本和CUDA版本进行对应，其中ONNXRuntime与CUDA版本对应关系表如下表所示。ONNXRuntimeC

zy_destiny·2024-09-10 22:15

【已解决】onnx无法找到CUDA的路径

onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHissetbutCUDAwasntabletobeloaded.Pleaseinstallthecorrectvers

烟花节·2024-09-10 21:10

atomic nonatomic assign retain copy strong weak 介绍

atomic和nonatomic用来决定编译器生成的getter和setter是否为原子操作。atomic设置成员变量的@property属性时，默认为atomic，提供多线程安全。

weixin_30493321·2024-09-10 20:07

Window 下 Vim 环境安装踩坑问题汇总及解决方法

导航Linux下Mamba及Vim安装问题参看本人之前博客：Mamba环境安装踩坑问题汇总及解决方法Linux下Vmamba安装教程参看本人之前博客：Vmamba安装教程（无需更改base环境中的cuda

yyywxk·2024-09-10 16:32

windows11 wsl2 ubuntu20.04安装vision mamba并进行测试

windows11wsl2ubuntu20.04安装visionmamba安装流程使用cifar-100测试安装成功安装流程visionmamba安装了半天才跑通，记录一下流程在wsl上安装cudawgethttps

一剑斩蛟龙·2024-09-10 16:59

[Lora][微调] Qwen-VL/Qwen-VL-chat微调问题

模型预训练错误一“erfinv_cuda”notimplementedfor‘BFloat16’RuntimeError:"erfinv_cuda"notimplementedfor'BFloat16'

翔迅AI·2024-09-10 03:07

【Pytorch】cumsum的实现逻辑

本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。

栏杆拍遍看吴钩·2024-09-09 20:13

【Arm Cortex-X925】 -【第八章】-L1 数据内存系统

8.L1数据内存系统Cortex®-X925的L1数据内存系统负责执行加载和存储指令，以及特定指令，如原子操作、缓存维护操作和内存标记指令。它包括L1数据缓存和L1数据转换后备缓冲区(TLB)。

代码改变世界ctw·2024-09-09 19:01

百度飞桨paddle安装包括CUDA,cuDNN,opencv的安装

conda创建新环境这部分代码均在AnacondaPrompt中写，要求已有Anaconda第一步：创建condacreate--nameyourEnvpython=3.6–name：也可以缩写为【-n】，【yourEnv】是新创建的虚拟环境的名字，创建完，可以装anaconda的目录下找到envs/yourEnv目录python=2.7：是python的版本号。也可以指定为【python=3.6

小甲学长·2024-09-09 16:13

深度学习回归任务训练代码模版

＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av

槐月初叁·2024-09-09 13:17

cpu运行gpu上的pytorch 报错:AssertionError:torch not compiled with cuda enabled——已解决

感觉今天介绍的这种方法可以解决所有这种报错出现的问题事件发生：报错：AssertionError:torchnotcompiledwithcudaenabled解决方法：后来看到这个代码parser.add_argument

霍格沃茨电气魔法师·2024-09-09 11:35

Transiting from CUDA to HIP（三）

一、Workarounds1.memcpyToSymbol在HIP(Heterogeneous-computeInterfaceforPortability)中，hipMemcpyToSymbol函数用于将数据从主机内存复制到设备上的全局内存或常量内存中，这样可以在设备端的内核中访问这些数据。这个功能特别有用，因为它允许在主机端定义数据符号，并在设备端的内核中使用这些符号。#include#inc

青禾子的夏·2024-09-09 05:55

HALCON 错误代码 #7709

原因报7709主要的原因有如下几个原因：1、就是你选的cuda版本和cudnn的不匹配，这个原因应该大家在选择的时候注意一下版本对比的话可以避免，基本上不是这个原因造成的。

聪明不喝牛奶·2024-09-08 23:41

ERROR: No matching distribution found for torch-geometri satisfies the requirement torch-geometric

试了网上的whl下载确保虚拟环境下nvcc和cuda版本一致，还不行遂找淘宝大佬,大佬换了pytorch版本python版本都不行最后根据报错出现的setup安装了pytest-runner，然后pipsearch

zzzzz忠杰·2024-09-08 05:14

解决安装依赖项时的ERROR: No matching distribution found for torch==1.10.0+cu111问题

在这种情况下，+cu111表示你正在安装针对CUDA11.1的Torch版本。因此，你需要确保你的环境中已经安装了CUDA11.1，并且你正在使用与之兼容的Torch版本。

CAI2256·2024-09-08 05:43

ERROR: No matching distribution found for torch==1.4.0 (from torchvision)

pipinstall--no-depstorchvision==0.5.0下面是cuda版本，Torch版本，Torchvision版本以及python版本的对应关系做了一个表，仅供大家参考

迷雾总会解·2024-09-08 05:12

大模型推理框架 RTP-LLM 架构解析

RTP-LLM与当前广泛使用的多种主流模型兼容，使用高性能的CUDAkernel,包括PagedAttention、FlashAttention、FlashDecoding等，支持多模态、LoRA、P-Tuning

阿里技术·2024-09-07 23:32

深度学习框架相关-Python模块的介绍和使用---torch

；2.下面主要介绍torch模块的五个功能：数据加载和处理，GPU加速，建立网络模型，模型的保存和加载，梯度更新和参数优化；上面功能主要用到的子模块如下：torch.utils.data、torch.cuda

sccum·2024-09-07 09:22

apex安装，解决ModuleNotFoundError: No module named ‘packaging‘ error: subprocess-exited-with-error

apexcdapexpipinstall-v--no-cache-dir--global-option="--pyprof"--global-option="--cpp_ext"--global-option="--cuda_ext

pingtaner1105·2024-09-06 20:00

PyTorch 版本与 CUDA 版本的兼容性示例

PyTorch1.9.0及以上版本支持CUDA11.1。PyTorch1.8.0支持CUDA11.0。PyTorch1.7.0支持CUDA10.2。PyTorch1.6.0支持CUDA10.1。

小赖同学啊·2024-09-06 17:36

推荐频道