CUDA并行计算第3页

GPU编程与CUDA

CUDA编程并行计算整体流程从主机端申请内存，把内存部分的内容拷贝到设备端在设备端的核函数计算从设备端拷贝到主机端，并且释放内存显存主机端：cpu设备端：gpu核函数：在gpu上运行的函数CUDA内存模型

Nice_cool.·2025-01-30 21:17

GPU-CUDA编程学习(一)

Hello,CUDA最近在学习GUP编程，故此记录下学习进度。

☞北海北☜·2025-01-30 21:45

多版本cuda+多版本cudnn+gcc+cmake+opencv+darknet爬坑记录

本次针对darknet框架部署—centos7.x一、CUDA多版本安装1、很早前安装了很多cuda现在忘了步骤了，这里不再安装，下次再补上，可以看其他贴安装，记清楚自己的安装目录，一般默认在/usr/

LMM_AI·2025-01-30 21:41

RTX4060+ubuntu22.04+cuda11.8.0+cuDNN8.6.0 & 如何根据显卡型号和系统配置cuda和cuDNN所需的安装环境

文章目录电脑原配置安装cuda和cuDNN前的环境选择cuDNN与CUDAtookit和nvidiadriver的对应关系cuda版本选择⭐查看自己的nvidiadriver版本和最大支持的CUDA版本

computer_vision_chen·2025-01-30 20:05

ubuntu22.04 + isaac gym环境配置流程

1.CUDA安装1.看系统架构：uname-m2.去官网下载适配你显卡驱动的最新cuda，可以通过nvidia-smi查看https://developer.nvidia.com/cuda-toolkit-archive3

Yakusha·2025-01-30 20:02

Transformer架构的GPU并行和之前的NLP算法并行有什么不同？

1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。

AI大模型学习不迷路·2025-01-30 07:49

cuda 线程调度

比如RTX2070有36个StreamingMultiprocessors，而每个SM有64个CUDACores，RTX2070具有36*64=2304个CUDACores。

weiwei0319·2025-01-30 05:31

Window 下Mamba 环境安装踩坑问题汇总及解决方法（无需绕过selective_scan_cuda）

安装问题参看本人博客：Mamba环境安装踩坑问题汇总及解决方法（重置版）Windows下Mamba的安装参看本人博客：Window下Mamba环境安装踩坑问题汇总及解决方法（无需绕过selective_scan_cuda

yyywxk·2025-01-30 03:45

vmamba 尝试安装记录

安装虚拟环境condacreate-nvmambapython==3.102、激活环境condaactivatevmamba3、安装附加环境pipinstall-rrequirements.txt4、确保cuda

青雉007·2025-01-30 02:41

Window Mamba 环境安装【CUDA】

直接安装Mamba及其依赖3.手动编译Mamba及其依赖1.安装PyTorch环境condacreate-nmambapython=3.10condaactivatemambacondainstallcudatoolkit

红豆布丁·2025-01-30 02:11

云计算技术深度解析与代码使用案例

云计算技术特点云计算是网格计算、分布式计算、并行计算、效

我的运维人生·2025-01-29 17:19

【人工智能】Python常用库-PyTorch常用方法教程

1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。

IT古董·2025-01-29 15:08

Ubuntu22.04安装CUDA10.1

Ubuntu22.04安装CUDA10.1前言gcc降级添加软件源更新软件源安装gcc-7更换gcc版本安装CUDA10.1前言ubuntu22.04支持cuda10.7以上的版本，而在一些情况下我们需要用到低级的

想夹逼但不收敛·2025-01-29 11:00

docker镜像报错ERROR: failed to solve: DeadlineExceeded:

--------------------1|#基于NVIDIACUDA镜像，确保GPU支持2|>>>FROMnvidia/cuda:12.6.2-cudnn-devel-ubuntu20.043|4|#

柠檬编程工作室·2025-01-28 11:05

Transformer架构和Transformers 库和Hugging Face

特点:并行计算能力

大哥喝阔落·2025-01-28 04:50

实验踩坑 flash_attn_2_cuda undifiend symol

Failedtoimporttransformers.models.llama.modeling_llamabecauseofthefollowingerror(lookuptoseeitstraceback):…/lib/python3.10/site-packages/flash_attn_2_cuda.cpython

崩溃李·2025-01-28 00:51

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

完整报错信息：ImportError:/home/linjl/anaconda3/envs/sd/lib/python3.10/site-packages/flash_attn_2_cuda.cpython

同屿Firmirin·2025-01-28 00:46

从Nvidia切换到华为云昇腾芯片的入门技巧

等价命令Nvidia昇腾说明nvidia-sminpu-smiinfo查看机器上显卡信息npu-smiinfo-tusages-i查看显卡使用率CUDA_VISIBLE_DEVICESASCEND_RT_VISIBLE_DEVICES

sunrise_ccx·2025-01-27 23:40

Python&aconda系列：CUDA+Anaconda的安装以及 Conda实用命令

这里写目录标题一.深度学习环境配置：CUDA+Anaconda的安装3.1.1CUDA简介3.1.2查看电脑显卡型号是否支持CUDA的安装3.1.3查看电脑显卡的驱动版本3.1.4根据显卡驱动版本下载支持的

坦笑&&life·2025-01-27 20:54

pytorch单机多卡训练_数据并行DataParallel

模型并行是指，多张GPUs使用同一batch的数据，分别训练模型的不同部分.2.DataParallel源码2.1需要传入的参数module(Module):被并行运算的模型device_ids=None:CUDAdevicesoutput

Major Tom _·2025-01-27 13:03

Tesla V100驱动安装

确认操作系统kernel版本，参考链接：https://docs.nvidia.com/cuda/archive/12.2.0/cuda-installation-guide-linux/index.html

郭宝才·2025-01-26 17:17

《剖析Transformer架构：自然语言处理飞跃的幕后英雄》

打破传统枷锁，开创并行计算新时代在Transformer出现之前，循环神经网络（RNN）及其变体，如

·2025-01-26 11:25

训练入口+保存模型

frommodels.model_coupled_v1importUnetfromdata.data_loadimport*importglobfromcollectionsimportOrderedDictdevice="cuda

如若123·2025-01-26 04:30

使用Python实现并行计算算法：效率提升的利器

并行计算作为一种提升计算效率的重要手段，能够充分利用多核处理器的优势，加速任务的完成。Python作为一种灵活且功能强大的编程语言，提供了丰富的并行计算工具。

Echo_Wish·2025-01-25 13:32

python做并行计算_python做并行计算可以吗

python可以做并行计算，下面是相关介绍：一、概览ParallelPython是一个python模块，提供在SMP(具有多个处理器或多核的系统)和集群(通过网络连接的计算机)上并行执行python代码的机制

角动量不守恒·2025-01-25 13:31

python并行计算

0.基础并行/发：multiprocessing/threading1.concurrent2.并发：asynico3.Ipython下的并行计算：使用ipyparallel库的IPython提供了前所未有的能力

weixin_30894389·2025-01-25 12:00

Python并行计算：提高效率的利器

为了应对这些挑战，一种常见的解决方案是利用并行计算技术。Python作为一种流行的编程语言，也提供了强大的工具和库来支持并行计算。本文将介绍Python中的并行计算概念和技术，并提供一些示例代码。

uote_e·2025-01-25 12:00

花费上万元的 RTX4090，普通人真的需要它的性能吗？

01RTX4090的性能规格它拥有超多的CUDA核心，数量高达16384个。这就好比有一支庞大的计算大军，能够快速处理各种复杂的图形计算任务。

·2025-01-24 16:32

Windows 下Mamba2 环境安装问题记录及解决方法（causal_conv1d=1.4.0，mamba_ssm=2.2.2）

安装问题参看本人博客：Mamba环境安装踩坑问题汇总及解决方法（重置版）Windows下Mamba的安装参看本人博客：Window下Mamba环境安装踩坑问题汇总及解决方法（无需绕过selective_scan_cuda

yyywxk·2025-01-24 14:38

Linux 下 Vim 环境安装踩坑问题汇总及解决方法（重置版）

安装问题参看本人博客：Mamba环境安装踩坑问题汇总及解决方法（重置版）Windows下Mamba的安装参看本人博客：Window下Mamba环境安装踩坑问题汇总及解决方法（无需绕过selective_scan_cuda

yyywxk·2025-01-24 14:38

GPU 集群和分布式计算

《GPU集群和分布式计算》关键词：GPU集群、分布式计算、CUDA、OpenACC、OpenMP、性能优化、故障处理、案例分析摘要：本文详细探讨了GPU集群和分布式计算的基本概念、架构、编程模型以及应用场景

AI天才研究院·2025-01-23 21:28

error: [Errno 2] No such file or directory: ‘:/usr/local/cuda-12.1/bin/nvcc‘: ‘:/usr/local/cuda-12.1

一背景最近在服务器使用cuda报错，昨天使用还可以，今日就出问题，在此记录解决方案。

鲤鱼不懂·2025-01-23 19:46

【CUDA-BEVFusion】tool/build_trt_engine.sh 文件解读

build_trt_engine.sh#configuretheenvironment.tool/environment.shif["$ConfigurationStatus"!="Success"];thenecho"Exitduetoconfigurefailure."exitfi#tensorrtversion#version=`trtexec|grep-m1TensorRT|sed-n"s

old_power·2025-01-23 18:37

小土堆学习笔记10（利用GPU训练于模型验证）

1.利用GPU训练GPU可优化操作如下操作方法1方法2数据获取判断是否可以使用GPU，如果可以直接model.cuda()先设定device，用的时候直接model.to（“device”）损失函数1.1

干啥都是小小白·2025-01-22 11:03

安装CUDA Cudnn Pytorch(GPU版本）步骤

一.先看自己的电脑NVIDIA支持CUDA版本是多少？

学乐乐·2025-01-22 08:43

【环境安装】安装LLaMA-Factory

Linux-Centos7；显卡驱动：DriverVersion:460.106.00；TeslaP40*2【目标环境说明】torch==1.13.1+cu116llamafactory==0.9.2.dev01.CUDA11.6

BoostingIsm·2025-01-22 05:47

async++源码阅读——parallel部分

1、背景async++框架中提供了多种并行计算的工具，其中包括parallel_for、parallel_invoke、parallel_reduce。

哎呦，帅小伙哦·2025-01-22 02:23

linux下jax-GPU安装

安装命令详细内容可查看jax官方文档在已有cuda的情况下，先使用命令1，再使用命令2，即可完成安装命令1：linux下jax安装命令pipinstalljax[cpu]==0.3.25-fhttps:

liu_zhaoda·2025-01-21 13:00

jax 和 jaxlib 的 cuda 版本安装

笔者花费时间才在Ubuntu20.04适配上jax和jaxlib的cuda版本安装，以及chex版本。

正经市民·2025-01-21 12:20

全面解析NVIDIA显卡：从入门级到旗舰级显卡详解

入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB

花千树-010·2025-01-20 18:05

Matlab多核CPU并行和多线程

简介这里需要明白的概念有：多核、多进程、多线程、并行计算、并发计算的区别。什么是多核在计算机设计早期，为了响应更多计算性能的需要，单处理器系统发展成为多处理器系统。

m0_74823021·2025-01-19 22:39

从零开始的 AI Infra 学习之路

概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN

SSS不知-道·2025-01-19 15:15

ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory

Nosuchfileordirectory上面报错信息的意思主要是liblibcudnn.so.8这个文件找不到在网上查资料后知道了这个文件是在cudnn的安装包里的，那需要先安装cudnnNVIDIA官网下载cuDNN8.2.1CUDA11

kyle-fang·2025-01-19 14:37

构建高效GPU算力平台：挑战、策略与未来展望

引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。

Mr' 郑·2025-01-19 11:43

AI技术架构：从基础设施到应用

1.GPU（图形处理单元）：并行计算的核心GPU是深度学习的核心引擎，专为大规模并行计算设计。技术优

fuqinyijiu·2025-01-19 06:31

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeError triu_tril_cuda_template not implemented for ‘BFloat16‘”

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeErrortriu_tril_cuda_templatenotimplementedfor‘BFloat16’”问题描述：CUDA_DEVICE

wang151038606·2025-01-19 00:31

深度学习(1)

一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码

浅忆へ梦微凉·2025-01-18 18:57

[python]通过whl文件安装torchvision和torchaudio及国内whl文件下载地址汇总

你可以从PyTorch的官方网站获取适合你系统的安装命令例如，如果你使用的是CUDA11.3和Python3.8，你可以使用以下命令安装PyTorch：p

萌萌哒240·2025-01-18 16:40

centos7安装cuda、dudnn、Nvidia驱动[最详细的教程和报错解决方案]

现在很多教程都没有覆盖全报错问题，本文几乎把所有问题都描述到位首先说下我电脑的环境：centos7x86-64：uname-r命令显示为3.10.0-1160.el7.x86_64；物理显卡为单卡2080ti；gcc通过yum安装，yuminstallgcc版本为4.8.5,同时会显示安装一些其他包，如glibc版本为2.17；安装准备以下为驱动和官网文件名一致，可到nvidia官网下载，选择历史

LensonYuan·2025-01-18 08:10

云计算技术深度解析与代码实践

云计算技术特点云计算技术融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化以及负载均衡等多种先进技

我的运维人生·2025-01-17 19:27

推荐频道

CUDA并行计算

GPU编程与CUDA

GPU-CUDA编程学习(一)

多版本cuda+多版本cudnn+gcc+cmake+opencv+darknet爬坑记录

RTX4060+ubuntu22.04+cuda11.8.0+cuDNN8.6.0 & 如何根据显卡型号和系统配置cuda和cuDNN所需的安装环境

ubuntu22.04 + isaac gym环境配置流程

Transformer架构的GPU并行和之前的NLP算法并行有什么不同？

cuda 线程调度

Window 下Mamba 环境安装踩坑问题汇总及解决方法 （无需绕过selective_scan_cuda）

vmamba 尝试安装记录

Window Mamba 环境安装【CUDA】

云计算技术深度解析与代码使用案例

【人工智能】Python常用库-PyTorch常用方法教程

Ubuntu22.04安装CUDA10.1

docker镜像报错ERROR: failed to solve: DeadlineExceeded:

Transformer架构和Transformers 库和Hugging Face

实验踩坑 flash_attn_2_cuda undifiend symol

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

从Nvidia切换到华为云昇腾芯片的入门技巧

Python&aconda系列：CUDA+Anaconda的安装以及 Conda实用命令

pytorch单机多卡训练_数据并行DataParallel

Tesla V100驱动安装

《剖析Transformer架构：自然语言处理飞跃的幕后英雄》

训练入口+保存模型

使用Python实现并行计算算法：效率提升的利器

python做并行计算_python做并行计算可以吗

python并行计算

Python并行计算：提高效率的利器

花费上万元的 RTX4090，普通人真的需要它的性能吗？

Windows 下Mamba2 环境安装问题记录及解决方法（causal_conv1d=1.4.0，mamba_ssm=2.2.2）

Linux 下 Vim 环境安装踩坑问题汇总及解决方法（重置版）

GPU 集群和分布式计算

error: [Errno 2] No such file or directory: ‘:/usr/local/cuda-12.1/bin/nvcc‘: ‘:/usr/local/cuda-12.1

【CUDA-BEVFusion】tool/build_trt_engine.sh 文件解读

小土堆学习笔记10（利用GPU训练于模型验证）

安装CUDA Cudnn Pytorch(GPU版本）步骤

【环境安装】安装LLaMA-Factory

async++源码阅读——parallel部分

linux下jax-GPU安装

jax 和 jaxlib 的 cuda 版本安装

全面解析NVIDIA显卡：从入门级到旗舰级显卡详解

Matlab多核CPU并行和多线程

从零开始的 AI Infra 学习之路

ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory

构建高效GPU算力平台：挑战、策略与未来展望

AI技术架构：从基础设施到应用

Jetson显卡上运行Qwen2-1.5b模型时报错“RuntimeError triu_tril_cuda_template not implemented for ‘BFloat16‘”

深度学习(1)

[python]通过whl文件安装torchvision和torchaudio及国内whl文件下载地址汇总

centos7安装cuda、dudnn、Nvidia驱动[最详细的教程和报错解决方案]

云计算技术深度解析与代码实践

Window 下Mamba 环境安装踩坑问题汇总及解决方法（无需绕过selective_scan_cuda）