CUDA并行计算第2页

Anaconda配置tensorflow-gpu教程

最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU

rubisco214·2025-02-28 22:19

Rust并发编程实践：10分钟入门系统级编程

摘要引言正文解析：一、Rust中的并发编程基础1.1线程1.2协程二、Rust并发编程的高级特性2.1通道2.2原子操作2.3锁三、实例展示：优化并发编程性能1.并行计算2.异步IO3.数据并行四、并发编程的挑战与最佳实践结论

m0_74824687·2025-02-28 19:00

Stable diffusion 3.5本地运行环境配置记录

condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda

寸先生的牛马庄园·2025-02-28 09:38

智算中心的核心硬件是什么？

当前主流的AI加速计算芯片包括：1、GPU（图形处理器）GPU是智算中心的算力担当，其强大的并行计算能力使其在深度学习领域大放异彩。GPU芯片

Imagination官方博客·2025-02-27 19:42

Spark之PySpark

PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布

james二次元·2025-02-27 18:01

DeepEP：开源通信库的高效专家并行计算解决方案

摘要DeepEP是一个专为Mixture-of-Experts（MoE）和专家并行计算设计的开源通信库。它提供高效的all-to-all通信模式，支持GPU之间的高吞吐量和低延迟数据交换。

耶耶Norsea·2025-02-27 16:41

oneAPI介绍

InteloneAPI的设计理念是提供统一的编程接口，让开发人员能够利用不同类型的处理器实现高效并行计算。InteloneAPI中有什么？

Cindy020506·2025-02-27 11:10

解读CUDA Compiler Driver NVCC - Ch.3

本篇文章了解CUDA源文件编译的整个workflow。

AliceWanderAI·2025-02-27 05:25

NVIDIA CUDA Compiler Driver NVCC

NVIDIACUDACompilerDriverNVCC4.2.8.23.`--list-gpu-code`(`-code-ls`)4.2.8.24.

Yongqiang Cheng·2025-02-27 05:23

安装CUDA以及GPU版本的pytorch

于是搜索便知道了CUDA。下面给出一个自检的建议：检查cuda的版本是否适配自己的GPU。

lskkkkkkkkkkkk·2025-02-26 21:53

DeepSeep开源周，第三天：DeepGEMM是啥？

DeepGEMM通过算法优化、硬件指令集加速和并行计算技术，显著提升计算速度，适用于GPU、CPU等硬件平台。对开发者的用处性能提升优化计算密集型任务（如LLM训练/推理），降低延迟，提升吞吐量。

程序员差不多先生·2025-02-26 19:33

下载cuda11.2+cudnn8.1+tensorflow-gpu2.5

安装cuda11.2和cudnn8.1要注意自己的版本，目前tensorflow-gpu2.5或最高版本tensorflow-gpu2.6只支持cuda11.2和cudnn8.1。

听微雨·2025-02-26 14:03

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)导读本人在Win10下安装深度学习框架Tensorflow

一个处女座的程序猿·2025-02-26 11:43

flash_attn安装

flash_attn安装1.cuda-nvcc安装https://anaconda.org/nvidia/cuda-nvcc2.torch安装#https://pytorch.org/#找到对应cuda

壶小旭·2025-02-26 03:46

【python】flash-attn安装

这个命令：确保使用正确的CUDA12.6工具链设置必要的CUDA环境变量包含了常见的GPU架构支持利用你的128核心进行并行编译#清理之前的安装proxychains4pipuninstall-yflash-attn

x66ccff·2025-02-26 03:43

llama-cpp-python本地部署并使用gpu版本

使用带编译的命令安装llama库#首选GGML_CUDA后续LLAMA_CUBLAS将删除CMAKE_ARGS="-DGGML_CUDA=on"FORCE_CMAKE=1pipinstallllama-cpp-python

i__chen·2025-02-26 02:03

PyNvVideoCodec解码使用

解码视频生成器例子，支持解码视频和视频流try:importtimefromfunctoolsimportwrapsimportcv2importnumpyasnpimportpycuda.driverascudaimportPyNvVideoCodecasnvcimportctypesasCimportosexceptImportErrorase

huomama·2025-02-25 22:11

PaddleOCR环境搭建(记录)

需nvidia下载zlib包即C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\v1

江木27·2025-02-25 21:04

Miniconda配置——conda虚拟环境的日常使用

xMiniconda3-latest-Linux-x86_64.shbashMiniconda3-latest-Linux-x86_64.sh#记住更新PATH到~/.bashrc时选noConda、CUDA

guikunchen·2025-02-25 06:13

RTX 3090图形处理巅峰性能解析

通过对比测试数据与工程原理分析，重点探讨24GBGDDR6X显存在8K分辨率场景下的带宽利用率，以及10496个CUDA核心在光线追踪与深度学习超采样（DLSS）任务中的动态负载分

智能计算研究中心·2025-02-25 03:26

pytorch3d安装记录

pytorch3d/blob/main/INSTALL.md通过pip或conda可以很容易安装上预编译好的包，安装过程不会报错，但是使用的时候就会报各种错误，原因是预编译好的包跟自己的环境不一定匹配，比如CUDA

leo0308·2025-02-24 23:57

ATB概念之：算子tiling

Tiling技术通常用于将大的计算任务分解成更小的块，这些小块可以在内存中更高效地处理，或者更适合并行计算环境。

·2025-02-24 23:48

cap4：YoloV5的TensorRT部署指南（python版）

《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（

我是一个对称矩阵·2025-02-24 21:14

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序

使用Opencv_CUDA模块实现基本计算机视觉程序CUDA提供了出色的接口，发挥GPU的并行计算能力来加速复杂的计算应用程序利用CUDA和Opencv的功能实现计算机视觉应用1.对图像的算术和逻辑运算两个图像相加

明月醉窗台·2025-02-24 18:51

ubuntu多版本cuda如何指定cuda版本

本文作者：slience_meubuntu多版本cuda如何指定cuda版本文章目录ubuntu多版本cuda如何指定cuda版本1.关于cuda设置1.1查看当前安装的CUDA版本1.2下载并安装所需的

slience_me·2025-02-24 15:00

显卡3050ti等安培架构的GPU安装paddlepaddle

3050ti等安培架构的GPU安装paddlepaddle官网原话如果您使用的是安培架构的GPU，推荐使用CUDA11.2如果您使用的是非安培架构的GPU，推荐使用CUDA10.2，性能更优其他配套确定软件版本后

社会闲散人员中的代码爱好者·2025-02-24 14:49

GPU和FPGA的区别

我的理解是，虽然都可以用于并行计算，但是GPU是纯计算的硬件，FPGA是控制+计算的可编程的硬件。FPGA有点像CPU，区别在于，CPU的硬件是固定的，而FPGA的硬件是可编程的。

Florence23·2025-02-24 00:44

Python的那些事第三十篇：并行计算库在大数据分析中的应用Dask

Dask：并行计算库在大数据分析中的应用摘要随着数据量的爆炸性增长，传统的数据分析工具（如Pandas和NumPy）在处理大规模数据集时面临内存限制和计算效率低下的问题。

暮雨哀尘·2025-02-23 13:53

vllm安装及总结

vllm的安装和使用，对torch、cuda、xformers等有较多的版本依赖，过程中有一些曲折，故整理记录如下。

赫连达·2025-02-23 04:19

深入解析C++26 Execution Domain：设计原理与实战应用

一、Domain设计目标与核心价值Domain是C++26执行模型的策略载体，其核心解决两个问题：执行策略泛化：将线程池、CUDA流等异构调度逻辑抽象为统一接口策略组合安全：通过类型隔离避免不同执行域的策略污染

C语言小火车·2025-02-22 15:00

【2024 Dec 超实时】编辑安装llama.cpp并运行llama

以下是可以完美编译llama.cpp的测试工具版本号：gcc9g++9#只要大于等于9版本都集成了cmake是要的c++17指令集，gcc8测试了要手动软链麻烦反正凉cuda11.

AI．愚人自愈·2025-02-22 13:45

YOLOv11快速上手：如何在本地使用TorchServe部署目标检测模型

环境准备在开始之前，确保你的开发环境满足以下要求：Python版本：3.8或以上PyTorch：1.9或以上CUDA：如果使用GPU，加速训练和推理TorchServe：用于模型

SYC_MORE·2025-02-22 07:57

Ubuntu 20.04 安装英伟达显卡驱动 cuda cudnn

1.禁用nouveaulsmod|grepnouveausudogedit/etc/modprobe.d/blacklist.conf添加语句：blacklistnouveauoptionsnouveaumodeset=0sudoupdate-initramfs-usudorebootlsmod|grepnouveau没有任何信息显示，说明nouveau已被禁用，接下来可以安装nvidia的显卡驱

weixin_38679037·2025-02-21 01:19

深入理解DAG任务调度系统：核心原理与实现

1.1背景介绍1.1.1任务调度系统简介任务调度系统是计算机科学中一个重要的研究领域，它主要关注于在并行计算系统

AI天才研究院·2025-02-20 18:25

深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系

想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架

时光旅人01号·2025-02-20 17:46

【CUDA】Pytorch_Extensions

【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？

joker D888·2025-02-20 15:28

本地搭建小型 DeepSeek 并进行微调

1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/

非著名架构师·2025-02-20 15:55

Java平台上的多线程与多核处理研究

Java作为一种广泛使用的编程语言，提供了多线程编程的强大支持，使得开发者能够在多核环境下实现并行计算。

向哆哆·2025-02-20 14:47

auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么

IT修炼家·2025-02-20 12:00

深入浅出：CUDA是什么，如何利用它进行高效并行计算

为了满足这些需求，NVIDIA推出了CUDA（ComputeUnifiedDeviceArchitecture），这是一种并行计算平台和编程模型。

码上飞扬·2025-02-20 03:38

【深度学习pytorch-93】Transformer 相比 RNN 的优势

以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练

华东算法王·2025-02-20 02:04

函数式编程倡导的「不可变数据结构」如何保证性能

这一特点使得函数式编程能够简化并行计算、避免副作用，进而提高程序的可靠性和可维护性。然而，不可变数据结构可能带来的性能问题，例如内存的使用、数据复制的成本等

·2025-02-20 00:53

常用的高性能计算工具有哪些

它通过并行计算和优化算法，

这题有点难度·2025-02-19 21:24

flash_atten库安装失败

1.查询对应版本（cuda，python等），直接下载对应whl文件。地址：https://github.com/Dao-AILab/flash-attention/releases?

心平气和不要慌·2025-02-19 18:02

flash-attention安装教程

安装方法如下：首先搞清楚你的python什么版本，torch什么版本，cuda什么版本，操作系统是什么。

深度求索者·2025-02-19 18:00

QT+FFmpeg如何使用GPU加速解码？

全文目录：问题描述解决方案1.确保FFmpeg和CUDA的支持2.正确选择硬件解码器设置硬件解码器3.初始化CUDA硬件设备4.硬件解码流程解码帧并处理硬件帧5.检查FF

bug菌¹·2025-02-19 17:22

快速在Ubuntu18.04系统中离线部署深度学习环境

一、服务器部署流程1、安装显卡驱动cuda、cudnn#安装gcc和makecd~/dockerDeploy/pool&&sudo./ins

高次超静定的人·2025-02-19 13:46

anaconda，Python，cuda,pytorch 下载安装

以下是Anaconda、Python、CUDA和PyTorch的下载安装步骤：一、Anaconda下载访问Anaconda官方网站：DownloadAnacondaDistribution|Anaconda

三希·2025-02-19 11:29

CUDA学习——Chapter 3（1）流式多处理器（SM）介绍

第三章上一章我们讨论了不同内存布局对核函数性能的影响，这一章我们就从硬件的角度，去探究为什么布局会导致核函数运行的不同。SM简介上一节我们说到deviceProp的时候，不知道会不会有读者有疑惑，为什么突然会提到multiprocessor（多处理器）这个概念，这个概念又是什么？其实这个multiprocessor，就是我们这一篇推文要介绍的SM。先来给大家看看SM的结构：这是Fermi架构下的S

KarK_Li·2025-02-19 08:03

cuda编程入门——并行归约(五)

CUDA编程入门—并行归约（数组求和为例）在并行计算中，归约（Reduction）是一种将多个数据通过特定操作（如求和、求最大值等）合并为单一结果的并行算法。

我不会打代码啊啊·2025-02-19 07:02

推荐频道

CUDA并行计算