CUDA杂记第9页

使用Ollama部署deepseek大模型

使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama官方版:https

小陈运维·2025-04-14 20:19

CUDA 安装教程

安装教程主要针对Linux(Ubuntu20.04)一、使用Docker镜像（推荐）打包好的cuda镜像https://hub.docker.com/r/nvidia/cudahttps://catalog.ngc.nvidia.com

知行学思·2025-04-14 12:01

【创建一个YOLO免环境训练包】

核心思路：使用PyTorch预编译版本:利用PyTorch官方提供的预编译包，它包含了CUDA动态库，从而避免了用户单独安装CUDAToolkit。

TIF星空·2025-04-14 08:33

Opencv使用cuda实现图像处理

__}forpythoninstalledandworking')image=cv2.imread('bus.jpg')ifimageisNone:print("无法加载图像1")print(cv2.cuda.getCudaEnabledDeviceCount

蔡余申·2025-04-14 07:30

NVIDIA Jetson AGX Xavier DeepSort tensorRT部署和加速 C++版

版本介绍：tensorrtx；Jetpack4.5[L4T32.5.0]、CUDA:10.2.89。Deepsort的原理参考我这篇文章：【论文解读】Sort、Deep-Sort多目

一颗小树x·2025-04-14 07:59

DeepSpeed多卡训练问题梳理

环境背景内网centos8.3_x86_64环境gcc版本8.3.1python版本3.8nvidia驱动对应cuda版本为11.6（通过nvida-smi可以获取）cudatoolkit版本为11.3

1lI·2025-04-13 11:51

没有CUDA的GPU可以部署Deepseek

有很多国产GPU支持DeepSeek，以下是一些典型代表：1.景嘉微JM系列：适配了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B模型。景宏系列：全面兼容DeepSeekR1全系列模型，覆盖从1.5B至70B参数规模的LLaMA及千问模型架构。2.摩尔线程MTTS80、MTTS4000显卡：可进行DeepSeek-R1蒸馏模型的推

gzgenius·2025-04-13 09:05

Jetson安装pycuda报错

在Xaviernx上安装cuda和pycuda遇到的问题记录：①.src/cpp/cuda.hpp:14:18:fatalerror:cuda.h:Nosuchfileordirectory因为是arm

GZKPeng·2025-04-12 21:47

安装vllm

ubuntu22.04,RTX3080,cuda12.1,cudnn8.9.7，cuda和cudnn的安装参考：https://blog.csdn.net/m0_52111823/article/details

m0_52111823·2025-04-12 05:00

Windows编译Flash-attention模块

博主的环境配置：windows11操作系统，cuda=11.8.r11.8,cudnn=8.9.7,git=2.47.1，cmake=4.0.0-rc4，ninja=1.12.1,vs_buildTools

m0_52111823·2025-04-12 05:59

ubuntu 22.04配置cuda和cudnn

cuda：12.1wgethttps://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02

m0_52111823·2025-04-12 05:27

【杂记六】安装miniconda后，如何去除terminal的base

禁用基本环境的自动激活的步骤打开终端：打开终端窗口。运行配置命令：执行以下命令，关闭基础环境的自动激活功能。condaconfig--setauto_activate_basefalse验证更改：关闭并重新打开您的终端以确保更改生效。这解释condaconfig--setauto_activate_basefalse：此命令修改Miniconda配置，以防止在打开新的终端会话时自动激活基本环境。其

挪威的深林·2025-04-11 20:36

硬件层次结构并行情况

内部的并行性二、Warp之间的并行性三、SM内部的并行性四、SM之间的并行性总结前言从将抽象概念线程层次结构装载到具象的硬件层次结构的角度来思考和记忆一、Warp内部的并行性并行级别：最高并行策略：Warp是CUDA

Mundaneman·2025-04-11 16:04

NLP实践:pytorch 实现基于LSTM的预训练模型以及词性分类任务

环境版本配置1:CUDA版本:Cudacompilationtools,release11.8,V11.8.89在cmd中用以下指令查看nvcc-V**2:cudnn版本:**8700importtorch

某科学の憨憨·2025-04-11 06:29

Ubuntu22.04安装YOLOv5,anaconda,cuda,pycharm步骤

而且大多数都是英文，真nm服了,为了以后的打工牛，少走弯路，我就想着做一个步骤一.先准备准备（在主目录下）因为看教程时总是纠结安装的路径，之前看教程总是先安装anaconda，然后我就有点懵，这次我直接在主目录下安装cuda

小白开始进步·2025-04-11 02:03

【深度学习基础】PyCharm anaconda PYTorch python CUDA cuDNN 环境配置

这里写目录标题PyCharm安装anaconda安装PYTorch安装确定python版本CUDA安装cuDNN安装检验环境是否配置成功参照：PyCharm安装官网下载anaconda安装官网下载：https

叫我东方小巴黎·2025-04-10 22:06

科技快讯 | 阿里云百炼MCP服务上线；英伟达官宣：CUDA 工具链将全面原生支持 Python

英伟达官宣：CUDA工具链将全面原生支持PythonGTC2025大会上，

最新科技快讯·2025-04-10 16:35

opencv编译问题（NVIDIA cuda安装和cudNN)

因项目需要，需要编译一个带cuda版本opencv的库，碰到的问题如下汇总：驱动安装我的设备时NVIDIAGeForceRTX4060Ti官网选择显卡驱动https://www.nvidia.cn/drivers

俄城杜小帅·2025-04-10 12:03

vLLM实战：多机多卡大模型分布式推理部署全流程指南

1.环境准备与基础配置1.1系统要求依赖组件：#基础工具安装sudoapt-getinstall-ylsofgit-lfsnvidia-cuda-toolkit1.2虚拟环境配置使用conda创建隔离环境

SYC_MORE·2025-04-10 09:12

from pytorch3d import _C ImportError: libcudart.so.10.1: cannot open shared object file: No such fil

frompytorch3dimport_CImportError:libcudart.so.10.1:cannotopensharedobjectfile:Nosuchfil问题描述解决方案：问题描述frompytorch3dimport_C

旋转的油纸伞·2025-04-10 08:08

在Python中使用GPU进行并行计算的方法

在Python中使用GPU进行计算通常涉及到一些特定的库，如NumPy、SciPy的GPU加速版本（如CuPy、PyCUDA等）或深度学习库（如TensorFlow、PyTorch等）。

互联网架构小马·2025-04-10 02:29

手把手教你在 Windows10 本地部署 ChatGLM

✅一、部署准备1.1硬件要求操作系统：Windows10显卡：建议使用支持CUDA的NVIDIA显卡（如RTX3060以

annus mirabilis·2025-04-09 22:59

五分钟使用ollama部署本地大模型

ollama对于环境的要求，需要python3.8及以上的版本，如果需要使用GPU进行加速，还需要nNAVIDIA显卡和CUDA驱动。2、ollama安装本次分享基于linux系统操作，其他系统按

知其_所以然·2025-04-09 19:38

Ubuntu 16.04 + CUDA 8.0 + cuDNN v5.1 + TensorFlow(GPU support)安装配置详解

转载：https://www.cnblogs.com/wangduo/p/7383989.htmlUbuntu16.04+CUDA8.0+cuDNNv5.1+TensorFlow(GPUsupport)

caiexu·2025-04-08 04:55

关于 CUDA 的一些名词解释

显卡GPU显卡是硬件设备，也就是GPU，主要用于图形计算和高性能并行计算任务，目前尤其指NVIDIA公司生产的GPU系列。显卡驱动NVIDIADriver显卡（GPU）是硬件，需要操作系统识别到它，因此就需要显卡驱动。驱动程序是软件，用于在操作系统和硬件之间进行通信。显卡驱动（如NVIDIADriver）使系统能够识别和正确使用显卡的计算能力。例如你安装了NVIDIARTX3090显卡后，需要安装

皮卡兔子屋·2025-04-08 01:10

DeepSeek开源库DeepGEMM 性能测评

用CUDA编写，安装时无需编译，通过轻量级即时（JIT）模块在运行时编译所有内核。目前仅支持NVIDIAHopper张量核心，采用CUDA核心两级积累（提升）解决FP8张量核心积累不精确问题。

ZVAyIVqt0UFji·2025-04-08 00:30

关于funasr模型api调用

使用PYTHONAPI.PY即可启动sensevoice的API服务具体代码如下：#Setthedevicewithenvironment,defaultiscuda:0#exportSENSEVOICE_DEV

ddyzqddwb·2025-04-07 13:24

显卡、显卡驱动、cuda、cuDNN之间关系

显卡、显卡驱动、CUDA和cuDNN是构成高性能计算和深度学习环境的关键组件，它们之间有着紧密的联系。

ergevv·2025-04-07 08:54

llama.cpp 和 vLLM 的详细对比分析

设计目标轻量化边缘计算，突破硬件限制（如手机/树莓派）企业级高性能推理，优化GPU吞吐量和显存管理技术栈C++实现，支持多级量化（1.5-bit到8-bit）和跨平台指令集优化（ARM/x86/Apple）Python/CUDA

MC数据局·2025-04-06 23:53

Jetson orin nano（4GB--CLB套件）的烧录以及部署YoloV5与Deepstream的流程，同时分享一些实用软件。

blog.csdn.net/jam12315/article/details/130264074Jetson：jetsonorinnano（4GB）Jetpack：5.1.3Deepstream：6.3CUDA

ZJS-Dp·2025-04-06 14:58

CUDA学习--体验GPU性能

学习来源：2CUDAPython--并行计算基础-卷积计算以及共享内存_哔哩哔哩_bilibili处理一张图片的处理速度对比importcv2fromnumbaimportcudaimporttimeimportmath

停走的风·2025-04-06 13:23

jetson orin nano学习(torch+OpenCV+yolov5+)

一：入门第一件事：跟着商家教程配置哈哈指令：nvidia-smi-h帮助命令sudojtop--查看nvidia的gpu状态Tip:教程下载的pytorth,cuda,cudnn版本不一定是你项目符合的

停走的风·2025-04-06 13:22

OpenGL(三)着色器语言GLSL

类似于CUDA，但是又没有CUDA通用，又有点像Verilog这种硬件描述语言GLSL是一种着色器语言，需要有对应的图形API环境配合，可以使用OpenGL，也可以使用OpenGLES，也可以使用WebGL

战术摸鱼大师·2025-04-06 09:53

GPU编程实战指南04：CUDA编程示例，使用共享内存优化性能

在CUDA编程中，共享内存（SharedMemory）比全局内存（GlobalMemory）效率高的原因主要与CUDA的硬件架构和内存访问特性密切相关。

anda0109·2025-04-06 07:10

【Cuda 编程思想】CUDA线程执行原理

CUDA线程执行原理CUDA的线程执行原理是理解GPU并行计算的基础。

Mr.Lee jack·2025-04-06 04:51

解决：CUDA error: no kernel image is available for execution on the device CUDA kernel errors

这个错误表明CUDA设备（GPU）无法执行当前的PyTorch操作，通常是因为PyTorch版本与CUDA驱动不兼容，或者GPU计算能力不被支持。

Dawn³·2025-04-05 23:13

下载 MindSpore &配置 PyTorch环境

环境的详细步骤，适用于常见的Linux/Windows系统（以NVIDIAGPU为例）：一、环境准备1.硬件与软件检查GPU支持：确保使用NVIDIA显卡，通过nvidia-smi查看驱动版本和最高支持的CUDA

Dawn³·2025-04-05 23:13

gather算子的CUDA编程和算子测试

知乎介绍参考添加链接描述完整测试框架参考本人仓库添加链接描述gather算子的onnx定义参考添加链接描述，该算子的主要变换参考下图：这里我们不妨以input=[A,dimsize,D]，indices=[B,C],axis=1举例子，此时对应的output形状是[A,B,C,D]，并且根据gather算子定义，我们知道output[i,j,k,s]=input[i,indices[j,k],s]

谨慎付费（看不懂试读博客不要订阅）·2025-04-05 04:42

signature=e3020ad5caa17ee07f1f9c55b406f82e,yarn-error.log

\nodejs\node.exeD:\ProgramFiles(x86)\Yarn\bin\yarn.jsPATH:C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA

河马和荷花·2025-04-04 22:34

如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理，并开启api服务

问题描述：如何在本地部署魔搭上千问Qwen2.5-VL-32B-Instruct-AWQ模型在显卡1上面运行推理，并开启api服务解决方案：1.环境准备硬件要求显卡1（显存需≥48GB，推荐≥64GB）CUDA11.7

玩人工智能的辣条哥·2025-04-04 19:15

MMDetection3D的安装问题，报错缺失libtorch_cuda_cu.so文件

前言这个系列是记录我个人在学习过程中，遇到的一些问题，并记录我成功的方法，真实有效MMDetecion3D本身的安装文档非常不利好于新人，所以在此记录了我遇到的坑与解决办法使用平台i7-12700k4070tiubuntu20.04conda虚拟环境中，python=3.8遇到的问题根据官方文档操作，前面全部安装成功，包括MMDetction3D也显示安装成功，但是仍然在运行他给出的demo：py

V10LET_Yan·2025-04-03 22:51

RWKV state tuning 微调教程

开始之前，请确保你拥有一个Linux工作区，以及支持CUDA的NV

RWKV元始智能·2025-04-03 07:15

nvidia 各 GPU 架构匹配的 CUDA arch 和 CUDA gencode

使用NVCC进行编译cudac(.cu)时，arch标志(-arch)指定了CUDA文件将为其编译的NVIDIAGPU架构的名称。

哦豁灬·2025-04-02 20:33

Ubuntu16.04+Anaconda+Cuda9.0+cudnn7.0+Tensorflow+Pytorch 深度学习环境配置

Ubuntu16.04+Anaconda+Cuda9.0+cudnn7.0+Tensorflow+PytorchUbuntu16.04（win10双系统）下载下载地址：https://www.ubuntu.com

yangtf07·2025-04-02 12:37

Conda虚拟环境中CUDA、cudnn、pytorch安装

层级结构：|cudnn||CUDA=DRIVER驱动+动态链接库||显卡驱动||显卡|一个电脑只需要装一个完整的CUDA（即DRIVER+动态链接库）。

m0_62118546·2025-04-02 11:04

轻松上手：CUDA 11.4、cuDNN 与 Pytorch 一站式安装指南

轻松上手：CUDA11.4、cuDNN与Pytorch一站式安装指南CUDA11.4CUDNNPytorch安装项目地址:https://gitcode.com/Resource-Bundle-Collection

松南友Trina·2025-04-02 11:33

【LLM】Llama Factory：Windows部署全流程

（二）部署流程硬件准备驱动安装环境管理框架部署功能验证二、Nvidia驱动部署（硬件适配层）（一）必要性说明功能支撑：激活GPU的CUDA计算能力，为后续PyTorch框架提供硬件

T0uken·2025-04-02 09:49

print(torch.cuda.is_available())输出为False

print(torch.cuda.is_available())输出为False此时已根据自己需要的版本安装好CUDA、pytorch、CuDNN等。

筱文rr·2025-04-02 06:29

CUDA专题8—CUDA L2缓存完全指南：从持久化策略到性能优化实战

1.设备内存L2缓存访问管理当CUDA内核反复访问全局内存中的某个数据区域时，此类数据访问可视为持久化(persisting)访问。反之，若数据仅被访问一次，则可视为流式(streaming)访问。

AI专题精讲·2025-04-02 04:17

CUDA的L2缓存

理解当一个cudakernel重复的获取一个globalmemory数据的时候,可以认为这种数据访问是持久的。如果一个数据只访问一次，那么这个数据被认为"过客"。

s.feng·2025-04-01 23:31

推荐频道

CUDA杂记