cuda 第3页

Python 训练营打卡 Day 34

GPU训练与day33采用的CPU训练不同，今天试着让模型在GPU上训练，引入importtime比较两者在运行时间上的差异importtorch#设置GPU设备device=torch.device("cuda

2401_86382089·2025-06-07 17:35

使用deepSeek-8B-Transformers开发本地接口

__version__)#例如2.0.1print(torch.cuda.is_available())#必须返回True#使用HuggingFace（需GPU）model_name="app/utils

技术支持者python，php·2025-06-07 15:52

LLaMA-Factory环境安装-重点总结

在进行一系列的调整，总结如下：想要同时实现FlashAttention-2和Unsloth推理加速的环境安装方式：以Ubuntu22.04RTX409024GB为例：1.系统配置：CUDA版本选择12.2

丁兆海1991·2025-06-07 12:01

【PyTorch】CUDA基础知识

NVIDIACUDA显卡中包含一个GPU，它能够以高度并行化的方式实现矩阵乘法。在很长一段时间，英伟达（NVIDIA）的GPU市场份额一直保持领先。他们有一套成熟的软件工具，可以充分利用硬件加速。

沐兮Krystal·2025-06-07 05:08

SFT实战微调Gemma

1.运行环境搭建：虚拟环境实验要求：python3.10及以上版本pytorch1.12及以上版本，推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境

原味奶茶_三分甜·2025-06-06 22:53

YOLO在QT中的完整训练、验证与部署方案

配置环境：安装必要的软件，包括Python3.x、CUDA（用于GPU加速）、CUDNN

LeonDL168·2025-06-06 15:03

＜记录＞基于pytorch的cifar-10卷积神经网络（CNN）分类

0，开始之前（不使用GPU可以直接跳到第一步）运行环境：win10+py3.7.8+pycharm（可选部分：GPU环境：GTX1660+cuda10.2+cudnn8.1.0）cuda和cudnn简单的说就是两个用于机器学习的包

shc9912·2025-06-06 12:17

OpenCV CUDA模块图像处理------创建CUDA加速的Canny边缘检测器对象createCannyEdgeDetector()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建一个CUDA加速的Canny边缘检测器对象（CannyEdgeDetector

村北头的码农·2025-06-05 15:51

(LLaMa Factory)大模型训练方法--准备模型（Qwen2-0.5B）

风起晨曦·2025-06-04 23:21

python学习打卡day33

DAY33简单的神经网络知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module

vijaycc·2025-06-04 16:59

pytorch的cuda版本依据nvcc --version与nvidia-smi

在安装PyTorch时，CUDA版本的选择需要关注三个关键点，它们的优先级如下：1.nvcc--version（编译时CUDA版本）作用：显示当前安装的CUDAToolkit版本（即编译器nvcc的版本

Raina Chen·2025-06-04 13:04

Python报错：AssertionError: Torch not compiled with CUDA enabled

Python项目运行的时候报错：***其它报错信息***raiseAssertionError("TorchnotcompiledwithCUDAenabled")AssertionError:TorchnotcompiledwithCUDAenabled

漫游者Nova·2025-06-04 10:14

OpenCV CUDA模块图像处理------图像融合函数blendLinear()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数执行线性融合（加权平均）两个图像img1和img2，使用对应的权重图weights1和weights2。融合公式如下：result(x,y)=img1(x,y)⋅weights1(x,y)+img2(x,y)⋅weights2(x,y)result(x,y)

村北头的码农·2025-06-04 09:35

OpenCV CUDA模块图像处理------双边滤波的GPU版本函数bilateralFilter()

函数原型voidcv::cuda::bilateralFilter(InputArraysrc,OutputArraydst,intkernel_size,floatsigma

村北头的码农·2025-06-04 09:34

# 使用 Micromamba 安装 vLLM 并运行最小模型（facebook/opt-125m）

️环境准备系统：UbuntuPython版本：3.10包管理器：MicromambaGPU：NVIDIA（CUDA支持）创建环境并安装vLLM#创建micromamba环境micromambacreate-nvllmpython

老大白菜·2025-06-03 22:14

CUDA内存溢出问题解决方案

这个错误表明你的GPU内存不足，无法分配所需的76MB内存。GTX1660SUPER只有6GB显存，在处理大型深度学习模型时确实容易遇到内存不足的问题。以下是几种解决方案：1.减少批量大小（BatchSize）这是最直接的方法，降低每个批次处理的样本数量：

shangjg3·2025-06-03 16:57

flash_attn_2_cuda undefined symbol ?

关键报错截取：ImportError:/root/miniconda3/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

CCSBRIDGE·2025-06-02 11:34

ImportError: /usr/local/app/.local/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64

情况描述环境：linuxtransformers4.39.0tokenizers0.15.2torch2.1.2+cu121flash-attn2.3.3在使用vllm运行xverse/XVERSE-13B-256K时(代码如下)：qwen_model=AutoModelForSequenceClassification.from_pretrained(args.pre_train,trust_r

Cyril_KI·2025-06-02 11:03

torch.cuda.is_available() is false

torch.cuda.is_available()isfalseafterinstalledcuda9.1.Anyonecanhelpmeout?

努力奋斗-不断进化·2025-06-02 10:58

Ubuntu20.04CUDA及cuDNN安装教程

以下是针对Ubuntu20.04安装CUDA和cuDNN的详细教程，包含版本选择、步骤解释、验证方法及常见问题解决方案：一、安装前的准备1.硬件与系统要求GPU支持：确保你的NVIDIAGPU支持CUDA

吃旺旺雪饼的小男孩·2025-06-02 10:26

cuda10.2对应的pytorch

PyTorch对应的CUDA版本是1.7。换句话说，如果您的计算机上安装了CUDA10.2，您可以使用PyTorch1.7。

三更寒天·2025-06-02 10:25

关于安装Pytorch中torch.cuda.is_available()为False的解决方案

关于安装Pytorch无法调用GPU运算的解决方案之一解决torch.cuda.is_available()返回False原因之一：错下了CPU版本的Pytorch下图为失败案例解决方案解决torch.cuda.is_available

淡水渔人码头丶·2025-06-02 09:24

node-llama-cpp开源程序使用 llama.cpp 的 node.js 绑定在计算机上本地运行 AI 模型。在生成级别的模型输出上强制实施 JSON 架构

二、Features特征RunLLMslocallyonyourmachine在您的机器上本地运行LLMsMetal,CUDAandVulkansupportMetal、CUDA和Vulkan支持Pre-builtb

struggle2025·2025-06-01 21:19

基于python部署paddleocrv5的onnx模型PPOCRv5模型部署源码+onnx模型+使用说明

：支持简体中文、繁体中文、中文拼音、英文和日文识别无需深度学习训练框架，可直接部署使用支持ARM和x86架构高性能推理，识别速度快识别精度与PaddleOCR保持一致2.环境要求Python>=3.8CUDA

FL1623863129·2025-06-01 15:35

第四篇：Python 高级-高性能计算加速秘籍

本篇将深入探讨向量化计算的深度优化以及如何借助CUDA编程与GPU加速来显著提升Python计算效率。

程序员勇哥·2025-06-01 07:11

CUDA 工具链将全面原生支持 Python

根据NVIDIA在2025年GTC大会上的官宣，CUDA工具链将全面原生支持Python编程，这一重大更新旨在降低GPU编程门槛，吸引更广泛的Python开发者进入CUDA生态。

自不量力的A同学·2025-06-01 07:40

ubuntu18.04下cuda10.0安装mmdetction

这里写目录标题复现过程可以用的新版本安装torch安装mmcv重新下载新包，旧的有编译文件，不要用编译跑demo更改类别调用cuda出现的问题数据集更改cuda版本不匹配mmcv版本不匹配踩坑之前的ｌｏｇ

DJ_SIGS·2025-06-01 00:58

Python打卡训练营day36——2025.05.25

importtorchtorch.cudaimporttorch#检查CUDA是否可用iftorch.cuda.is_available():print("CUDA可用！")

莱茵菜苗·2025-05-31 12:59

GPU加速Ollama

以下是通过不同方式实现GPU加速的具体方法：安装CUDA驱动和工具包确保系统已安装NVIDIA驱动和CUDA工具包。

慎思笃行丨·2025-05-30 10:15

OpenCV CUDA模块直方图计算------在 GPU 上计算输入图像的直方图（histogram）函数histEven()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于在GPU上计算输入图像的直方图（histogram）。它将像素值区间均匀划分为若干个bin（桶），并统计每个bin中像素的数量。适用于单通道图像（如灰度图或某个颜色通道）。使用等间距的分箱方式（即“均匀直方图”）。支持8U和32S类型的图像。函数原型vo

村北头的码农·2025-05-30 07:56

查看已安装的cuDNN版本

如果你知道cuDNN的安装位置（通常是CUDA的安装目录），可以使用如下命令查看版本信息：cat/usr/local/cuda/include/cudnn.h|grepCUDNN_MAJOR-A2这个命令会输出类似如下的内容

珊珊而川·2025-05-30 06:21

【深度学习-pytorch篇】1. Pytorch矩阵操作与DataSet创建

Python环境，访问官网下载安装：https://www.anaconda.com/download/success1.2安装PyTorch请根据自己的系统平台（Windows/Linux/macOS）和CUDA

pen-ai·2025-05-30 03:53

Python训练打卡Day33

神经网络的训练知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化

编程有点难·2025-05-29 22:47

CUDA Fortran 使用介绍与资源

CUDAFortran使用介绍与资源CUDAFortran简介CUDAFortran是NVIDIA与PGI(现为NVIDIA所有)合作开发的Fortran语言扩展，允许Fortran程序员直接使用NVIDIAGPU

东北豆子哥·2025-05-29 20:33

Python中使用CUDA/GPU的方式比较

Python中使用CUDA/GPU的方式比较在Python中利用GPU加速计算有多种方式，以下是主要的几种方法及其比较：1.CUDA原生开发方式：使用NVIDIA提供的CUDAC/C++API开发内核通过

东北豆子哥·2025-05-29 19:30

sesame-csm：基于文本和音频的实时语音生成

sesame-csm：基于文本和音频的实时语音生成sesame-csmAConversationalSpeechGenerationModelwithGradioUIandsupportforCUDA,

纪亚钧·2025-05-29 17:15

Python----神经网络（基于ResNet的汽车分类）

np.random.seed(seed)random.seed(seed)torch.manual_seed(seed)os.environ['PYTHONHASHSEED']=str(seed)iftorch.cuda.is_available

蹦蹦跳跳真可爱589·2025-05-29 17:43

flash attention的CUDA编程流水并行加速-V6

之前关于flashattention的介绍可以继续参考链接添加链接描述矩阵乘法的优化参考添加链接描述，我们发现矩阵乘法的最优配置为：BLOCK_DIM_x=BLOCK_DIM_y=16，同时每个线程处理一个8×8的子矩阵。线程网格设置如下所示：constintRq=8;constintRv

谨慎付费（看不懂试读博客不要订阅）·2025-05-29 16:09

服务器配置采集

一、GPU信息收集查看GPU型号和驱动信息nvidia-smi-q>gpu_info.txt（输出会包含GPU型号、显存、驱动版本、温度等信息）查看CUDA版本nvcc--version2>&1|teecuda_version.txt

bloglin99999·2025-05-29 06:24

OpenCV CUDA模块图像处理------颜色空间处理之拜耳模式去马赛克函数demosaicing()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于在GPU上执行拜耳图像（BayerPattern）的去马赛克操作（Demosaicing），将单通道的原始传感器图像转换为三通道的彩色图像（如BGR或RGB格式），是数字图像处理中用于相机图像解码的关键步骤。相机传感器通常只能捕捉一个颜色通道（红、绿、蓝

村北头的码农·2025-05-29 06:53

OpenCV CUDA模块直方图计算------生成一组均匀分布的灰度级函数evenLevels()

函数原型voidcv::cuda::evenLevels(OutputArraylevels,intn

村北头的码农·2025-05-28 17:48

OpenCV CUDA模块图像处理------颜色空间处理之颜色空间转换函数cvtColor()

函数原型voidcv::cuda::cvtColor(InputArraysrc,OutputArraydst,intcode,intdcn=0,Stream&stream=Stream::Nu

村北头的码农·2025-05-28 16:17

day33python打卡

知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化

qq_58459892·2025-05-28 15:06

OpenCV CUDA模块图像处理------颜色空间处理之GPU 上对两张带有 Alpha 通道的图像进行合成操作函数alphaComp()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于在GPU上对两张带有Alpha通道的图像进行合成操作。支持多种常见的Alpha合成模式（Porter-Duff合成规则），例如图像叠加、裁剪、异或等。适用于图像叠加、视频抠像、UI合成等场景，常用于游戏开发、图形渲染、视频特效等领域。函数原型voidcv

村北头的码农·2025-05-28 13:17

零基础入门：MinerU 和 PyTorch、CUDA的关系

一句话总结：MinerU是一个用PyTorch跑模型的程序，PyTorch支持多种加速方式（如CUDA、MPS），让它跑得快就需要依赖这些加速工具。

OpenDataLab·2025-05-28 00:50

OpenCV CUDA模块图像过滤------创建一个行方向的一维积分（Sum）滤波器函数createRowSumFilter()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::cuda::createRowSumFilter是OpenCVCUDA

村北头的码农·2025-05-28 00:19

【Linux】Linux系统中升级CUDA到最新版本

彬彬侠·2025-05-27 20:19

计算网络模型的参数量和计算量

fromthopimportprofileimporttorchdevice=torch.device('cuda')model=IFNet().to(device)input=torch.randn(

sjtu_cjs·2025-05-27 16:24

【图像大模型】Stable Diffusion XL：下一代文本到图像生成模型的技术突破与实践指南

关键技术突破1.2.1双文本编码器融合1.2.2动态扩散调度二、系统架构解析2.1完整生成流程2.2性能指标对比三、实战部署指南3.1环境配置3.2基础推理代码3.3高级控制参数四、典型问题解决方案4.1CUDA

白熊188·2025-05-27 14:43

C++ 读取英伟达显卡名称、架构及算力

C++读取英伟达显卡名称、架构及算力通过CUDARuntimeAPI获取计算能力（推荐）CUDA计算能力（ComputeCapability）的版本号直接对应显卡架构（如8.6=Ampere，9.0=Hopper

明月醉窗台·2025-05-27 02:55

推荐频道

cuda