GPU 第3页

torch.load

它支持从文件路径或文件对象加载数据，并可以指定设备（CPU或GPU）。

土豆羊626·2025-06-17 16:32

SnapViewer：解决PyTorch官方内存工具卡死问题，实现高效可视化

在深度学习模型训练过程中，GPU内存不足（OutofMemory,OOM）错误是开发者频繁遇到的技术挑战。

·2025-06-17 16:48

【FineDance】训练：accelerate config 的作用

accelerateconfig的作用Accelerate是HuggingFace开发的库，用于简化多GPU、多机器的分布式训练。

等风来不如迎风去·2025-06-17 13:38

【TVM 教程】如何使用 TVM Pass Instrument

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-06-17 12:15

【Triton 教程】triton_language.arange

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

·2025-06-17 12:44

配置VSCode+Anaconda的PyTorch GPU环境笔记

真就是翻遍了整个互联网才终于让PyTorch在我的电脑上支持CUDA了。叠个甲，我是纯菜鸟，说的不对你也别喷，喷了就是你对。网上的教程都太有年代感了，跟着配置就是到处报错，最后配置出来的也是老版本，用着十分膈应（我个人不喜欢老版本的东西），所以想着记录一下我踩过的坑，让大家以后少走点弯路下面直接进入正题：在此之前，你需要自行完成：安装VSCode以及相关插件（汉化，CodeRunner，Pytho

FurryMonster·2025-06-17 12:02

【TVM 教程】如何使用 TVM Pass Infra

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-06-17 11:57

【TVM 教程】如何使用 TVM Pass Instrument

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-06-17 11:56

WordToCard，一键将Markdown内容转换为精美知识卡片（使用Qwen3）

让其帮我写一篇关于如何本地部署开源Qwen的文章内容如下为Markdown格式以下是本地部署开源Qwen3大模型的详细步骤，结合了多篇教程的核心内容，帮助你快速完成部署：一、准备工作硬件要求显卡：建议使用支持CUDA的GPU

程序员猫爪·2025-06-16 22:59

深入探究 Python 领域 vllm 的核心功能_副本

深入探究Python领域vLLM的核心功能：让大模型推理像高铁一样高效关键词：vLLM、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要：大语言模型（LLM）的推理效率一直是工业落地的

Python编程之道·2025-06-16 22:58

C++驱动下的现代图形渲染架构与可编程管线实现

随着GPU演化，现代图形渲染转向可编程管线，开发者通过着色器控制每一个图形阶段。C++作为底层驱动语言，扮演图形引擎的核心角色：控制渲染状态、资源生命周期、图形任务调度。二、现代渲染管线结构图flo

轻口味·2025-06-16 21:53

车载3D HMI人机交互与GPU算力的平衡

然而，车载3DHMI的高交互性与视觉表现要求对计算能力提出了巨大的挑战，尤其是GPU算力的需求。如何平衡3DHMI的算力资源消耗

A阿司匹林·2025-06-16 21:51

鸿蒙开发实战之Image Kit重构美颜相机图像处理管线

一、核心能力突破通过ImageKit实现三大技术革新：硬件加速处理4K图像处理延迟降至16ms（NPU+GPU协同）支持10bitHDR管线（BT.2020色域）AI增强算法实时皮肤质感分析（98%毛孔保留率

·2025-06-16 17:27

RK3568 1U机箱，支持电口光口B码对时，适用于电力、交通等

机箱方案在电力、交通等领域具备高可靠性与多接口支持能力，核心特性如下：一、硬件核心配置‌处理器平台‌：搭载瑞芯微RK3568四核Cortex-A55处理器（主频1.8GHz-2.0GHz），集成Mali-G52GPU

深圳信迈主板定制专家·2025-06-16 17:28

PyTorch 是一个 Python 包，提供两个高级功能：具有强大 GPU 加速的张量计算（如 NumPy）；基于基于磁带的 autograd 系统构建的深度神经网络；

一、软件介绍文末提供程序和源码下载PyTorch是一个Python包，提供两个高级功能：具有强大GPU加速的张量计算（如NumPy）；基于基于磁带的autograd系统构建的深度神经网络；您可以在需要时重复使用自己喜欢的

struggle2025·2025-06-16 16:19

【GPU】使用 pytorch 检测 CUDA 安装是否成功

使用pytorch检测CUDA安装是否成功importtorchimportosos.environ["CUDA_VISIBLE_DEVICES"]="0"print(torch.cuda.device_count())print(torch.cuda.is_available())print(torch.backends.cudnn.is_available())print(torch.cuda

comedate·2025-06-16 15:43

DeepSeek 遭美国攻击宕机，手把手教你本地部署，手机也支持！

低延迟与高性能本地部署减少网络传输延迟，结合硬件优化（如GPU加速），提升实时处理效率。成本可控性长期运营中，大规模调用场景下本地资源成本可能低于云端按需付费模式，尤其适合高频使用企业。离线

MarkGosling·2025-06-16 11:45

鸿蒙开发实战之Function Flow Runtime Kit优化美颜相机AI流水线

一、架构设计突破针对美颜相机复杂的AI处理流程，FunctionFlowRuntimeKit实现三大创新：异构计算流水线CPU+GPU+NPU三端任务自动分配人脸识别→皮肤检测→背景分割→滤镜渲染四阶段并行智能调度策略二

·2025-06-15 23:08

【PyTorch】torchrun：分布式训练的启动和管理命令行工具

它在PyTorch1.10中引入，作为torch.distributed.launch的升级替代品，提供了更简洁的接口、更好的弹性支持和容错能力，适用于单节点多GPU或多节点分布式训练。

彬彬侠·2025-06-15 12:41

Llama 4 群：原生多模态 AI 创新新时代的开始

Llama4Scout拥有170亿个活跃参数，包含16位专家模型，是同类产品中全球最佳的多模态模型，其性能比所有前代Llama模型都更强大，并且仅需单块NVIDIAH100GPU即可运行。

爱分享的小明·2025-06-15 11:04

Python----神经网络发（神经网络发展历程）

池化操作手写数字识别先驱，奠定CNN基础MNISTDemosonYannLeCun'swebsite2012AlexNet首次大规模使用深度卷积神经网络进行图像识别；引入ReLU、Dropout、重叠池化、GPU

蹦蹦跳跳真可爱589·2025-06-14 23:43

Vulkan学习笔记【一】创建窗口与实例

随着移动浪潮到来，人们对移动GPU的要求也越来越高，但以往的图形API不能够进

w还是晒太阳吧·2025-06-14 19:15

speculative decoding: SpecInfer

speculativedecoding学习笔记：speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足

Jay Kay·2025-06-14 12:29

【一】Ollama 简介与安装配置

3.1macOS安装3.2Linux安装3.3Windows安装（通过WSL2）4.环境配置4.1基本配置4.2配置文件示例4.3环境变量设置5.验证安装6.常见问题解决6.1安装失败6.2模型下载失败6.3GPU

·2025-06-14 05:20

使用GpuGeek训练图像分类器：从入门到精通

GpuGeek作为一款新兴的深度学习训练平台，以其强大的GPU加速能力和用户友好的界面，正在改变这一现状。本文将详细介绍如何使用GpuGeek平台

点我头像干啥·2025-06-13 23:07

whisper相关的开源项目 (asr)

faster-whisper使用CTranslate2加速推理，支持CPU/GPU，速度比原版快4倍，内存占用更低。适合需要高效部

code-ranger·2025-06-13 22:31

1分钟让你看懂GPU参数指标

今天，我们以英伟达A800GPU卡为蓝本，深入浅出地探讨其五大核心性能指标。我们的目标是通过这次分享，让大家不仅能够迅速掌握每个参数的具体作用，还能理解它们之间的相互关联。

HPC_fac13052067816·2025-06-13 17:26

大模型多显卡多服务器并行计算方法与实践指南

二、硬件环境准备1.多机多卡环境配置组件要求建议配置GPU支持CUDANVIDIAA100/H100网络高速互联Inf

非著名架构师·2025-06-13 13:27

Hummingbird库：将机器学习模型转换为深度学习模型

引言随着深度学习在各个领域的广泛应用，研究人员和工程师开始探索如何将传统的机器学习模型（如决策树、随机森林等）转换为可以在GPU上高效运行的神经网络模型。

萧鼎·2025-06-13 10:34

c cuda 指定gpu_faiss-gpu近邻检索

环境准备：双路CPU工作站128G内存英伟达1080Ti显卡两块faiss源码包centos7.2+python2.7+anaconda2（环境变量与openblas安装同GPU版）centos7.2+

宁静致远敏·2025-06-13 09:00

《CUDA并行程序设计-GPU编程指南》读书笔记--(2)CUDA内存处理

CPU与GPU架构的一个主要区别就是CPU与GPU映射寄存器的方式。CPU通过使用寄存器重命名和栈来执行多线程。

SigalHu·2025-06-13 09:29

faiss上的GPU流程，GPU与CPU之间的联系

GPU使用流程1、初始化阶段1.1：初始化GPU资源对象目的：为GPU上的操作分配和管理资源，例如临时内存和CUDA流。

·2025-06-13 08:22

英伟达的未来不止 GPU，黄仁勋指向了一个新“Q”

他认为量子计算正迎来一个“拐点”，英伟达已推出CUDA-Q平台，旨在促进量子与经典计算的结合，并预测未来所有超级计算机都将集成量子处理单元（QPU）与图形处理单元（GPU）。

Qforepost·2025-06-13 03:19

边缘AI广泛应用推动并行计算崛起及创新GPU渗透率快速提升

作者：ImaginationTechnologies的产品管理副总裁DennisLaudick人工智能（AI）在边缘计算领域正经历着突飞猛进的高速发展，根据IDC的最新数据，全球边缘计算支出将从2024年的2280亿美元快速增长到2028年的3780亿美元*。这种需求的增长速度，以及在智能制造、智慧城市等数十个行业中越来越多的应用场景中出现的渗透率快速提升，也为执行计算任务的硬件设计以及面对多样化

电子科技圈·2025-06-12 20:25

DeepSeek满血版本地部署指南

一、硬件与操作系统准备1.硬件要求GPU（关键）：最低要求：NVIDIA显卡（RTX3090/4090，显存≥24GB）可运行非量化版。经济方案：RTX306012GB+4-bit量化模型。

三三十二·2025-06-12 18:42

WebGPU渲染引擎架构深度解析：从GPU硬件抽象到高效渲染

一、WebGPU的设计哲学：面向现代GPU的底层抽象WebGPU的核心目标是成为一个“薄而宽”的抽象层：“薄”(LowOverhead)：最小化驱动翻译：与WebGL(基于OpenGLES)不同，WebGPU

·2025-06-12 18:06

海思昇腾/达芬奇架构在 Android 系统中的异构部署：NPU × CPU × GPU 联合调度与模型落地实践全流程解析

海思昇腾/达芬奇架构在Android系统中的异构部署：NPU×CPU×GPU联合调度与模型落地实践全流程解析关键词海思昇腾、达芬奇架构、AndroidNPU部署、NNIE、ACL、异构计算、张量融合、CANN

观熵·2025-06-12 18:05

OpenCV CUDA模块图像变形------对图像进行上采样操作函数pyrUp()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述函数用于对图像进行上采样操作（升采样），是GPU加速版本的高斯金字塔向上采样

村北头的码农·2025-06-12 13:34

【目标检测基础】YOLOv1算法详解：从“一次看全”到实时检测的革命性突破

实时性突破：在GPU上达到45FPS（FasterR-CNN仅为7FPS），首次让实时视频分析成为可能。端到端思维：直接输入图像输出检测

出不了新手村·2025-06-12 09:32

GPU显存占用率过低的解决方案

在训练模型时，有时会出现GPU利用率很低的情况。有可能是CPU读取数据的速度跟不上模型训练的速度，导致GPU处于等待的状态。

myccver·2025-06-12 08:24

百度百舸万卡集群的训练稳定性系统设计和实践

彼时我们不会想到，十年后支撑AI训练的GPU集群会从研究室里的几台服务器，发展成需要专门供电系统的万卡级计算矩阵。

百度Geek说·2025-06-12 02:25

OpenCV CUDA模块图像变形------ 构建仿射变换的映射表函数buildWarpAffineMaps()

这个函数是GPU加速版本，适用于在CUDA环境下进行高性能图像变换处理。函数原型vo

村北头的码农·2025-06-11 22:22

硬件异构环境（如 CPU+GPU 混合）下的任务调度策略，如何最大化资源利用率？

硬件异构环境（CPU+GPU混合）下的任务调度策略体系与资源利用率优化技术（2025版）一、异构计算环境的核心挑战在CPU+GPU混合架构中，最大化资源利用率的本质是解决三类矛盾：硬件能力差异矛盾：CPU

百态老人·2025-06-11 21:17

Hugging Face基础入门

Transformers库全景图HuggingFace与深度学习的融合安装Transformers与Datasets第一个Pipeline程序：一行代码跑大模型在CPU、GPU上运行的区别pipeline

·2025-06-11 21:45

【异构计算架构】CPU/GPU/FPGA混合资源池

异构计算架构：CPU/GPU/FPGA混合资源池一、技术背景及发展二、技术特点三、技术实现细节四、未来发展趋势结语一、技术背景及发展随着摩尔定律逼近物理极限，单一架构的计算芯片已无法满足AI训练、科学计算

沐风—云端行者·2025-06-11 21:43

FPGA × GPU 混合推理系统架构实战：协同执行链设计与性能对比分析

《FPGA×GPU混合推理系统架构实战：协同执行链设计与性能对比分析》关键词FPGA加速、GPU推理、混合部署架构、DPU调度、异构计算、协同执行链、推理任务分配、性能对比分析摘要在实际工程中，单一加速器已难以满足复杂

观熵·2025-06-11 19:34

TensorRT × TVM 联合优化实战：多架构异构平台的统一推理加速与性能调优全流程

TensorRT×TVM联合优化实战：多架构异构平台的统一推理加速与性能调优全流程关键词TensorRT、TVM、异构推理优化、跨平台部署、GPU加速、NPU融合、自动调度、深度学习推理引擎、性能调优摘要在深度学习模型推理部署场景中

观熵·2025-06-11 19:31

安装 DeepLake

安装扩展功能（可选）1.安装GPU支持（加速数据加载和处理）如果你有NVIDIAGPU并希望利用GPU来加速某些操作（例如图像增

燃灯工作室·2025-06-11 19:27

最后生还者2：重制版/美国末日2（更新：v1.4.10515.0636）

更新日志补丁1.4发布说明-v1.4.10515.0636集成NVIDIADLSS4和Transformer模型，用于升级和支持GPU的多帧生成。

AABBCC103·2025-06-11 17:14

云原生周刊：k0s 成为 CNCF 沙箱项目

KubeSphere 云原生·2025-06-11 12:43

推荐频道

GPU

torch.load

SnapViewer：解决PyTorch官方内存工具卡死问题，实现高效可视化

【FineDance】训练：accelerate config 的作用

【TVM 教程】如何使用 TVM Pass Instrument

【Triton 教程】triton_language.arange

配置VSCode+Anaconda的PyTorch GPU环境笔记

【TVM 教程】如何使用 TVM Pass Infra

【TVM 教程】如何使用 TVM Pass Instrument

WordToCard，一键将Markdown内容转换为精美知识卡片（使用Qwen3）

深入探究 Python 领域 vllm 的核心功能_副本

C++驱动下的现代图形渲染架构与可编程管线实现

车载3D HMI人机交互与GPU算力的平衡

鸿蒙开发实战之Image Kit重构美颜相机图像处理管线

RK3568 1U机箱，支持电口光口B码对时，适用于电力、交通等

PyTorch 是一个 Python 包，提供两个高级功能：具有强大 GPU 加速的张量计算（如 NumPy）；基于基于磁带的 autograd 系统构建的深度神经网络；

【GPU】使用 pytorch 检测 CUDA 安装是否成功

DeepSeek 遭美国攻击宕机，手把手教你本地部署，手机也支持！

鸿蒙开发实战之Function Flow Runtime Kit优化美颜相机AI流水线

【PyTorch】torchrun：分布式训练的启动和管理命令行工具

Llama 4 群：原生多模态 AI 创新新时代的开始

Python----神经网络发（神经网络发展历程）

Vulkan学习笔记【一】 创建窗口与实例

speculative decoding: SpecInfer

【一】Ollama 简介与安装配置

使用GpuGeek训练图像分类器：从入门到精通

whisper相关的开源项目 (asr)

1分钟让你看懂GPU参数指标

大模型多显卡多服务器并行计算方法与实践指南

Hummingbird库：将机器学习模型转换为深度学习模型

c cuda 指定gpu_faiss-gpu近邻检索

《CUDA并行程序设计-GPU编程指南》读书笔记--(2)CUDA内存处理

faiss上的GPU流程，GPU与CPU之间的联系

英伟达的未来不止 GPU，黄仁勋指向了一个新“Q”

边缘AI广泛应用推动并行计算崛起及创新GPU渗透率快速提升

DeepSeek满血版本地部署指南

WebGPU渲染引擎架构深度解析：从GPU硬件抽象到高效渲染

海思昇腾/达芬奇架构在 Android 系统中的异构部署：NPU × CPU × GPU 联合调度与模型落地实践全流程解析

OpenCV CUDA模块图像变形------对图像进行上采样操作函数pyrUp()

【目标检测基础】YOLOv1算法详解：从“一次看全”到实时检测的革命性突破

GPU显存占用率过低的解决方案

百度百舸万卡集群的训练稳定性系统设计和实践

OpenCV CUDA模块图像变形------ 构建仿射变换的映射表函数buildWarpAffineMaps()

硬件异构环境（如 CPU+GPU 混合）下的任务调度策略，如何最大化资源利用率？

Hugging Face基础入门

【异构计算架构】CPU/GPU/FPGA混合资源池

FPGA × GPU 混合推理系统架构实战：协同执行链设计与性能对比分析

TensorRT × TVM 联合优化实战：多架构异构平台的统一推理加速与性能调优全流程

安装 DeepLake

最后生还者2：重制版/美国末日2（更新：v1.4.10515.0636）

云原生周刊：k0s 成为 CNCF 沙箱项目

Vulkan学习笔记【一】创建窗口与实例