(GP)GPU 第8页

Python打卡day34！！！

DAY34GPU训练及类的call方法知识点回归：CPU性能的查看：看架构代际、核心数、线程数GPU性能的查看：看显存、看级别、看架构代际GPU训练的方法：数据和模型移动到GPUdevice上类的call

dragon0907·2025-05-26 20:58

python打卡day34@浙大疏锦行

知识点回归：CPU性能的查看：看架构代际、核心数、线程数GPU性能的查看：看显存、看级别、看架构代际GPU训练的方法：数据和模型移动到GPUdevice上类的call方法：为什么定义前向传播时可以直接写作

风逸hhh·2025-05-26 20:26

【TVM 教程】开发环境中加入 microTVM

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-05-26 19:40

英伟达破局1000 Token/秒！Llama 4以光速重塑AI推理边界

Llama4Maverick模型在单节点（8颗BlackwellGPU）上实现每秒1000token的生成速度，这一数字不仅超越了前代Blackwell的基线表现，更让单台服务器（72颗GPU）的吞吐量飙升至

TGITCIC·2025-05-26 17:14

NIPS-2013《Distributed PCA and $k$-Means Clustering》

Christo3·2025-05-26 02:08

深入理解浏览器原理、性能优化和调试调优

一、深入理解浏览器原理1.浏览器整体架构多进程模型：BrowserProcess、RendererProcess、GPUProcess、NetworkProcess浏览器沙箱、隔离机制（SiteIsolation

Mr丶疯孑·2025-05-25 10:55

【HarmonyOS NEXT】FAQ之DevEco Studio(工程管理)

1、环境诊断、创建工程/模块界面全部显示空白A：导致该问题的可能原因为电脑GPU不兼容，或在云桌面的场景下使用DevEcoStudio。

这货就是木子全呀·2025-05-25 10:23

Mac的显卡架构种类

目录一、Intel架构时期的Mac显卡（2006年至2020年）1.Intel集成显卡（iGPU）2.独立显卡（dGPU）——AMD和NVIDIA（1）AMDRadeon（主流独显选择）（2）NVIDIA

王景程·2025-05-25 05:49

ai之pdf解析工具 PPStructure 还是PaddleOCR

目录重点是四先用PPStructure版面分析，分成不同的块儿，再选用PaddleOCR、或PPStructure基础路径OCR模型配置OCR模型配置GPU配置硬件配置性能配置一、框架选型对比分析1.

不懂球的小胖·2025-05-25 02:25

python打卡训练营打卡记录day34

知识点回归：CPU性能的查看：看架构代际、核心数、线程数GPU性能的查看：看显存、看级别、看架构代际GPU训练的方法：数据和模型移动到GPUdevice上类的call方法：为什么定义前向传播时可以直接写作

yorushika_·2025-05-24 19:14

Python打卡训练营学习记录Day34

知识点回归：CPU性能的查看：看架构代际、核心数、线程数GPU性能的查看：看显存、看级别、看架构代际GPU训练的方法：数据和模型移动到GPUdevice上类的call方法：为什么定义前向传播时可以直接写作

FanfanPyt·2025-05-24 13:06

facebook开源Triton编写GPU内核的编程模型速读：KernelLLM

KernelLLM一、引言KernelLLM是一个基于Llama3.1Instruct的大型语言模型，专为使用Triton编写GPU内核的任务而训练。

Open-source-AI·2025-05-24 13:06

PyTorch性能调优实战：从算子优化到分布式训练全攻略

一、自定义层的CUDA优化：榨取GPU极限算力PyTorch原生算子在复杂计算场景

灏瀚星空·2025-05-24 08:58

NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】

现在，开发者能够基于NVIDIAGPU，使用NVIDIATensorRT-LLM、Ollama、SGLang、vLL

u013250861·2025-05-24 05:39

Bert-VITS-2 效果挺好的声音克隆工具

教程地址：sjjCodeWithGPU|能复现才是好算法CodeWithGPU|GitHubAI算法复现社区，能复现才是好算法https://www.codewithgpu.com/i/fishaudio

java_lilin·2025-05-24 05:03

WebGL基本概念

它通过JavaScript与GPU交互，实现高性能的图形渲染。(2)WebGL的核心组件Canvas：WebGL的渲染目标，通过元素创建。

香蕉可乐荷包蛋·2025-05-24 04:58

C#编写双色球选号程序-双色球类的创建

//实体类：双色球号码,球有多个，则需要用List保存双色球的号码，双色球号码是stringpublicListRedBalls{get;set;}//设置List类，保存双色球号码publicListBlueBalls

学编程的小白狼·2025-05-23 15:31

Dify+RAGFlow企业级智能知识库：PDF表格秒变结构化数据，检索精准度大幅提升！

Dify与RAGFlow结合部署本地知识库并提升检索准确率的详细教程及原理分析：一、环境准备与部署架构硬件要求：CPU≥4核（推荐支持AVX指令集）内存≥16GB磁盘≥50GB（用于存储向量索引）GPU

AI大模型-王哥·2025-05-23 15:26

【第15章：量子深度学习与未来趋势—15.2 量子深度学习模型的基础理论与实现方法探索】

今天AI领域正面临类似的困境——GPT-4训练需要消耗1.7万个NVIDIAA100GPU运行3个月，能耗相当于300个家庭一年的用电量。

再见孙悟空_·2025-05-23 07:37

GPU集群的“碳中和”策略：从DVFS调频到液冷散热系统的能效模型

引言在超算中心年均能耗突破百万度电的背景下（典型规模的1000节点GPU集群年耗电约2.5亿度，≈CNY1.8亿元），实现能耗优化已成为各国超算中心的核心任务。

学术猿之吻·2025-05-23 05:22

从零构建神经网络：PyTorch的nn.Module详解

nn.Module是PyTorch中所有神经网络模型的基类，它提供了以下核心功能：‌模块化设计‌：将网络拆分为可重用的层（如卷积层、全连接层）‌自动参数管理‌：自动跟踪所有可训练参数（parameters()方法）‌GPU

小诸葛IT课堂·2025-05-23 03:39

RISC-V 开发板经验

RISC-V的发展，但是很无奈，之前上市的RISC-V开发板，要么天价，要么是超低配，性能拉跨，然后2022年偶然看到了国产visionfive2板子的预售，jh7110，4核risc-v1.5ghz，而且配了GPU

遥遥领先0316·2025-05-23 00:20

PaddleOCR部署本机识别票据

####说明由于YOLO和PaddleOCR无法同时使用GPU加速,使用RT-D

嚛熙·2025-05-22 15:30

项目中Warmup耗时高该如何操作处理

1）项目中Warmup耗时高该如何操作处理2）如何在卸载资源后Untracked和Other的内存都回收3）总Triangles的值是否包含了通过GPUInstancing画的三角形4）有没有用Lua来修复虚幻引擎中对

UWA·2025-05-22 12:42

opencv_version_win32

执行opencv_version_win32.exe因为显卡较老2060super,NVIDIAGPUarch:758086878990。至于更高的反本没有显卡因此不知道。

kmblack1·2025-05-22 07:34

如何设置FFmpeg进行高分辨率视频转码？

要使用FFmpeg进行高分辨率视频转码，可以参考以下步骤：1.检查FFmpeg是否支持GPU加速首先，确保你的FFmpeg安装支持GPU加速。

视频砖家·2025-05-22 06:24

【AI论文】PRIMA.CPP：在低资源日常家用集群上加速700亿参数级大型语言模型推理

虽然消费类硬件越来越强大，模型量化也在不断改进，但现有的端侧解决方案仍然需要GPU集群、大RAM/VRAM和高带宽，远远超出了普通家庭集群的处理能力。

东临碣石82·2025-05-22 04:15

window 显示驱动开发-准备 DMA 缓冲区

当GPU处理DMA缓冲区时，通常调用显示微型端口驱动程序来准备下一个DMA缓冲区，以便提交到GPU。

程序员王马·2025-05-21 23:07

一看就会系列之配置Anaconda虚拟环境、配置GPU、CUDA、CUDNN、服务器运行深度学习代码！

深度学习GPU环境配置完整指南1.使用Anaconda创建虚拟环境并安装PyTorch/TensorFlow(Windows/Linux)Windows下：创建虚拟环境：打开AnacondaPrompt

Big__Star·2025-05-21 20:15

gem5-gpu教程第十一章梳理代码找到

cdgem5python3`whichscons`build/X86_VI_hammer_GPU/gem5.opt--default=X86EXTRAS=../gem5-`gpu/src:..

事橙1999·2025-05-21 13:28

gem5-gpu教程如何运行VSCode

launch.json{"version":"0.2.0","configurations":[{"name":"Debuggem5","type":"cppdbg"

事橙1999·2025-05-21 13:28

paddle ocr本地化部署进行文字识别

2.核心特点全场景覆盖：支持云端、边缘端、移动端等多硬件环境，适配CPU、GPU、FPGA等多种芯片。易用性与高效性：提供简洁的AP

隐形喷火龙·2025-05-21 11:45

【NLP】37. NLP中的众包

众包的智慧：当“无数人”帮你训练AI当我们谈论构建大语言模型时，脑海中浮现的往往是服务器、GPU和Transformer，而很少想到成千上万的普通人也在默默贡献力量。

pen-ai·2025-05-21 03:27

昇腾torch.multiprocessing.spawn分布式训练使用pytorch迁移

假设你的程序程序基于torch.multiprocessing.spawn来启动：deflaunch_job(cfg,init_method,func,daemon=False):ifcfg.NUM_GPUS

duoyasong5907·2025-05-21 02:54

基于JAX的自动微分系统优化：从XLA编译到GPU代码生成（对比JAX与PyTorch的算子融合策略差异）

点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。一、自动微分系统的核心挑战与优化方向在深度学习框架的设计中，自动微分（AutomaticDifferentiation,AD）与计算图优化是决定训练效率的核心环节。JAX与PyTorch作为当前两大主流框架，分别采用不同的技术路径实现AD系统优化。JAX基于XLA编译器与函数式编

九章云极AladdinEdu·2025-05-21 00:10

多节点多 GPU：大规模使用 NVIDIA cuFFTMp FFT

借助cuFFTMp，NVIDIA现在不仅支持单个系统中的多个GPU，还支持跨多个节点的多个

技术瘾君子1573·2025-05-20 23:05

【AI】YOLOv7部署在NVIDIA Jetson TX2上

算法，好神奇啊，比如MCUNet1.2CPUCentralProcessingUnit，中央处理器一般的框架都有CPU版本，当然速度会慢一些，在x86电脑上勉强能用，在嵌入式ARM板上几乎无法使用1.3GPUGraphicsProcessingUnit

郭老二·2025-05-20 21:21

TensorRT-LLM——优化大型语言模型推理以实现最大性能的综合指南

TensorRT-LLM提供了一系列令人印象深刻的性能改进，例如量化、内核融合、动态批处理和多GPU支持。这些改进使推理速度比传统的基于CPU的方法快8倍，从而改变了

知来者逆·2025-05-20 16:21

从零开始学习three.js（18）：一文详解three.js中的着色器Shader

通过编写自定义的着色器代码，开发者可以直接操作GPU，实现从基础颜色渲染到动态光照、粒子效果等高级图形技术。

前端小崔·2025-05-20 14:37

OpenCV CUDA模块中的矩阵算术运算------创建卷积操作对象的工厂方法 cv::cuda::createConvolution

它返回一个指向cv::cuda::Convolution接口的智能指针（cv::Ptr），该接口可以执行高效的GPU卷积操作。函数原型cv::Ptrcv::cuda:

村北头的码农·2025-05-20 13:33

LLaMA-Factory微调大模型Qwen2.5

1、开始ModelScope社区GPU环境训练或微调模型都是非常耗费算力的。如果电脑的配置不高，可使用一些云服务器来做这项工作。

will.hu·2025-05-20 12:57

bisheng大模型项目之前期部署工作

最低配置8vCPU，32GB内存注意GPU要选择A10，v100，T4的都行。这里的Driver版本要高于515.

O执O·2025-05-20 06:19

kitty终端使用笔记

简介kitty是一个免费的开源图形处理单元(GPU)加速[2][3]终端仿真器，适用于Linux和macOS，专注于性能和功能。

ITKEY_·2025-05-20 00:36

【已解决】win11笔记本电脑突然无法检测到其他显示器 / 无法使用扩展屏(2024.8.29 / 驱动更新问题)

我们点击win+x，找到设备管理器，查看显示适配器：主要问题就出现在NVIDIAGeForceRTX3060LaptopGPU上（虽然我把所有驱动都重新更新了一遍）。

秀秀_heo·2025-05-19 19:59

win10使用清华源快速安装指定版本的pytorch-GPU

检查自己的cuda是否安装好在anacondaprompt中输入nvcc-V显示如上面表示安装好了。配置清华园下载环境同样在在anacondaprompt中输入condaconfig--addchannelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/condaconfig--addchannelshttps://mirror

来自星星的菜鸟·2025-05-19 19:57

本地安装gpu版本torch（超简单）

1）创建并激活环境condacreate-nDOT1python==3.9condaactivateDOT12）方法1：命令行安装torch①查看cuda版本【12.6】nvidia-smi#查看电脑支持的cuda版本nvcc-V#查看安装的cuda版本②去pytorch官网找命令pytorch官网PyTorch③直接输入图中命令：pip3installtorchtorchvisiontorcha

✧٩(ˊωˋ*)و✧709·2025-05-19 19:56

docker 方式运行ollama 大模型deepseek

在Linux上对于NvidiaGPU，Ollama可以在Docker容器内通过GPU加速运行。要开始使用Docker镜像，请使用以下命令。

neter.asia·2025-05-19 19:55

Torch GPU版本的安装

*不需要单独安装巨大的CUDA安装包，先确保你的显卡是支持GPU运算的，再安装好anaconda确保没有安装：pytorchtorchvisiontorchaudio这三个模块然后在anaconda中的命令行输入

COOKER·2025-05-19 18:53

如何设置FFmpeg实现对高分辨率视频进行转码

使用FFmpeg进行高分辨率视频转码的步骤如下：首先，确保FFmpeg支持GPU加速，通过命令ffmpeg-hwaccels检查CUDA支持。

视频砖家·2025-05-19 16:39

【图像生成大模型】HunyuanVideo：大规模视频生成模型的系统性框架

项目概述核心技术1.统一的图像和视频生成架构2.多模态大语言模型（MLLM）文本编码器3.3DVAE4.提示重写（PromptRewrite）项目运行方式与执行步骤1.环境准备2.安装依赖3.下载预训练模型4.单GPU

白熊188·2025-05-19 13:17

推荐频道

(GP)GPU

Python打卡day34！！！

python打卡day34@浙大疏锦行

【TVM 教程】开发环境中加入 microTVM

英伟达破局1000 Token/秒！Llama 4以光速重塑AI推理边界

NIPS-2013《Distributed PCA and $k$-Means Clustering》

深入理解浏览器原理、性能优化和调试调优

【HarmonyOS NEXT】FAQ之DevEco Studio(工程管理)

Mac的显卡架构种类

ai之pdf解析工具 PPStructure 还是PaddleOCR

python打卡训练营打卡记录day34

Python打卡训练营学习记录Day34

facebook开源Triton编写GPU内核的编程模型速读：KernelLLM

PyTorch性能调优实战：从算子优化到分布式训练全攻略

NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】

Bert-VITS-2 效果挺好的声音克隆工具

WebGL基本概念

C#编写双色球选号程序-双色球类的创建

Dify+RAGFlow企业级智能知识库：PDF表格秒变结构化数据，检索精准度大幅提升！

【第15章：量子深度学习与未来趋势—15.2 量子深度学习模型的基础理论与实现方法探索】

GPU集群的“碳中和”策略：从DVFS调频到液冷散热系统的能效模型

从零构建神经网络：PyTorch的nn.Module详解

RISC-V 开发板经验

PaddleOCR部署本机识别票据

项目中Warmup耗时高该如何操作处理

opencv_version_win32

如何设置FFmpeg进行高分辨率视频转码？

【AI论文】PRIMA.CPP：在低资源日常家用集群上加速700亿参数级大型语言模型推理

window 显示驱动开发-准备 DMA 缓冲区

一看就会系列之配置Anaconda虚拟环境、配置GPU、CUDA、CUDNN、服务器运行深度学习代码！

gem5-gpu教程 第十一章 梳理代码 找到

gem5-gpu教程 如何运行VSCode

paddle ocr本地化部署进行文字识别

【NLP】37. NLP中的众包

昇腾torch.multiprocessing.spawn分布式训练使用pytorch迁移

基于JAX的自动微分系统优化：从XLA编译到GPU代码生成（对比JAX与PyTorch的算子融合策略差异）

多节点多 GPU：大规模使用 NVIDIA cuFFTMp FFT

【AI】YOLOv7部署在NVIDIA Jetson TX2上

TensorRT-LLM——优化大型语言模型推理以实现最大性能的综合指南

从零开始学习three.js（18）：一文详解three.js中的着色器Shader

OpenCV CUDA模块中的矩阵算术运算------创建卷积操作对象的工厂方法 cv::cuda::createConvolution

LLaMA-Factory微调大模型Qwen2.5

bisheng大模型项目之前期部署工作

kitty终端使用笔记

【已解决】win11笔记本电脑突然无法检测到其他显示器 / 无法使用扩展屏(2024.8.29 / 驱动更新问题)

win10使用清华源快速安装指定版本的pytorch-GPU

本地安装gpu版本torch（超简单）

docker 方式运行ollama 大模型deepseek

Torch GPU版本的安装

如何设置FFmpeg实现对高分辨率视频进行转码

【图像生成大模型】HunyuanVideo：大规模视频生成模型的系统性框架

gem5-gpu教程第十一章梳理代码找到

gem5-gpu教程如何运行VSCode