Gpu

CUDA专题3：为什么GPU能改变计算？深度剖析架构、CUDA®与可扩展编程

1.简介1.1.使用GPU的优势图形处理器（GPU）在相近的成本和功耗范围内，能够提供比中央处理器（CPU）更高的指令吞吐量和内存带宽。

AI专题精讲·2025-03-29 20:22

深度学习 Deep Learning 第12章深度学习的主流应用

本章强调了硬件和软件基础设施的重要性，特别是GPU在加速神经网络训练中的关键作用。此外，还讨论了模型压缩、动态结构以及专用硬件实现等策略，以提高模型的效率和性能。

odoo中国·2025-03-29 20:21

Ubuntu LLaMA-Factory实战

一、UbuntuLLaMA-Factory实战安装：CUDA安装CUDA是由NVIDIA创建的一个并行计算平台和编程模型，它让开发者可以使用NVIDIA的GPU进行高性能的并行计算。

张3蜂·2025-03-29 19:20

TensorFlow 深度学习框架详解

核心特点：跨平台支持：可在CPU/GPU/TPU上运行多语言接口：原生支持Python，通过API支持JS/Java/C++生态丰富：集成Keras、TF-Lite、TFX等工具链2.核心概念解析2.1

奶油话梅糖·2025-03-29 17:34

Windows 图形显示驱动开发-WDDM 2.7功能-MCDM KM 驱动程序实现指南（二）

主机调节，则还必须提供指向以下函数的指针：DxgkDdiMapCpuHostApertureDxgkDdiUnmapCpuHostApertureCPU主机调节CPU主机孔径对于32位OS离散图形处理单元(GPU

程序员王马·2025-03-29 10:16

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（七）

设置主机和VM在PowerShell中运行以下命令，使用GPU创建VM。创建名为TEST的VM。

程序员王马·2025-03-29 10:16

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（八）

VM内的所有呈现都通过虚拟GPU。用于设置VM的PowerShell脚本以下PowerShell脚本是如何从头开始设置VM的示例。修改它以满足你的需求。

程序员王马·2025-03-29 10:16

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（六）

为D3D12运行时设置LDA状态为D3D12运行时启用或禁用LDA时，UMD需要将正确的层和节点映射信息返回到运行时。代码流如下所示：D3D12从UMD获取D3D12_CROSS_NODE_SHARING_TIER上限。D3D12通过调用D3DKMTQueryAdapterInfo（KMTQAITYPE_PHYSICALADAPTERCOUNT）从Dxgkrnl获取物理适配器计数。D3D12调用p

程序员王马·2025-03-29 10:46

开源深度学习框架PyTorch

2.强大的GPU加速使用CUDA

深海水·2025-03-29 07:21

RISC_V GPU skybox 系列之rtlsim运行测试(4)

RISC_VGPUskybox系列之rtlsim运行测试(2-3)中，我们介绍了1-5部分内容，这里我们继续介绍。

CDerL·2025-03-29 04:33

阿里云国际站代理商：如何通过Serverless调用GPU资源？

1.采用支持GPU资源的Serverless系统选择支持GPU资源的Serverless系统，如Dilu系统，它通过内省弹性（introspectiveelasticity）机制，提供细粒度和自适应的二维协同扩展机制

聚搜云—服务器分享·2025-03-29 03:21

AI数字人：虚拟与现实的交融革命

这种跨越式发展背后是三大技术革命的叠加：图形渲染革命：从多边形建模到神经辐射场（NeRF）算力飞跃：GPU算力10年增长1000倍AI突破：生成对抗网络（GAN）创造逼真面容1.2市场爆发进行时根据IDC

一休哥助手·2025-03-28 22:42

OpenCV正确安装及环境变量配置

手动勾选Windows10SDK和MSVC安装CMake（3.31.6）在.npmrc配置pnpmconfigsetauto-approve-buildstrue运行pnpminstall接下来是开启GPU

饺子大魔王12138·2025-03-28 19:27

7B参数模型

一、训练/微调场景1.最低配置（能跑，但速度慢）GPU：NVIDIARTX3090/4090（24GB显存）CPU：Inteli7/i9或AMDRyzen7/9（8核以上）内存：64GBDDR4（建议3200MHz

云端源想·2025-03-28 16:34

RK3568 OpenHarmony4.0 USB摄像头

开发环境本文基于如下开发环境进行开发调试：硬件：摄像头海康USB摄像头（HIKVISIONDS-E14）硬件：RK3568开发板处理器：RK3568CPU：四核64位Cortex-A55，主频最高达2.0GHzGPU

敲嵌入式代码的·2025-03-28 16:03

国内的比较有名的机器视觉库有哪些？他们的内核是什么?

硬件加速：依赖海康自研GPU芯片（如“深眸”

yuanpan·2025-03-28 15:01

Unity光线追踪移动端降级适配技术指南

一、移动端光追的技术挑战与适配思路1.硬件限制与性能瓶颈算力限制：移动端GPU的并行计算能力仅为桌面端的1/10-1/2010带宽压力：光线追踪需要频繁访问几何数据，移动端显存带宽不足发热控制：连续高负载运算易触发设备温控降频

Clank的游戏栈·2025-03-28 15:59

Unity自定义渲染管线（Scriptable Render Pipeline）架构设计与实现指南

一、SRP技术体系概述1.核心设计理念全托管渲染控制：通过C#脚本完全掌控渲染流程模块化架构：将渲染流程拆分为可组合的RenderPassGPU友好设计：支持CommandBuffer与ComputeShader

Clank的游戏栈·2025-03-28 15:29

解决:运行 tensorflow-gpu相关代码报错/缺少dll文件（无需修改tensorflow版本）

一、问题在运行以下一些代码测试gpu的时候报错了#代码1print(tf.test.is_gpu_available())#代码2importtensorflowastfa=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0

Netceor·2025-03-28 15:56

使用 LM Studio 实现 DeepSeek 本地部署

GPU：若要进行高效推理，建议配备NVIDIAGPU（如NVIDIAGe

爆爆凯·2025-03-28 11:56

使用llama.cpp量化模型

本次实验环境为魔搭社区提供的免费GPU环境（24G），使用Llama.cpp进行4bit量化可以大幅减少大语言模型的内存占用，并提高推理效率。

LLM挣扎学员·2025-03-28 08:05

如何提升大模型的训练效率deepspeed 和 flash attition

例如，ZeRO-Offload可将部分计算卸载到CPU或NVMe存储，支持在单张GPU上训练数十亿参数的模型。

冰蓝蓝·2025-03-28 07:30

TensorFlow-MNIST手写数字分类

进行数值计算，并提供GPU加速。实现自动梯度求导（如反向传播训练）。应用机器学习模型进行预测。

Enougme·2025-03-28 07:59

神秘的图像进化：单GPU扩散蒸馏中的相对与绝对位置匹配之谜

近期，一篇题为“HighQualityDiffusionDistillationonaSingleGPUwithRelativeandAbsolutePositionMatching”的论文，为我们展示了一种在单个

步子哥·2025-03-28 07:26

Google开源机器学习框架TensorFlow SegFormer优化

一、SegFormer的TensorRT加速优化TensorRT是NVIDIA推出的深度学习推理加速库，可以显著提高SegFormer在GPU上的推理速度。

深海水·2025-03-28 02:23

配置Windows Docker、Hyper-V虚拟机和WSL的一些踩坑解决备忘（随时更新）

VRJerry·2025-03-28 01:49

屏幕刷新机制（一）：机制

SurfaceFlinger综述屏幕整体刷新机制：就是通过Choreographer、SurfaceFlinger，以垂直同步技术(VSYNC)加三重缓冲技术(TripleBuffer)的方案，保证CPU计算/GPU

yueqc1·2025-03-27 22:56

基于EasyOCR实现的中文、英文图像文本识别

pipinstalleasyocr主要特点：多语言支持：支持80+种语言的识别，包括中文、英文、日文、韩文等简单易用：几行代码即可实现OCR功能预训练模型：提供开箱即用的预训练模型GPU加速：支持CUDA

听风吹等浪起·2025-03-27 15:31

本地部署 Stable Diffusion3

本文将在本地部署SD3，GPU配置如下GPU2080TI/22G安装依赖修改WORKSPACE位置信息，安装ComfyUI##@titleEnvironmentSetupfrompathlibimportPathOPTIONS

hawk2014bj·2025-03-27 10:24

【Triton 教程】triton_language.num_programs

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

HyperAI超神经·2025-03-27 08:38

DeepSeek-R1满血版私有化部署整体方案

一、硬件配置方案‌单节点基础配置‌‌服务器型号‌：戴尔PowerEdgeR760xaGPU服务器‌CPU‌：双路AMDEPYC9654(96核/192线程，支持PCIe5.0)‌34‌内存‌：1TBDDR5ECC

A管哥@IT运维·2025-03-27 08:38

DeepSeek 本地部署详细教程

一、环境准备1.1硬件要求GPU：推荐NVIDIA显卡（RTX3090/4090或更高）显存：至少16GB（根据模型版本调整）内存：32GB及以上存储：50GB可用空间1.2软件依赖操作系统：Linux

文or野·2025-03-27 04:07

CUDA 学习(4)——CUDA 编程模型

CPU和GPU由于结构的不同，具有不同的特点：CPU：擅长流程控制和逻辑处理，不规则数据结构，不可预测存储结构，单线程程序，分支密集型算法GPU：擅长数据并行计算，规则数据结构，可预测存储模式在现在的计算机体系架构中

哦豁灬·2025-03-27 02:51

《今日AI-人工智能-编程日报》--源自2025年3月25日

1.AI芯片与技术动态英伟达下一代“Rubin”GPU将采用台积电SoIC封装技术，与AMD、苹果共同推进先进封装工艺，预计2025年下半年量产。

小亦编辑部·2025-03-26 22:28

Unsloth 库和Hugging Face Transformers 库对比使用

它通过优化计算步骤和GPU内核，显著提升训练速度并减少内存使用。

背太阳的牧羊人·2025-03-26 21:17

手把手带你在Windows中搭建本地知识库（基于ollama本地部署大模型+客户端安装版AnythingLLM）非docker环境部署

一、Ollama安装Ollama是一个专注于本地运行大型语言模型（LLM）的框架，它使得用户能够在自己的计算机上轻松地部署和使用大型语言模型，而无需依赖昂贵的GPU资源。

慕慕涵雪月光白·2025-03-26 18:24

GPU的架构&原理解析

GPU（GraphicsProcessingUnit，图形处理单元）是一种专门设计用于并行计算的硬件设备，最初用于加速图形渲染任务，但随着技术的发展，GPU已经成为通用计算（GPGPU,General-PurposecomputingonGraphicsProcessingUnits

大数据追光猿·2025-03-26 17:18

获取GPU信息 --createWindowSurface EGL_BAD_NATIVE_WINDOW -- failed: EGL_BAD_MATCH

之前网上有很多关于获取GPU信息的帖子，大部分手机都可以获取到，但部分奇葩就不行了。

jiantaocd·2025-03-26 16:41

水冷技术：高效散热的革新之路

水冷（WaterCooling）是一种利用水或水基冷却液作为热传导介质的散热技术，通过循环系统将热量从热源（如CPU、GPU、发动机等）传递到散热器，最终通过空气对流或外部环境释放热量。

飞天kuma·2025-03-26 14:28

k8s集群添加一个新GPU节点

前提现在是已经搭建好一个GPU集群，需要添加一个新的节点（3090卡），用来分担工作，大致可以分为以下几个部分：1，安装GPU驱动2，安装docker3，安装cri-dockerd4，离线安装Nvidia-container-toolkit5

thinkerCoder·2025-03-26 13:49

NVIDIA Cosmos-Transfer1：重塑物理AI训练的革命性“世界生成器”

2025年3月22日在2025年GPU技术大会（GTC）上，英伟达（NVIDIA）重磅发布了其最新AI模型Cosmos-Transfer1，这一突破性技术通过多模态空间控制输入生成高度逼真的虚拟世界，为机器人

未来智慧谷·2025-03-26 05:16

H100赋能生成式AI算力革新

内容概要NVIDIAH100GPU的推出标志着AI算力架构的范式革新。

智能计算研究中心·2025-03-26 04:13

如何利用多张 GPU 高效运行 Ollama

在当今的人工智能和机器学习领域，利用多GPU进行加速计算已经成为提升性能的关键手段。本文将详细介绍如何在系统中使用多张GPU来运行Ollama，充分发挥硬件的强大性能。

刘怼怼·2025-03-26 01:20

Ray 源码分析(16)—Ray Serve

它具有多项用于服务大语言模型的特性和性能优化，例如响应流、动态请求批处理、多节点/多GPU服务等。据说OpenAI背后用

Jim.Li·2025-03-26 01:15

Ray 源码分析系列(2)—编译

编译步骤1.下载代码仓库gitclonehttps://github.com/ray-project/ray.git2.下载官方镜像由于习惯用gpu的镜像开发与调试，直接来个gpu版本的。

Jim.Li·2025-03-26 01:45

NVIDIA GTC 开发者社区Watch Party资料汇总

NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总，希望可以帮到各位：1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp：高性能GPU模拟与图形计算的

扫地的小何尚·2025-03-26 00:41

国内GPU算力租用平台

GPU算力租用平台为深度学习、科学计算、图形渲染等领域的研究者、开发者及企业提供了强大的计算支持。

君君学姐·2025-03-25 21:15

发布AiCube DeepSeek一体机，中兴通讯加速AI大模型商业化落地

AiCubeDeepSeek一体机通过软硬件一体化设计，支持DeepSeek等大模型在不同计算架构GPU间的无缝迁移，显著提升了部署效率和安全性。

蜂耘·2025-03-25 21:13

WebGPU实战：Three.js性能优化新纪元

一、WebGPU技术突破解析1.1传统WebGL的架构瓶颈graphLRA[JavaScript]-->B[WebGLBinding]B-->C[OpenGLES]C-->D[GPUDriver]D--

AWS官方合作商·2025-03-25 13:46

在GpuGeek上创建实例如何自定义环境？

Step2：安装Python登录实例终端，根据需要的Python版本创建虚拟环境：condacreate-ngpugeekpython==3.8.10condaactivategpugeekpython3

·2025-03-25 13:48

推荐频道

Gpu

CUDA专题3：为什么GPU能改变计算？深度剖析架构、CUDA®与可扩展编程

深度学习 Deep Learning 第12章 深度学习的主流应用

Ubuntu LLaMA-Factory实战

TensorFlow 深度学习框架详解

Windows 图形显示驱动开发-WDDM 2.7功能-MCDM KM 驱动程序实现指南（二）

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（七）

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（八）

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（六）

开源深度学习框架PyTorch

RISC_V GPU skybox 系列之rtlsim运行测试(4)

阿里云国际站代理商：如何通过Serverless调用GPU资源？

AI数字人：虚拟与现实的交融革命

OpenCV正确安装及环境变量配置

7B参数模型

RK3568 OpenHarmony4.0 USB摄像头

国内的比较有名的机器视觉库有哪些？他们的内核是什么?

Unity光线追踪移动端降级适配技术指南

Unity自定义渲染管线（Scriptable Render Pipeline）架构设计与实现指南

解决:运行 tensorflow-gpu相关代码报错/缺少dll文件（无需修改tensorflow版本）

使用 LM Studio 实现 DeepSeek 本地部署

使用llama.cpp量化模型

如何提升大模型的训练效率deepspeed 和 flash attition

TensorFlow-MNIST手写数字分类

神秘的图像进化：单GPU扩散蒸馏中的相对与绝对位置匹配之谜

Google开源机器学习框架TensorFlow SegFormer优化

配置Windows Docker、Hyper-V虚拟机和WSL的一些踩坑解决备忘（随时更新）

屏幕刷新机制（一）：机制

基于EasyOCR实现的中文、英文图像文本识别

本地部署 Stable Diffusion3

【Triton 教程】triton_language.num_programs

DeepSeek-R1满血版私有化部署整体方案

DeepSeek 本地部署详细教程

CUDA 学习(4)——CUDA 编程模型

《今日AI-人工智能-编程日报》--源自2025年3月25日

Unsloth 库和Hugging Face Transformers 库对比使用

手把手带你在Windows中搭建本地知识库（基于ollama本地部署大模型+客户端安装版AnythingLLM）非docker环境部署

GPU的架构&原理解析

获取GPU信息 --createWindowSurface EGL_BAD_NATIVE_WINDOW -- failed: EGL_BAD_MATCH

水冷技术：高效散热的革新之路

k8s集群添加一个新GPU节点

NVIDIA Cosmos-Transfer1：重塑物理AI训练的革命性“世界生成器”

H100赋能生成式AI算力革新

如何利用 多 张 GPU 高效运行 Ollama

Ray 源码分析(16)—Ray Serve

Ray 源码分析系列(2)—编译

NVIDIA GTC 开发者社区Watch Party资料汇总

国内GPU算力租用平台

发布AiCube DeepSeek一体机，中兴通讯加速AI大模型商业化落地

WebGPU实战：Three.js性能优化新纪元

在GpuGeek上创建实例如何自定义环境？

深度学习 Deep Learning 第12章深度学习的主流应用

如何利用多张 GPU 高效运行 Ollama