GPU透传

AMD RDNA3 GPU架构解析

本文会通过把AMD的RDNA3架构为例比喻为施工公司工作模式，深入理解GPU如何高效处理顶点着色、像素计算等任务。一、施工公司的组织架构1.施工公司（WGP）与施工队（CU

颜早早·2025-03-25 01:46

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-03-24 15:38

一文搞懂ASIC和GPU

近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。

·2025-03-24 15:08

OpenRAND可重复的随机数生成库

特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。

novanova2009·2025-03-24 12:41

基于WebAssembly的浏览器密码套件

2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU

闲人编程·2025-03-24 09:13

使用 Baseten 部署和运行机器学习模型的指南

无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同

shuoac·2025-03-24 03:17

机器学习 Day01人工智能概述

1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。

山北雨夜漫步·2025-03-23 22:58

【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址

TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu

江上_酒·2025-03-23 21:25

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】

文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是

待磨的钝刨·2025-03-23 18:53

H800能效架构实战解析

在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率

智能计算研究中心·2025-03-23 15:56

AI大模型训练教程

2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin

Small踢倒coffee_氕氘氚·2025-03-23 12:07

英伟达常用GPU参数速查表，含B300.....

英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域

Ai17316391579·2025-03-23 11:59

学习笔记——GPU

注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。

鹤岗小串·2025-03-23 09:17

显卡（Graphics Processing Unit，GPU）架构详细解读

显卡架构主要分为两大类：GPU核心架构（也称为图形处理单元架构）和显卡的其他组件（如内存、控制器、输出接口等）。

m0_74824112·2025-03-23 06:44

GPU架构分类

一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。

大明者省·2025-03-23 06:11

一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）

文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解

AI天才研究院·2025-03-23 02:36

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。

哈罗·沃德·2025-03-22 15:19

GPU计算的历史与CUDA编程入门

GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。

己见明·2025-03-22 12:49

GTC 2025 中文在线解读

作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库

扫地的小何尚·2025-03-22 11:17

知识蒸馏：让大模型“瘦身“而不失智慧的魔术

GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。

一休哥助手·2025-03-21 21:06

在网页跑3D多人互动之渲染效能瓶颈

数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。

微网兔子·2025-03-21 17:24

密码策略合规性检查仪表盘

目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI

闲人编程·2025-03-21 16:49

CPO光电共封装关键技术与Top玩家代表作

CPO（Co-PackagedOptics，光电共封装）关键技术介绍CPO（Co-PackagedOptics）是一种将光学器件与电子芯片（如ASIC、CPU、GPU等）封装在同一基板上的技术。

CoderIsArt·2025-03-21 12:17

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit（10）

2、纯鸿蒙系统的远程推送，有没有高透传？3、Android华为推送如果切到鸿蒙推送

·2025-03-21 12:07

Marker可以快速且准确地将PDF转换为markdown格式。

支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理

星霜笔记·2025-03-21 11:34

Open-Sora - 为所有人实现高效的视频制作大众化

小众AI·2025-03-21 10:57

无矩阵乘法LLM：效率与性能双突破

标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。

XianxinMao·2025-03-21 08:42

高性能计算:GPU加速与分布式训练

传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。

AI天才研究院·2025-03-21 06:17

查看 CUDA cudnn 版本查看Navicat GPU版本

查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()

FergusJ·2025-03-21 03:30

OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3，精准识别黄仁勋演讲实拍

3月12日晚间，谷歌发布了「单卡大魔王」Gemma3，号称是能在单个GPU或TPU上运行的最强模型，真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3，以及o3-

·2025-03-20 18:00

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用

AI天才研究院·2025-03-20 18:45

CUDA编程基础

它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。

清澜·2025-03-20 17:35

2025年开发者工具全景图：IDE与AI协同的效能革命

核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU

He.Tech·2025-03-20 14:45

人形机器人报告：新一代GPU、具身智能与AI应用

今天分享的是人形机器人系列深度研究报告：《人形机器人专题：新一代GPU、具身智能与AI应用》。（报告出品方：中泰证券）核心观点GTC2024召开在即，关注新一代GPU、具身智能、AI应用三大方向。

小报告达人·2025-03-20 13:05

centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo

在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3

小太阳，乐向上·2025-03-20 08:21

关于bitsandbytes安装报错

RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment

跃跃欲试88·2025-03-20 07:18

python -m bitsandbytes 报错解释与解决

RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation

MityKif·2025-03-20 07:44

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU

FakeOccupational·2025-03-20 06:35

逾越TAO·2025-03-19 23:39

Deepseek的本地化部署软件工具包

选择模型版本参数规模硬件要求（最低）适用场景1.5B/7B8GB内存，无专用GPU文本处理、简单问答14B16GB内存+12GB显存代码生成、逻辑推理32B/70B24GB显存+32GB内存企业级复杂任务执行命令

哈拉少12·2025-03-19 20:14

芯片：CPU和GPU有什么区别？

CPU（中央处理器）和GPU（图形处理单元）是计算机系统中两种非常重要的处理器，它们各自有不同的设计理念、架构特点以及应用领域。

InnoLink_1024·2025-03-19 19:07

使用LoRA微调LLaMA3

步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。

想胖的壮壮·2025-03-19 16:12

nvidia_uvm 被占用，nvidia-smi 卡死

系统可以识别到多块NVIDIAGPU，且驱动模块已加载，但nvidia_uvm被占用，nvidia-smi卡死，通常是由于以下原因导致：可能原因GPU资源被占用某些进程正在使用NVIDIA驱动，导致模块无法卸载

guganly·2025-03-19 15:08

用户行为路径分析（Google Analytics数据挖掘）

目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU

闲人编程·2025-03-19 14:00

算力未来演进与多场景创新

从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。

智能计算研究中心·2025-03-19 11:06

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。

·2025-03-19 11:59

Windows 图形显示驱动开发-WDDM 3.0功能- IOMMU DMA 重新映射（一）

概述直到WDDM3.0，Dxgkrnl仅支持通过1:1物理重新映射实现IOMMU隔离，这意味着GPU访问的逻辑页被转换为相同的物理页码。

程序员王马·2025-03-19 07:58

Linux中部署DeepSeek R1

DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化

Java探索者 °·2025-03-19 07:26

深入GPU渲染流水管线：从顶点到像素的微观世界

现代图形硬件的架构解密与优化实践一、渲染流水线全景解析1.经典渲染管线阶段划分应用阶段几何阶段光栅化阶段像素处理阶段输出合并阶段2.现代GPU架构演进SIMT架构特性：NVIDIASM(StreamingMultiprocessor

晴空了无痕·2025-03-19 01:00

推荐频道