Gpu 第14页

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

一、基础设施层AI大模型技术发展离不开坚实的基础设施支持，涵盖了GPU、CPU、RAM、HDD、Network等关键硬件

程序猿李巡天·2025-04-15 11:34

3DGS中的光栅化渲染过程（结合代码）

使用GPU上的Radix排序算法对所有实例化的高斯进行排序，主要依据它们的

蓝羽飞鸟·2025-04-15 05:49

LearnOpenGL学习（高级OpenGL - - 实例化，抗锯齿）

实例化技术本质上是减少了数据从CPU到GPU的传输次数。实例化这项技术能够让我们使用一个渲染调用来绘制多个物体，来节省每次绘制物体时CPU->GPU的通信，它只需要一次即可。

zaizai1007·2025-04-15 01:23

2024pytorch小土堆安装教程（GPU），踩坑总结

目录2024pytorch小土堆安装教程（GPU），踩坑总结本人小白，应老师要求自学深度学习，跟着b站up小土堆老师学习深度学习，第一节课是安装pytorch,在历经三次失败后才获得成功，于是决心写下自己的总结以供大家参考借鉴

m0_hgwxx·2025-04-14 22:36

【李宏毅深度学习——回归模型的PyTorch架构】Homework 1：COVID-19 Cases Prediction (Regression)

目录1、显示NVIDIAGPU的状态信息2、数据集的两种不同的下载方式3、导入相关库4、三个工具函数5、定义自己的数据集类6、定义神经网络模型7、定义选择特征的函数8、训练过程9、超参数字典config10

AI的Learner·2025-04-14 22:35

腾讯逆袭！发布混元T1正式版，实战不输DeepSeek-R1，便宜3/4|黄仁勋为什么一边笑着“认错”，一边给量子计算站台？

智能体不但是AI领域核心，更可能引发科学范式重大变革25万GPU，估值350亿美元冲刺IPO，财务定时炸弹，GenAI不祥之兆元宝“粘”不过豆包OpenAI语音智能体诞生，怼脸实拍语气狂到飞起，API降到每分钟

gzu_01·2025-04-14 20:48

比ollama还强大的LocalAI：解锁本地化AI模型部署教程

不需要GPU。它由EttoreDiGiacinto创建和维护。对话界面生成音频模型概

泰山AI·2025-04-14 17:59

DeepSeek 671B碾压o3-mini，登顶王位

彭铖洋·2025-04-14 10:47

千户级2080Ti GPU局域网集群实现每户家庭虚拟本地部署DeepSeek-R1 671B详细

---##一、项目背景与目标###1.1项目背景-**社区资源整合**：利用1000户家庭闲置的NVIDIAGeForceRTX2080Ti显卡（11GB显存）构建分布式计算集群-**服务需求**：为每户家庭提供本地化虚拟部署的DeepSeek-R1671B大模型推理服务（参数量6710亿）-**技术挑战**：-显存限制：单卡11GB显存支撑千亿级模型-网络延迟：10Gbps局域网下的通信效率优化

icbcnetone·2025-04-14 01:18

NLP高频面试题（三十七）——大模型训练和推理的显存估计

在训练和推理大型语言模型时，显存（GPU内存）的需求是一个关键考虑因素。准确估计这些需求有助于选择合适的硬件配置，确保模型高效运行。

Chaos_Wang_·2025-04-13 23:06

ubuntu20.04系统安装apollo10.0系统

知识搬运工阿杰·2025-04-13 20:14

1.1显存

显存是显卡（GPU）专用的高性能内存，负责存储渲染所需的纹理、帧缓冲、几何数据等。

chxii·2025-04-13 13:00

紫光展锐5G SoC T8300：影像升级，「定格」美好世界

紫光展锐专为全球主流用户打造的畅享影音和游戏体验的5GSoC——T8300，采用6nm工艺，八核CPU及双核GPU架构。

紫光展锐官方·2025-04-13 12:59

android display 笔记（十一）surfaceflinger 如何将图层传到lcd驱动的呢？

SurfaceFlinger->>HWC:提交所有图层（Layer）HWC->>DRM/KMS:硬件合成（Overlay）或GPU合成DRM/KMS->>LCDDriver:配置显示控制器（CRTC/Encoder

那天的烟花雨·2025-04-13 12:27

android display 笔记（十）surfaceflinger与HWC的关系

CLIENT：指“客户端”（即SurfaceFlinger的GPU合成后端）。步骤1：图层收集与准备Surf

那天的烟花雨·2025-04-13 11:52

目前有哪些国产GPU支持DeepSeek？国产GPU支持的DeepSeek模型的性能如何？DeepSeek模型与其他模型相比有什么优势？没有CUDA的GPU可以部署Deepseek

有很多国产GPU支持DeepSeek，以下是一些典型代表：1.景嘉微JM系列：适配了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B模型

gzgenius·2025-04-13 09:05

码农高射炮·2025-04-13 08:54

TA学习之路——1.6 PC手机图形API介绍

针对GPU。基础概念DrectX,OpenGL,OpenGLESOpenGLES3.0新功能晓龙Adreno对应ES版本型号2基础概念2.1应用端即我们自己的程序端，相对于opengles

鹏易灵·2025-04-13 07:46

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式

以Llama2-70B为例，传统部署方案需要8张A100GPU才能完成推理，单次交互成本高达$0.02，这严重制约了大模型的实际

kandfj·2025-04-13 05:37

RK3588 Weston

weston支持的后端3：buildroot中基于meson常用编译指令4：weston中的录屏5：weston的配置文件6：调试信息7：在基于wayland运行Qt程序8：socketdomain信息9：GPU

家有工程师·2025-04-13 03:55

科技快讯 | ChatGPT搜索功能强势来袭；中国首位女航天飞行工程师王浩泽；Claude AI推出桌面平台客户端；Swift 6 正式可用

含金属复杂分子模拟速度创纪录财联社11月1日电，来自美国太平洋西北国家实验室以及匈牙利的科学家，在英伟达公司的高性能图形处理单元（GPU）

最新科技快讯·2025-04-12 23:01

一文理解GPU及英伟达GPU参数汇总

GPU的无限魅力在这个快速发展的数字时代，图形处理单元（GPU）已经成为现代计算技术的核心，超越了它最初的设计目标。

炼丹侠·2025-04-12 22:25

和H100相比，英伟达的H20、L20 和 L2 芯片性能如何？

这三款芯片均基于HopperGPU架构，最高理论性能可达296TFLOP（每秒浮点运算次数，也叫每秒峰值速度）。几乎可以肯定的是，这三款AI芯片均是H100的“阉割版”或“缩水版”。

u013250861·2025-04-12 22:54

GPU集群上分布式训练大模型

总结一下如何在超算系统上进行预训练大模型的分布式训练/微调，文中代码已上传至github实验环境集群1：国家广州超算星逸A800智能AI集群GPU：8*NvdiaTesla-A80080G显存CPU：2

沐岩:)·2025-04-12 21:48

Windows 图形显示驱动开发-WDDM 2.0功能_上下文监视

功能概述上下文监视机制是GPU与CPU协同计算的核心同步技术，通过受监视围栏（MonitoredFence）实现跨硬件单元的高效协调。

程序员王马·2025-04-12 17:54

谁才是AI王者？ DeepSeek、Grok、千问、ChatGPT、Claude大模型终极PK

2月18日，马斯克推出了他的用20万张GPU训练的最新的“地表最强”的大模型Grok3。2月24日，Anthropic开发的最新版本的AI模型Claude-3.7Sonnet公布。

qweqwety·2025-04-12 15:10

NVIDIA 的集合通信库（NVIDIA Collective Communication Library， NCCL）

NVIDIA的集合通信库（NCCL,NVIDIACollectiveCommunicationsLibrary）是一个专为多GPU和分布式计算环境设计的高效通信库。

彬彬侠·2025-04-12 13:00

tensorflow 多GPU训练

使用多块GPU训练多个算法不同算法在不同GPU上训练（实质上还是单GPU--->单算法）以上方法实现的是控制GPU的使用情况多GPU并行训练单个算法数据并行demo不同算法在不同GPU上训练（实质上还是单

马弄一下·2025-04-12 09:59

2025年4月7日--4月13日（learn openg+dx+ogre+bullet+ue5肉鸽）

估计gpu显卡公司没戏了，按照offer的内容进行。周一：9：00-9：40，Learnopengl5.3.1周二进行了两场面试，结果未知。

directx3d_beginner·2025-04-12 01:38

从实践出发：AI智能体GPU算力估算方案全解析——以知识库应用为例

引言：AI智能体时代的算力困境随着大模型与RAG（Retrieval-AugmentedGeneration）技术的普及，新一代AI智能体正呈现知识密集化与响应实时化的双重趋势。但在实际应用中开发者常面临：如何精准估算智能体算力需求？如何在检索精度与响应延迟间找到平衡？本文将以典型知识库智能体为例，手把手拆解算力估算方法论，并给出落地优化建议。一、AI智能体核心架构分解一个完整的知识驱动型智能体通

awei0916·2025-04-11 22:21

【场景应用2】speech_recognition：微调语音模型

根据所选模型和使用的GPU配置，可能需要调整batchsize以避免内存溢出错误。设置这两个参数后，笔记其余部分应能顺利运行：model_checkpoin

AI专题精讲·2025-04-11 21:11

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

它扩展了WebGL和WebGPU的能力，允许开发者在网页上构建3D环境，与头戴式显示器、摄像头、传感器等硬件设备进行交互。

chenjj4003·2025-04-11 19:53

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

2025年3月18日，AsahiLinux的开发者AsahiLina在社交媒体BlueSky上宣布，由于个人原因，认为目前继续从事LinuxGPU驱动开发或参与Linux图形生态系统工作存在安全隐患，决定无限期暂停

timer_017·2025-04-11 17:11

架构发展史

GPU架构发展史文章目录前言KelvinRankineCurieTeslaFermiMaxwellPascalVoltaTuringAmpereHopper总结前言英伟达的GPU架构发展KelvinKelvin

Mundaneman·2025-04-11 16:31

DirectX12（D3D12）基础教程四入门指南

2.应用现在拥有将渲染调用分组到图形处理单元(GPU)工作项中的方法。这样可以重复使用。3.应用现在显式控制何时将工作提交到GP

指掀涛澜天下惊·2025-04-11 14:50

Unity光线传播体积(LPV)技术实现详解

核心优势：实时性能：相比传统光照贴图，支持动态场景硬件友好：适合GPU并行计算中等质量：提供比SSAO更好的间接光效果对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀二、LPV

Clank的游戏栈·2025-04-11 09:47

Unity多Pass渲染与GPU Instancing深度优化指南

2.GPUInstancing的优化价值GPUInstanci

Clank的游戏栈·2025-04-11 09:17

基于Compute Shader的GPU粒子系统技术详解与实现

一、GPU粒子系统核心优势1.传统CPU粒子系统的瓶颈CPU计算瓶颈：万级以上粒子时，逐粒子计算导致主线程阻塞DrawCall开销：每个粒子单独提交渲染指令，引发性能悬崖内存带宽限制：CPU与GPU间频繁传输粒子数据对惹

Clank的游戏栈·2025-04-11 09:17

Unity Enlighten与Progressive GPU Lightmapper对比分析

一、技术背景与核心差异1.算法原理Enlighten基于辐射度算法（Radiosity），通过将场景分解为Systems（光照关联单元）和Clusters（计算单元），预计算光照环境中的间接光传输。其核心是构建UVCharts（光照贴图UV分块），通过静态几何体的UV分布优化计算效率38。优点：噪点少，支持半实时全局光照（GI）更新，适合静态场景38。缺点：复杂几何体（如植被）的UVCharts数

Clank的游戏栈·2025-04-11 09:17

Ubuntu22.04安装Ollama部署DeepSeek-R1:32B模型

一、环境准备1.硬件要求GPU:至少NVIDIAA30/A100(显存≥24GB)内存:≥64GBRAM存储:≥100GB可用空间(模型文件约60GB)2.软件依赖#验证NVIDIA驱动nvidia-smi

闫利朋·2025-04-11 01:02

AI平台如何实现推理？数算岛是一个开源的AI平台（主要用于管理和调度分布式AI训练和推理任务。）

以下是数算岛实现模型推理的核心原理、架构及具体实现步骤：一、数算岛推理的核心原理任务调度与资源管理：通过Kubernetes的调度器（如Kube-scheduler）分配GPU/CPU资源，结合DevicePlugin

文慧的科技江湖·2025-04-10 23:18

【深度学习基础】Windows实时查看GPU显存占用、功耗、进程状态

1.nvitoppython环境下，例如anacondaprompt：condaenvlistactivatexxxpipinstallnvitopnvitop实时查看GPU显存占用、功耗、进程状态显示信息含义

叫我东方小巴黎·2025-04-10 22:06

系统开机设备寻址全流程：从 UEFI 伪代码到内核映射

本文以AMD集成GPU（ACPI描述）和NVIDIA独立显卡（PCIe设备）为例，详细介绍这一过程。

不堪沉沦·2025-04-10 20:55

【赞奇实测】DeepSeek 不同 GPU 性能测试一期（4090 VS 5000 Ada VS 5880 Ada）

前几天我们发起了DeepSeek私有化部署远程测试体验，我们4卡RTX5000Ada的本地工作站上部署了R132B的基础模型，基于OpenwebUI简单搭了一个前端，文章发出后，只得感叹DeepSeek的带货能力确实很强，非常感谢大家的关注！那么，除了RTX5000Ada，4090的表现如何，性能更强的RTX5880Ada的表现又怎么样，从单卡到4卡的工作站在满血部署的前提下性能表现到底怎么样？这

·2025-04-10 19:21

python常用工具类

#获取当前机器gpu的数量defget_gpu_count():#returnlen(os.popen("nvidia-smi-L").read().strip().split("\n"))#num_default

jstzwjr·2025-04-10 16:03

opencv+ONNX模型的推理

如前文我们已经编译出带dnn模块的opencv，如果使用简易版的opencv虽然也可以加载onxx模型但是无法利用GPU进行并行计算，导致推理速度比较慢。

俄城杜小帅·2025-04-10 12:33

AI 智能体GPU算力估算方案：从知识检索到生成的全链路实践

AI智能体算力估算方案：从知识检索到生成的全链路实践一、引言：智能体与知识库协同的算力挑战在企业级AI应用中，基于知识库的智能体已成为高效处理非结构化数据、实现自动化决策的核心工具。例如，Coze智能体与飞书多维表格的深度集成，通过知识检索与生成的闭环，将合同条款提取、风险报告生成等流程效率提升80%以上。然而，随着模型参数规模从百亿级向千亿级演进（如7B、14B、32B参数的生成模型），算力规划

awei0916·2025-04-10 11:26

当 Ollama 遇上 OpenVINO™ ：解锁多硬件 AI 推理新范式

Ollama提供了极简的模型管理工具链，而OpenVINO™则通过Intel硬件（CPU/GPU/NPU）为模型推理提供了高效的加速能力。这种组合不

OpenVINO 中文社区·2025-04-10 11:56

PyTorch多GPU训练实战：从零实现到ResNet-18模型

本文将介绍如何在PyTorch中实现多GPU训练，涵盖从零开始的手动实现和基于ResNet-18的简洁实现。代码完整可直接运行。

意.远·2025-04-10 09:11

230516-pytorch-线性回归模型-GPU

importtorchimporttorch.nnasnnimportnumpyasnpclassLinearRegressionModel(nn.Module):def__init__(self,input_dim,output_dim):super(LinearRegressionModel,self).__init__()self.linear=nn.Linear(input_dim,out

dearr__·2025-04-10 04:40

推荐频道

Gpu

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

3DGS中的光栅化渲染过程（结合代码）

LearnOpenGL学习（高级OpenGL - - 实例化，抗锯齿）

2024pytorch小土堆安装教程（GPU），踩坑总结

【李宏毅深度学习——回归模型的PyTorch架构】Homework 1：COVID-19 Cases Prediction (Regression)

腾讯逆袭！发布混元T1正式版，实战不输DeepSeek-R1，便宜3/4|黄仁勋为什么一边笑着“认错”，一边给量子计算站台？

比ollama还强大的LocalAI：解锁本地化AI模型部署教程

DeepSeek 671B碾压o3-mini，登顶王位

千户级2080Ti GPU局域网集群实现每户家庭虚拟本地部署DeepSeek-R1 671B详细

NLP高频面试题（三十七）——大模型训练和推理的显存估计

ubuntu20.04系统安装apollo10.0系统

1.1显存

紫光展锐5G SoC T8300：影像升级，「定格」美好世界

android display 笔记（十一）surfaceflinger 如何将图层传到lcd驱动的呢？

android display 笔记（十）surfaceflinger与HWC的关系

目前有哪些国产GPU支持DeepSeek？国产GPU支持的DeepSeek模型的性能如何？DeepSeek模型与其他模型相比有什么优势？没有CUDA的GPU可以部署Deepseek

计算机图形相关的库

TA学习之路——1.6 PC手机图形API介绍

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式

RK3588 Weston

科技快讯 | ChatGPT搜索功能强势来袭；中国首位女航天飞行工程师王浩泽；Claude AI推出桌面平台客户端；Swift 6 正式可用

一文理解GPU及英伟达GPU参数汇总

和H100相比，英伟达的H20、L20 和 L2 芯片性能如何？

GPU集群上分布式训练大模型

Windows 图形显示驱动开发-WDDM 2.0功能_上下文监视

谁才是AI王者？ DeepSeek、Grok、千问、ChatGPT、Claude大模型终极PK

NVIDIA 的集合通信库（NVIDIA Collective Communication Library， NCCL）

tensorflow 多GPU训练

2025年4月7日--4月13日（learn openg+dx+ogre+bullet+ue5肉鸽）

从实践出发：AI智能体GPU算力估算方案全解析——以知识库应用为例

【场景应用2】speech_recognition： 微调语音模型

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

架构发展史

DirectX12（D3D12）基础教程四 入门指南

Unity光线传播体积(LPV)技术实现详解

Unity多Pass渲染与GPU Instancing深度优化指南

基于Compute Shader的GPU粒子系统技术详解与实现

Unity Enlighten与Progressive GPU Lightmapper对比分析

Ubuntu22.04安装Ollama部署DeepSeek-R1:32B模型

AI平台如何实现推理？数算岛是一个开源的AI平台（主要用于管理和调度分布式AI训练和推理任务。）

【深度学习基础】Windows实时查看GPU显存占用、功耗、进程状态

系统开机设备寻址全流程：从 UEFI 伪代码到内核映射

【赞奇实测】DeepSeek 不同 GPU 性能测试一期（4090 VS 5000 Ada VS 5880 Ada）

python常用工具类

opencv+ONNX模型的推理

AI 智能体GPU算力估算方案：从知识检索到生成的全链路实践

当 Ollama 遇上 OpenVINO™ ：解锁多硬件 AI 推理新范式

PyTorch多GPU训练实战：从零实现到ResNet-18模型

230516-pytorch-线性回归模型-GPU

【场景应用2】speech_recognition：微调语音模型

DirectX12（D3D12）基础教程四入门指南