GPU

【场景应用2】speech_recognition：微调语音模型

根据所选模型和使用的GPU配置，可能需要调整batchsize以避免内存溢出错误。设置这两个参数后，笔记其余部分应能顺利运行：model_checkpoin

AI专题精讲·2025-04-11 21:11

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

它扩展了WebGL和WebGPU的能力，允许开发者在网页上构建3D环境，与头戴式显示器、摄像头、传感器等硬件设备进行交互。

chenjj4003·2025-04-11 19:53

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

2025年3月18日，AsahiLinux的开发者AsahiLina在社交媒体BlueSky上宣布，由于个人原因，认为目前继续从事LinuxGPU驱动开发或参与Linux图形生态系统工作存在安全隐患，决定无限期暂停

timer_017·2025-04-11 17:11

架构发展史

GPU架构发展史文章目录前言KelvinRankineCurieTeslaFermiMaxwellPascalVoltaTuringAmpereHopper总结前言英伟达的GPU架构发展KelvinKelvin

Mundaneman·2025-04-11 16:31

DirectX12（D3D12）基础教程四入门指南

2.应用现在拥有将渲染调用分组到图形处理单元(GPU)工作项中的方法。这样可以重复使用。3.应用现在显式控制何时将工作提交到GP

指掀涛澜天下惊·2025-04-11 14:50

Unity光线传播体积(LPV)技术实现详解

核心优势：实时性能：相比传统光照贴图，支持动态场景硬件友好：适合GPU并行计算中等质量：提供比SSAO更好的间接光效果对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀二、LPV

Clank的游戏栈·2025-04-11 09:47

Unity多Pass渲染与GPU Instancing深度优化指南

2.GPUInstancing的优化价值GPUInstanci

Clank的游戏栈·2025-04-11 09:17

基于Compute Shader的GPU粒子系统技术详解与实现

一、GPU粒子系统核心优势1.传统CPU粒子系统的瓶颈CPU计算瓶颈：万级以上粒子时，逐粒子计算导致主线程阻塞DrawCall开销：每个粒子单独提交渲染指令，引发性能悬崖内存带宽限制：CPU与GPU间频繁传输粒子数据对惹

Clank的游戏栈·2025-04-11 09:17

Unity Enlighten与Progressive GPU Lightmapper对比分析

一、技术背景与核心差异1.算法原理Enlighten基于辐射度算法（Radiosity），通过将场景分解为Systems（光照关联单元）和Clusters（计算单元），预计算光照环境中的间接光传输。其核心是构建UVCharts（光照贴图UV分块），通过静态几何体的UV分布优化计算效率38。优点：噪点少，支持半实时全局光照（GI）更新，适合静态场景38。缺点：复杂几何体（如植被）的UVCharts数

Clank的游戏栈·2025-04-11 09:17

Ubuntu22.04安装Ollama部署DeepSeek-R1:32B模型

一、环境准备1.硬件要求GPU:至少NVIDIAA30/A100(显存≥24GB)内存:≥64GBRAM存储:≥100GB可用空间(模型文件约60GB)2.软件依赖#验证NVIDIA驱动nvidia-smi

闫利朋·2025-04-11 01:02

AI平台如何实现推理？数算岛是一个开源的AI平台（主要用于管理和调度分布式AI训练和推理任务。）

以下是数算岛实现模型推理的核心原理、架构及具体实现步骤：一、数算岛推理的核心原理任务调度与资源管理：通过Kubernetes的调度器（如Kube-scheduler）分配GPU/CPU资源，结合DevicePlugin

文慧的科技江湖·2025-04-10 23:18

【深度学习基础】Windows实时查看GPU显存占用、功耗、进程状态

1.nvitoppython环境下，例如anacondaprompt：condaenvlistactivatexxxpipinstallnvitopnvitop实时查看GPU显存占用、功耗、进程状态显示信息含义

叫我东方小巴黎·2025-04-10 22:06

系统开机设备寻址全流程：从 UEFI 伪代码到内核映射

本文以AMD集成GPU（ACPI描述）和NVIDIA独立显卡（PCIe设备）为例，详细介绍这一过程。

不堪沉沦·2025-04-10 20:55

【赞奇实测】DeepSeek 不同 GPU 性能测试一期（4090 VS 5000 Ada VS 5880 Ada）

前几天我们发起了DeepSeek私有化部署远程测试体验，我们4卡RTX5000Ada的本地工作站上部署了R132B的基础模型，基于OpenwebUI简单搭了一个前端，文章发出后，只得感叹DeepSeek的带货能力确实很强，非常感谢大家的关注！那么，除了RTX5000Ada，4090的表现如何，性能更强的RTX5880Ada的表现又怎么样，从单卡到4卡的工作站在满血部署的前提下性能表现到底怎么样？这

·2025-04-10 19:21

python常用工具类

#获取当前机器gpu的数量defget_gpu_count():#returnlen(os.popen("nvidia-smi-L").read().strip().split("\n"))#num_default

jstzwjr·2025-04-10 16:03

opencv+ONNX模型的推理

如前文我们已经编译出带dnn模块的opencv，如果使用简易版的opencv虽然也可以加载onxx模型但是无法利用GPU进行并行计算，导致推理速度比较慢。

俄城杜小帅·2025-04-10 12:33

AI 智能体GPU算力估算方案：从知识检索到生成的全链路实践

AI智能体算力估算方案：从知识检索到生成的全链路实践一、引言：智能体与知识库协同的算力挑战在企业级AI应用中，基于知识库的智能体已成为高效处理非结构化数据、实现自动化决策的核心工具。例如，Coze智能体与飞书多维表格的深度集成，通过知识检索与生成的闭环，将合同条款提取、风险报告生成等流程效率提升80%以上。然而，随着模型参数规模从百亿级向千亿级演进（如7B、14B、32B参数的生成模型），算力规划

awei0916·2025-04-10 11:26

当 Ollama 遇上 OpenVINO™ ：解锁多硬件 AI 推理新范式

Ollama提供了极简的模型管理工具链，而OpenVINO™则通过Intel硬件（CPU/GPU/NPU）为模型推理提供了高效的加速能力。这种组合不

OpenVINO 中文社区·2025-04-10 11:56

PyTorch多GPU训练实战：从零实现到ResNet-18模型

本文将介绍如何在PyTorch中实现多GPU训练，涵盖从零开始的手动实现和基于ResNet-18的简洁实现。代码完整可直接运行。

意.远·2025-04-10 09:11

230516-pytorch-线性回归模型-GPU

importtorchimporttorch.nnasnnimportnumpyasnpclassLinearRegressionModel(nn.Module):def__init__(self,input_dim,output_dim):super(LinearRegressionModel,self).__init__()self.linear=nn.Linear(input_dim,out

dearr__·2025-04-10 04:40

在Python中使用GPU进行并行计算的方法

在Python中使用GPU进行计算通常涉及到一些特定的库，如NumPy、SciPy的GPU加速版本（如CuPy、PyCUDA等）或深度学习库（如TensorFlow、PyTorch等）。

互联网架构小马·2025-04-10 02:29

GPU教程之开始在 Python 中快速使用 GPU 进行数据科学项目(教程含源码)

GPU已被证明在加速大规模计算方面非常强大，但是，有时正确配置和设置完整的GPU环境可能会很棘手。幸运的是，有一些开源工具专门用于简化GPU的软件配置，包括驱动程序和数据科学库。

知识大胖·2025-04-10 02:58

五分钟使用ollama部署本地大模型

ollama对于环境的要求，需要python3.8及以上的版本，如果需要使用GPU进行加速，还需要nNAVIDIA显卡和CUDA驱动。2、ollama安装本次分享基于linux系统操作，其他系统按

知其_所以然·2025-04-09 19:38

重识 APO：DeepSeek 掀起可观性领域变革 | 龙蜥生态

云观秋毫作为龙蜥社区系统运维联盟成员单位，提供了基于eBPF实现的北极星指标和故障排查工作流，龙蜥社区系统运维SIG也会基于SysOM进行ContinuesProfiling的大规模数据分析、AI火焰图分析等工作流，帮助进行CPU&GPU

·2025-04-09 17:40

第T7周：咖啡豆识别

文为「365天深度学习训练营」内部文章参考本文所写文章，请在文章开头带上「声明」1.设置GPUimporttensorflowastfgpus=tf.config.list_physical_devices

weixin_50792991·2025-04-09 17:55

T8 咖啡豆识别

文为「365天深度学习训练营」内部文章参考本文所写文章，请在文章开头带上「声明」importtensorflowastfgpus=tf.config.list_physical_devices("GPU

weixin_50792991·2025-04-09 17:55

python3.7安装tensorflow-gpu_tensorflow-gpu安装的常见问题及解决方案

装tensorflow-gpu的时候经常遇到问题，自己装过几次，经常遇到相同或者类似的问题，所以打算记录一下，也希望对其他人有所帮助基本信息tensorflow-gpupip安装(virtualenv等虚拟安装实质也是

weixin_39731922·2025-04-09 15:12

A100架构解析：超算集群效能跃迁与数据处理范式重构

内容概要NVIDIAA100GPU作为第三代TensorCore架构的集大成者，其创新设计正在重塑高性能计算与人工智能的基础设施逻辑。

智能计算研究中心·2025-04-09 14:40

Python----TensorFlow（TensorFlow介绍，安装，主要模块，高级功能）

TensorFlow可以在Windows、Linux和macOS等操作系统上运行，同时也支持Android和iOS移动平台，还能在多个CPU/GPU构

蹦蹦跳跳真可爱589·2025-04-09 14:40

适用于 NVIDIA Blackwell 架构的全新软件驱动 AI 工厂高速运行

该软件可将GPU利用率提高5倍，并提高各种规模的训练和推理效率。蒸汽推动了工业时代的发展，数字时代通过软件带来了转变。

NVIDIA AI技术专区·2025-04-09 07:27

【探商宝】 Llama 4--技术突破与争议并存的开源多模态

例如：Llama4Scout（中杯）：16位专家，17B活跃参数，总参数量109B，单张H100GPU可运行INT4量化版本，支持1000万上下文窗口（约2000万字）。

探熵科技·2025-04-09 03:59

唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

从「建好」到「用好」，企业级智算平台借助专有云ABCStack的GPU提效服务，应对大模型业务挑战，唤醒AI算力，加速AI原生业务的落地。

·2025-04-08 11:22

深入应用FPGA的人形机器人控制系统设计思路

深入应用FPGA的人形机器人控制系统设计思路主要包括以下几个方面：总体架构设计异构融合架构：采用CPU、GPU与FPGA异构融合的架构，充分发挥各硬件的优势。

程序员Thomas·2025-04-08 10:34

亚马逊多账号风控防护体系构建指南

一、复合型环境隔离技术解析1.1硬件指纹防护体系主板级防护：建议采用TPM2.0安全芯片存储设备指纹（如IntelvPro技术）显卡特征混淆：通过OpenGL指令集重定向实现GPU指纹动态化时钟偏移技术

跨境卫士情报站·2025-04-08 05:03

FPGA 2 ，FPGA与CPU GPU APU DSP NPU TPU 之间的关系与区别

目录前言首先，FPGA与CPUGPUAPUNPUTPUDSP这些不同类型的处理器，可以被统称为"处理器"或者"加速器"。

北城笑笑·2025-04-08 04:59

Ubuntu 16.04 + CUDA 8.0 + cuDNN v5.1 + TensorFlow(GPU support)安装配置详解

转载：https://www.cnblogs.com/wangduo/p/7383989.htmlUbuntu16.04+CUDA8.0+cuDNNv5.1+TensorFlow(GPUsupport)

caiexu·2025-04-08 04:55

关于 CUDA 的一些名词解释

显卡GPU显卡是硬件设备，也就是GPU，主要用于图形计算和高性能并行计算任务，目前尤其指NVIDIA公司生产的GPU系列。

皮卡兔子屋·2025-04-08 01:10

Ubuntu 20.04息屏后唤醒系统死机处理方法

霹雳山人·2025-04-07 21:14

详解 JuiceFS 在多云架构下的数据同步与一致性

随着大模型流行，GPU算力资源正变得日益稀缺，传统的“算力跟着存储跑”的策略需要转变为“存储跟着算力跑”。

Juicedata·2025-04-07 21:10

NPU 310、310P和GPU 4090推理耗时对比

华为310、310P、GPU4090推理性能耗时对比：测试图像大小为：300*300推理卡名字单张推理耗时310100ms310P50ms409060msbatch推理耗时对比:310310P4090batch

JobDocLS·2025-04-07 20:07

D1084：5A大电流可调低压差稳压器深度解析

产品定位D1084是我们推出的5A大电流三端稳压器，支持1.5V-5.0V固定输出或1.25V基准可调输出，典型压降仅1.4V（5A时），专为高性能CPU/GPU供电设计。

青牛科技-Allen·2025-04-07 19:34

计算机系统---性能指标(1)CPU与GPU

一、计算机CPU的性能指标1.架构设计（Architecture）指令集架构（ISA）x86架构（CISC复杂指令集）：Intel/AMD主流架构，兼容Windows生态，代表产品如Intel酷睿、AMD锐龙，支持超线程（HT）和多线程技术。ARM架构（RISC精简指令集）：低功耗优势，用于移动设备（如手机、平板）及服务器（如AppleM系列、QualcommSnapdragon），通过动态指令翻

MzKyle·2025-04-07 17:46

显卡、显卡驱动、cuda、cuDNN之间关系

下面是对这些组件及其关系的详细介绍：显卡（GPU）显卡，全称为图形处理器（GraphicsProcessingUnit，GPU），是计算机中的专用硬件，最初设计用于处理图形渲染和视频输出。

ergevv·2025-04-07 08:54

[machine learning] Triton Server & TensorRT

一、TritonServer1.1架构介绍Triton是一个高性能的推理软件框架，它既支持GPU推理，又支持CPU推理，既能部署在server上，也能部署在端侧设备上。

进阶的小蜉蝣·2025-04-07 05:04

Unity 性能优化方案

‌Unity性能优化的主要方案包括以下几个方面‌：一、减少DrawCall‌DrawCall就是CPU调用图形编程接口，是CPU向GPU发送的命令1.CPU和GPU并行工作的原理CPU和GPU工作有一个命令缓冲区

_乐无·2025-04-06 23:25

llama.cpp 和 vLLM 的详细对比分析

llama.cpp和vLLM的详细对比分析，基于最新技术动态（2025年4月）整理：1.核心定位维度llama.cppvLLM设计目标轻量化边缘计算，突破硬件限制（如手机/树莓派）企业级高性能推理，优化GPU

MC数据局·2025-04-06 23:53

Unity中优化绘制调用整理

DrawCall指的是CPU向GPU发送渲染指令的过程，在Unity中，每次渲染一个网格时，CPU都需要向GPU发送一系列的渲染指令，这个过程被称为一次绘制调用（DrawCall）。

浅陌sss·2025-04-06 23:22

GPU 上的 Reduction（归约）和 Scan（前缀和）优化：LLVM、GPU 指令集与架构差异

在GPU上进行Reduction（归约）和Scan（前缀和）运算，如果想要最大化性能，不仅仅是写一个Kernel就完事了，还需要深入了解：LLVM优化机制GPU指令集（如shuffle、DPP、LDS、

codebat_raymond·2025-04-06 22:17

芯片介绍-RK3399微处理器

支持多操作系统：二、规格参数一、产品简介一、六核64位高性能一体板AIO-3399JD4一体板采用RK3399六核64位(A72×2+A53×4)处理器，主频高达1.8GHz，集成四核Mali-T860GPU

漂泊在海上的星星·2025-04-06 19:59

污点（Taint）和容忍度（Toleration）存在的意义和需求

和容忍度（Toleration）机制被引入主要是为了满足对集群资源更精细的调度和管理需求，以下从多个方面详细阐述它们出现的原因：节点资源隔离特殊硬件资源节点：在集群里，有些节点可能配备了特殊的硬件资源，像GPU

网络飞鸥·2025-04-06 18:23

推荐频道

GPU

【场景应用2】speech_recognition： 微调语音模型

WebXR：WebXR性能优化技巧_2024-07-26_16-19-42.Tex

Asahi Linux 核心开发者暂停苹果 GPU Linux 驱动开发工作

架构发展史

DirectX12（D3D12）基础教程四 入门指南

Unity光线传播体积(LPV)技术实现详解

Unity多Pass渲染与GPU Instancing深度优化指南

基于Compute Shader的GPU粒子系统技术详解与实现

Unity Enlighten与Progressive GPU Lightmapper对比分析

Ubuntu22.04安装Ollama部署DeepSeek-R1:32B模型

AI平台如何实现推理？数算岛是一个开源的AI平台（主要用于管理和调度分布式AI训练和推理任务。）

【深度学习基础】Windows实时查看GPU显存占用、功耗、进程状态

系统开机设备寻址全流程：从 UEFI 伪代码到内核映射

【赞奇实测】DeepSeek 不同 GPU 性能测试一期（4090 VS 5000 Ada VS 5880 Ada）

python常用工具类

opencv+ONNX模型的推理

AI 智能体GPU算力估算方案：从知识检索到生成的全链路实践

当 Ollama 遇上 OpenVINO™ ：解锁多硬件 AI 推理新范式

PyTorch多GPU训练实战：从零实现到ResNet-18模型

230516-pytorch-线性回归模型-GPU

在Python中使用GPU进行并行计算的方法

GPU教程之开始在 Python 中快速使用 GPU 进行数据科学项目(教程含源码)

五分钟使用ollama部署本地大模型

重识 APO：DeepSeek 掀起可观性领域变革 | 龙蜥生态

第T7周：咖啡豆识别

T8 咖啡豆识别

python3.7安装tensorflow-gpu_tensorflow-gpu安装的常见问题及解决方案

A100架构解析：超算集群效能跃迁与数据处理范式重构

Python----TensorFlow（TensorFlow介绍，安装，主要模块，高级功能）

适用于 NVIDIA Blackwell 架构的全新软件驱动 AI 工厂高速运行

【探商宝】 Llama 4--技术突破与争议并存的开源多模态

唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

深入应用FPGA的人形机器人控制系统设计思路

亚马逊多账号风控防护体系构建指南

FPGA 2 ，FPGA与CPU GPU APU DSP NPU TPU 之间的关系与区别

Ubuntu 16.04 + CUDA 8.0 + cuDNN v5.1 + TensorFlow(GPU support)安装配置详解

关于 CUDA 的一些名词解释

Ubuntu 20.04息屏后唤醒系统死机处理方法

详解 JuiceFS 在多云架构下的数据同步与一致性

NPU 310、310P和GPU 4090推理耗时对比

D1084：5A大电流可调低压差稳压器深度解析

计算机系统---性能指标(1)CPU与GPU

显卡、显卡驱动、cuda、cuDNN之间关系

[machine learning] Triton Server & TensorRT

Unity 性能优化方案

llama.cpp 和 vLLM 的详细对比分析

Unity中优化绘制调用整理

GPU 上的 Reduction（归约）和 Scan（前缀和）优化：LLVM、GPU 指令集与架构差异

芯片介绍-RK3399微处理器

污点（Taint）和容忍度（Toleration）存在的意义和需求

【场景应用2】speech_recognition：微调语音模型

DirectX12（D3D12）基础教程四入门指南