GPu

AI数字人：虚拟与现实的交融革命

这种跨越式发展背后是三大技术革命的叠加：图形渲染革命：从多边形建模到神经辐射场（NeRF）算力飞跃：GPU算力10年增长1000倍AI突破：生成对抗网络（GAN）创造逼真面容1.2市场爆发进行时根据IDC

一休哥助手·2025-03-28 22:42

OpenCV正确安装及环境变量配置

手动勾选Windows10SDK和MSVC安装CMake（3.31.6）在.npmrc配置pnpmconfigsetauto-approve-buildstrue运行pnpminstall接下来是开启GPU

饺子大魔王12138·2025-03-28 19:27

7B参数模型

一、训练/微调场景1.最低配置（能跑，但速度慢）GPU：NVIDIARTX3090/4090（24GB显存）CPU：Inteli7/i9或AMDRyzen7/9（8核以上）内存：64GBDDR4（建议3200MHz

云端源想·2025-03-28 16:34

RK3568 OpenHarmony4.0 USB摄像头

开发环境本文基于如下开发环境进行开发调试：硬件：摄像头海康USB摄像头（HIKVISIONDS-E14）硬件：RK3568开发板处理器：RK3568CPU：四核64位Cortex-A55，主频最高达2.0GHzGPU

敲嵌入式代码的·2025-03-28 16:03

国内的比较有名的机器视觉库有哪些？他们的内核是什么?

硬件加速：依赖海康自研GPU芯片（如“深眸”

yuanpan·2025-03-28 15:01

Unity光线追踪移动端降级适配技术指南

一、移动端光追的技术挑战与适配思路1.硬件限制与性能瓶颈算力限制：移动端GPU的并行计算能力仅为桌面端的1/10-1/2010带宽压力：光线追踪需要频繁访问几何数据，移动端显存带宽不足发热控制：连续高负载运算易触发设备温控降频

Clank的游戏栈·2025-03-28 15:59

Unity自定义渲染管线（Scriptable Render Pipeline）架构设计与实现指南

一、SRP技术体系概述1.核心设计理念全托管渲染控制：通过C#脚本完全掌控渲染流程模块化架构：将渲染流程拆分为可组合的RenderPassGPU友好设计：支持CommandBuffer与ComputeShader

Clank的游戏栈·2025-03-28 15:29

解决:运行 tensorflow-gpu相关代码报错/缺少dll文件（无需修改tensorflow版本）

一、问题在运行以下一些代码测试gpu的时候报错了#代码1print(tf.test.is_gpu_available())#代码2importtensorflowastfa=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0

Netceor·2025-03-28 15:56

使用 LM Studio 实现 DeepSeek 本地部署

GPU：若要进行高效推理，建议配备NVIDIAGPU（如NVIDIAGe

爆爆凯·2025-03-28 11:56

使用llama.cpp量化模型

本次实验环境为魔搭社区提供的免费GPU环境（24G），使用Llama.cpp进行4bit量化可以大幅减少大语言模型的内存占用，并提高推理效率。

LLM挣扎学员·2025-03-28 08:05

如何提升大模型的训练效率deepspeed 和 flash attition

例如，ZeRO-Offload可将部分计算卸载到CPU或NVMe存储，支持在单张GPU上训练数十亿参数的模型。

冰蓝蓝·2025-03-28 07:30

TensorFlow-MNIST手写数字分类

进行数值计算，并提供GPU加速。实现自动梯度求导（如反向传播训练）。应用机器学习模型进行预测。

Enougme·2025-03-28 07:59

神秘的图像进化：单GPU扩散蒸馏中的相对与绝对位置匹配之谜

近期，一篇题为“HighQualityDiffusionDistillationonaSingleGPUwithRelativeandAbsolutePositionMatching”的论文，为我们展示了一种在单个

步子哥·2025-03-28 07:26

Google开源机器学习框架TensorFlow SegFormer优化

一、SegFormer的TensorRT加速优化TensorRT是NVIDIA推出的深度学习推理加速库，可以显著提高SegFormer在GPU上的推理速度。

深海水·2025-03-28 02:23

配置Windows Docker、Hyper-V虚拟机和WSL的一些踩坑解决备忘（随时更新）

VRJerry·2025-03-28 01:49

屏幕刷新机制（一）：机制

SurfaceFlinger综述屏幕整体刷新机制：就是通过Choreographer、SurfaceFlinger，以垂直同步技术(VSYNC)加三重缓冲技术(TripleBuffer)的方案，保证CPU计算/GPU

yueqc1·2025-03-27 22:56

基于EasyOCR实现的中文、英文图像文本识别

pipinstalleasyocr主要特点：多语言支持：支持80+种语言的识别，包括中文、英文、日文、韩文等简单易用：几行代码即可实现OCR功能预训练模型：提供开箱即用的预训练模型GPU加速：支持CUDA

听风吹等浪起·2025-03-27 15:31

本地部署 Stable Diffusion3

本文将在本地部署SD3，GPU配置如下GPU2080TI/22G安装依赖修改WORKSPACE位置信息，安装ComfyUI##@titleEnvironmentSetupfrompathlibimportPathOPTIONS

hawk2014bj·2025-03-27 10:24

【Triton 教程】triton_language.num_programs

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

HyperAI超神经·2025-03-27 08:38

DeepSeek-R1满血版私有化部署整体方案

一、硬件配置方案‌单节点基础配置‌‌服务器型号‌：戴尔PowerEdgeR760xaGPU服务器‌CPU‌：双路AMDEPYC9654(96核/192线程，支持PCIe5.0)‌34‌内存‌：1TBDDR5ECC

A管哥@IT运维·2025-03-27 08:38

DeepSeek 本地部署详细教程

一、环境准备1.1硬件要求GPU：推荐NVIDIA显卡（RTX3090/4090或更高）显存：至少16GB（根据模型版本调整）内存：32GB及以上存储：50GB可用空间1.2软件依赖操作系统：Linux

文or野·2025-03-27 04:07

CUDA 学习(4)——CUDA 编程模型

CPU和GPU由于结构的不同，具有不同的特点：CPU：擅长流程控制和逻辑处理，不规则数据结构，不可预测存储结构，单线程程序，分支密集型算法GPU：擅长数据并行计算，规则数据结构，可预测存储模式在现在的计算机体系架构中

哦豁灬·2025-03-27 02:51

《今日AI-人工智能-编程日报》--源自2025年3月25日

1.AI芯片与技术动态英伟达下一代“Rubin”GPU将采用台积电SoIC封装技术，与AMD、苹果共同推进先进封装工艺，预计2025年下半年量产。

小亦编辑部·2025-03-26 22:28

Unsloth 库和Hugging Face Transformers 库对比使用

它通过优化计算步骤和GPU内核，显著提升训练速度并减少内存使用。

背太阳的牧羊人·2025-03-26 21:17

手把手带你在Windows中搭建本地知识库（基于ollama本地部署大模型+客户端安装版AnythingLLM）非docker环境部署

一、Ollama安装Ollama是一个专注于本地运行大型语言模型（LLM）的框架，它使得用户能够在自己的计算机上轻松地部署和使用大型语言模型，而无需依赖昂贵的GPU资源。

慕慕涵雪月光白·2025-03-26 18:24

GPU的架构&原理解析

GPU（GraphicsProcessingUnit，图形处理单元）是一种专门设计用于并行计算的硬件设备，最初用于加速图形渲染任务，但随着技术的发展，GPU已经成为通用计算（GPGPU,General-PurposecomputingonGraphicsProcessingUnits

大数据追光猿·2025-03-26 17:18

获取GPU信息 --createWindowSurface EGL_BAD_NATIVE_WINDOW -- failed: EGL_BAD_MATCH

之前网上有很多关于获取GPU信息的帖子，大部分手机都可以获取到，但部分奇葩就不行了。

jiantaocd·2025-03-26 16:41

水冷技术：高效散热的革新之路

水冷（WaterCooling）是一种利用水或水基冷却液作为热传导介质的散热技术，通过循环系统将热量从热源（如CPU、GPU、发动机等）传递到散热器，最终通过空气对流或外部环境释放热量。

飞天kuma·2025-03-26 14:28

k8s集群添加一个新GPU节点

前提现在是已经搭建好一个GPU集群，需要添加一个新的节点（3090卡），用来分担工作，大致可以分为以下几个部分：1，安装GPU驱动2，安装docker3，安装cri-dockerd4，离线安装Nvidia-container-toolkit5

thinkerCoder·2025-03-26 13:49

NVIDIA Cosmos-Transfer1：重塑物理AI训练的革命性“世界生成器”

2025年3月22日在2025年GPU技术大会（GTC）上，英伟达（NVIDIA）重磅发布了其最新AI模型Cosmos-Transfer1，这一突破性技术通过多模态空间控制输入生成高度逼真的虚拟世界，为机器人

未来智慧谷·2025-03-26 05:16

H100赋能生成式AI算力革新

内容概要NVIDIAH100GPU的推出标志着AI算力架构的范式革新。

智能计算研究中心·2025-03-26 04:13

如何利用多张 GPU 高效运行 Ollama

在当今的人工智能和机器学习领域，利用多GPU进行加速计算已经成为提升性能的关键手段。本文将详细介绍如何在系统中使用多张GPU来运行Ollama，充分发挥硬件的强大性能。

刘怼怼·2025-03-26 01:20

Ray 源码分析(16)—Ray Serve

它具有多项用于服务大语言模型的特性和性能优化，例如响应流、动态请求批处理、多节点/多GPU服务等。据说OpenAI背后用

Jim.Li·2025-03-26 01:15

Ray 源码分析系列(2)—编译

编译步骤1.下载代码仓库gitclonehttps://github.com/ray-project/ray.git2.下载官方镜像由于习惯用gpu的镜像开发与调试，直接来个gpu版本的。

Jim.Li·2025-03-26 01:45

NVIDIA GTC 开发者社区Watch Party资料汇总

NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总，希望可以帮到各位：1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp：高性能GPU模拟与图形计算的

扫地的小何尚·2025-03-26 00:41

国内GPU算力租用平台

GPU算力租用平台为深度学习、科学计算、图形渲染等领域的研究者、开发者及企业提供了强大的计算支持。

君君学姐·2025-03-25 21:15

发布AiCube DeepSeek一体机，中兴通讯加速AI大模型商业化落地

AiCubeDeepSeek一体机通过软硬件一体化设计，支持DeepSeek等大模型在不同计算架构GPU间的无缝迁移，显著提升了部署效率和安全性。

蜂耘·2025-03-25 21:13

WebGPU实战：Three.js性能优化新纪元

一、WebGPU技术突破解析1.1传统WebGL的架构瓶颈graphLRA[JavaScript]-->B[WebGLBinding]B-->C[OpenGLES]C-->D[GPUDriver]D--

AWS官方合作商·2025-03-25 13:46

在GpuGeek上创建实例如何自定义环境？

Step2：安装Python登录实例终端，根据需要的Python版本创建虚拟环境：condacreate-ngpugeekpython==3.8.10condaactivategpugeekpython3

·2025-03-25 13:48

本机（Windows）和服务器（Linux）之间传输文件的命令

将本机文件上传至服务器的命令：scp-P端口号"D:\test\1.txt"root@i-2.gpushare.com:/hy-tmp/datasets功能为将D盘根目录下test文件夹中的1.txt上传至服务器的

catchtimea·2025-03-25 11:05

Tensorflow 2 单GPU同时训练多个模型

Tensorflow2单GPU同时训练多个模型问题有时我们需要对多个模型进行性能对比。若一次只训练一个模型，我们需要时刻关注训练进度，非常耗费精力。同时进行多个模型的训练能够降低人力成本。

TTTYYZZ·2025-03-25 07:36

怎么在linux服务器选择GPU进行训练模型？

首先查看当前节点有那些可用的GPU：使用nvidia-smi命令来查询Linux服务器上可用的GPUnvidia-smi命令会输出一些关于服务器上NVIDIAGPU的信息，包括每个GPU的型号、驱动版本

LRJ-jonas·2025-03-25 07:03

如何在多个GPU中训练非常大的模型？

目录一、并行训练策略1.数据并行2.模型并行3.混合并行：4.上下文并行二、内存优化技术三、总结在多个GPU上训练超大规模模型（如千亿参数级语言模型）需要结合并行策略、内存优化技术、分布式框架。

Mr终游·2025-03-25 07:00

轻量级AI革命：无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐

随着人工智能技术的快速发展，大语言模型已成为推动产业智能化的重要工具。在这一领域，DeepSeek系列模型凭借其创新的架构和高效的性能，成为众多开发者和企业关注的焦点。而其中的R1-1.5B模型，作为家族中参数量最小、资源需求最低的版本，更是备受青睐。下面就让我们来看看DeepSeek各模型之间的性能差异、应用场景，以及部署R1-1.5B模型时所需的云服务器配置。DeepSeek开源模型官方文档一

·2025-03-25 04:09

【CUDA】了解GPU架构

目录一、初步认识二、Fermi架构三、Kepler架构3.1动态并行3.2Hyper-Q一、初步认识SM（StreamingMultiprocessors）是GPU架构中非常重要的部分，GPU硬件的并行性就是由

GG_Bond21·2025-03-25 04:07

AMD RDNA3 GPU架构解析

本文会通过把AMD的RDNA3架构为例比喻为施工公司工作模式，深入理解GPU如何高效处理顶点着色、像素计算等任务。一、施工公司的组织架构1.施工公司（WGP）与施工队（CU

颜早早·2025-03-25 01:46

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-03-24 15:38

一文搞懂ASIC和GPU

近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。

·2025-03-24 15:08

OpenRAND可重复的随机数生成库

特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。

novanova2009·2025-03-24 12:41

基于WebAssembly的浏览器密码套件

2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU

闲人编程·2025-03-24 09:13

推荐频道

GPu