GPU 第2页

BEV-Fusion环境配置（RTX4090）

BEV-Fusion环境配置（RTX4090）SystemVersionSystemVer.Ubuntu22.04.5LTSKernelVer.6.8.0-57-genericGPU:RTX4090CudaVersionin

·2025-06-23 06:10

【转载翻译】Open3D和PCL的一些比较

https://github.com/LaplaceKorea/investigate_open3d_vs_pcl/blob/main/README.rst#whats-the-support-for-gpus-look-like-in-open3d

空名Noname·2025-06-23 02:40

单机环境下基于 LLM-Agent 框架的数据查询智能体训练教程

单机环境下基于LLM-Agent框架的数据查询智能体训练教程以下教程介绍如何在单机环境（CPU或1~2张GPU）上，使用LLM-Agent框架搭建并训练一个混合数据源查询智能体。

·2025-06-23 00:53

Oracle第五章PL/SQL基础

Homework-Chapter55.7.1实训Practicaltraining1：PL/SQL基础Basics〖实训目的Trainingpurpose〗（1）学会PL/SQL基本语法；LearnbasicPL

ZShuiShen·2025-06-22 23:49

DirectX function “GetDeviceRemovedReason“ failed with DXGI_ERROR_DEVICE_HUNG (“The GPU will not resp

玩游戏的时候，报错：DirectXfunction“GetDeviceRemovedReason”failedwithDXGI_ERROR_DEVICE_HUNG(“TheGPUwillnotrespondtomorecommands

Roc-xb·2025-06-22 21:02

在VTK中捕捉体绘制图像并实时图像处理

1.核心功能架构主窗口：3D体绘制视图（GPU加速的体积渲染）副窗口：2D截图视图（带高斯模糊后处理）交互机制：副窗口的交互操作会实时影响主窗口的3D视图2.关键组件分析2.1自定义交互器(CustomInteractorStyle

点PY·2025-06-22 20:28

基于腾讯云GPU服务器的深度学习训练技术指南

摘要本文针对深度学习训练场景，系统解析技术核心价值与实施路径，结合腾讯云GPU服务器产品特性，提供从环境搭建到性能优化的完整解决方案。

小猴崽·2025-06-22 15:00

WebGL&图形学总结（二）

GISer_Jinger·2025-06-22 14:48

DeepSpeed 深度学习学习笔记：高效训练大型模型

大型模型训练的挑战随着深度学习模型规模的爆炸式增长（从BERT的几亿参数到GPT-3的千亿参数，再到现在的万亿参数模型），传统的单GPU训练方式变得力不从心，即使是多GPU训练也面临巨大挑战：内存限制(

·2025-06-22 14:16

开发电磁-热-力-流耦合的GPU加速算法（基于NVIDIA Modulus）

一、技术背景与需求分析电磁-热-力-流多物理场耦合问题广泛存在于芯片散热设计、高功率激光器、航空航天热防护系统等场景。传统仿真方法面临以下挑战：计算复杂度爆炸：四场耦合需联立求解Maxwell方程、Navier-Stokes方程、热传导方程及结构动力学方程，单次仿真耗时可超100小时（基于CPU集群）；跨尺度建模困难：纳米级电磁热点与毫米级热流场需不同网格精度，传统有限元法（FEM）难以统一；实时

百态老人·2025-06-22 13:11

OpenCV CUDA模块设备层-----在 GPU上计算反双曲正切函数atanh()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述对输入的uchar1像素值（范围[0,255]），先归一化到[0.0,1.0]浮点区间，然后计算其反双曲正切函数atanh(x)，最终返回一个float1类型的结果。函数原型__device____forceinline__float1cv::cudev::ata

村北头的码农·2025-06-22 04:13

RISC-V向量扩展与GPU协处理：开源加速器设计新范式——对比NVDLA与香山架构的指令集融合方案

点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠当开源指令集遇上异构计算，RISC-V向量扩展（RVV）正重塑加速器设计范式。本文深入对比两大开源架构——NVIDIANVDLA与中科院香山处理器在指令集融合上的创新路径。01开源加速器生态的范式转移RISC-V向量扩展的核心突破RVV1.0标准带来三大革命性特性：1.**可伸缩向

·2025-06-22 02:05

Docker使用宿主机GPU驱动：绕开nvidia docker的神奇方法

0、前言当我们在一个docker的容器中想要使用GPU时，往往需要从dockerimage构建之初就开始使用nvidiadocker。

~LONG~·2025-06-21 19:22

面向AI推理服务的可扩展性设计

面向AI推理服务的可扩展性设计在AI大模型落地的过程中，推理服务往往面临高并发、GPU资源紧张、模型加载延迟等挑战。相比传统业务服务，AI推理服务对算力的依赖更强，运行时资源波动也更大。

·2025-06-21 14:50

资源调度与分配策略

以AI模型推理服务为例，GPU是最关键的计算资源。当一台GPU服务器同时运行多个模型服务实例，如果没有合理的资源调度机制，某些实例可能占用大量显存导致其他实例OOM，甚至拖垮整个节点。

大数据张老师·2025-06-21 14:20

AI Infra：C-S-N-D模型，解码 AI 基础设施的黄金比例

引言：从“算力战争”到“基础设施全景图”过去十年，AI技术的爆发让全球陷入了对算力的争夺战：从GPU到TPU，从千卡集群到超算中心。但当我们真正将AI技术落地于工业

·2025-06-21 13:01

深度学习笔记16-VGG-16算法-Pytorch实现人脸识别

目录前言一、前期准备1.设置GPU2.导入数据3.划分数据集二、调用官方的VGG-16模型三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化1.Loss与Accuracy

boooo_hhh·2025-06-21 12:04

tensorflow GPU训练loss与val loss值差距过大问题

问题最近在ubuntugpu上训练模型，训练十轮，结果如下epoch,loss,lr,val_loss200,nan,0.001,nan200,0.002468767808750272,0.001,44.29948425292969201,0.007177405059337616,0.001,49.16984176635742202,0.012423301115632057,0.001,49.30

LXJSWD·2025-06-21 12:03

python pytorch 张量 (Tensor)

目录前言张量Tensor1.张量的基本概念2.创建张量从Python列表或NumPy数组生成特定形状的张量指定设备（CPU/GPU）指定数据类型（dtype）3.张量的属性4.张量的操作数学运算形状操作索引与切片广播机制

Python虫·2025-06-21 11:29

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。

行云流水AI笔记·2025-06-21 11:54

查看自己电脑上的显卡内存方法GPU

第一部分：打开cmd输入dxdiag回车第二部分：点击上方显示部分查看可以看到我的这个显卡大小是6G

还不秃顶的计科生·2025-06-21 06:28

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

QLoRA结合了4-bit量化（quantization）和LoRA的低秩更新技术，使超大规模模型（如70B参数的LLaMA）能够在单GPU上进行高效微调，同时保持与全参数微调相近的性能。

彬彬侠·2025-06-21 06:23

windows10 + python -m bitsandbytes

python-mbitsandbytes-UDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation

mawenju·2025-06-21 06:22

解决docker下的Linux系统调用GPU失败

从以下网址下载：https://mirror.cs.uchicago.edu/nvidia-docker/libnvidia-container/stable/#完全移除所有nvidia容器相关包sudoaptpurgelibnvidia-container*nvidia-container*nvidia-docker*#重新安装（确保所有包版本一致）sudodpkg-ilibnvidia-con

Alphapeople·2025-06-21 05:18

Linux DRM 理解

本文从如下几个部分介绍1.DRM概念介绍2.对比HW结构分析3.code分析1.DRM概念介绍DRM是DirectRenderManager的缩写：Linux显示子系统结构框架向上提供标准API给到应用使用管理GPU

And乔·2025-06-21 04:12

linux drm子系统,Linux DRM那些事-内核代码

root@ubuntu:/home/run/code/rockchip-bsp/kernel/drivers/gpu/drm#lsamddrm_atomic.cdrm_crtc_internal.hdrm_fb_cma_helper.cdrm_internal.hdrm_modes.cdrm_rect.cexynosmgarcar-duttmarmadadrm_atomic_helper.cdrm

weixin_39523887·2025-06-21 04:41

炸裂提速！PyTorch 2.2 Torch.compile优化器实战：从原理到模型训练加速300%全攻略

一、引言：深度学习训练性能的革命性飞跃1.1传统训练模式的性能瓶颈在深度学习模型训练中，传统PyTorch训练模式面临诸多挑战：计算效率低下：某计算机视觉模型在A100GPU上训练，单步迭代耗时达800ms

游戏人生的NPC·2025-06-20 14:41

别让GPU摸鱼！榨干它！

早期，人们依靠增加GPU数量提升模型性能。

九章云极DataCanvas·2025-06-20 10:13

【CUDA】认识CUDA

CUDA的作用CUDA是NVIDIA提供的一种并行计算平台和编程模型，它允许开发者通过编写程序利用GPU的强大算力完成复杂的科学运算任务。

Gappsong874·2025-06-20 10:38

FairyGUI学习

DC就是CPU通知GPU进行一次渲染的命令如果DC次数较多会导致游戏卡顿我们可以通过打图集，将小图合并成大图，将本应n次的DC变成1次DC来提高性能知识点二FairyGUI和UGUI以及NGUI的DrawCall

future1412·2025-06-20 08:50

Keras深度学习框架第十四讲：使用TensorFlow进行多GPU分布式训练

使用TensorFlow进行多GPU分布式训练1、绪论1.1使用TensorFlow进行多GPU分布式训练概念TensorFlow是一个流行的开源机器学习框架，它支持多GPU分布式训练，允许开发者利用多个

MUKAMO·2025-06-20 06:37

【Pytorch、torchvision、CUDA 各个版本对应关系以及安装指令】

CUDA旨在利用NVIDIAGPU（图形处理单元）的强大计算能力来加速各种科学计算、数值模拟和深度学习任务。GPU并行计算C

CL_Meng77·2025-06-19 18:08

GPU 服务器：高性能计算的强大引擎

一、GPU服务器概述GPU服务器是一种专门为处理复杂计算任务而设计的服务器。它配备了高性能的图形处理单元（GPU），能够在深度学习、科学计算、视频编解码等多个领域发挥强大的作用。

海域云李潮海·2025-06-19 17:32

Open3D--core模块函数详解

1.设备管理(Device)管理计算设备（CPU/GPU/CUDA）的配置与状态检查。

X-Vision·2025-06-19 15:18

游戏引擎架构全景：从硬件到玩法的程序员之旅

一、基石：硬件、OS与第三方王国硬件层：PS5的定制SSD、XboxSeriesX的GPU、高端PC的RTX显卡——这些是引擎的物理疆域。代码在此直面硅基世界的限制（内存带宽、浮点算力、缓存延迟）。

还债大湿兄·2025-06-19 10:45

推荐文章：Faster_Mean_Shift - GPU加速的像素嵌入框架利器

乌芬维Maisie·2025-06-19 04:34

Ubuntu18.04基于Docker和Pycharm搭建Tensorflow-gpu训练环境

一、前提：安装好pycharm-professional，dockerce，nvidia-docker2，nvidia-gpu驱动。安装方法见各自链接。

城俊BLOG·2025-06-19 01:12

快速分辨率调整工具：一键切换与性能优化

它还帮助用户减轻GPU负担，提升系统响应速度，尤其适合低配置设备。用户只需双击可执行文件名“设置与降低分辨率(Ctrl+Alt+F7).exe”，即可轻松操作。然而，在使用过程中，用户应确保

温融冰·2025-06-19 00:07

云端算力革命：川翔云电脑如何重新定义创作自由

川翔云电脑以云端算力为支点，通过弹性算力、高效存储、多端接入三大核心优势，让顶级GPU资源触手可及。

渲染101专业云渲染·2025-06-18 21:46

OpenCV CUDA模块设备层-----用于CUDA 使用纹理内存的一个类模板TextureOff()

ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::cudev::TextureOff是OpenCV的CUDA模块（opencv_cudev）中用于在GPU

村北头的码农·2025-06-18 14:29

OpenCV CUDA模块图像变形------对图像进行GPU加速的仿射变换函数warpAffine()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于对图像进行GPU加速的仿射变换（AffineTransformation

村北头的码农·2025-06-18 14:59

docker容器内运行依赖GPU的程序

我的开发环境centos7docker版本为2.10.22080ti显卡，物理机已安装cuda10和对应显卡驱动运行带GPU的docker给linux安装nvidia-container-toolkitdistribution

LensonYuan·2025-06-18 13:20

DeepSeek 大型 MoE 模型大规模部署压测学习

-large-scale-ep/以上是对文章《DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs

andyguo·2025-06-18 12:14

【CUDA编程】OptionalCUDAGuard详解

OptionalCUDAGuard是PyTorch的CUDA工具库（c10/cuda）中用于安全管理GPU设备上下文的RAII（ResourceAcquisitionIsInitialization）类

量化投资和人工智能·2025-06-18 11:34

CUDA开发工具整理

·2025-06-18 11:34

JAX革命性优势解剖：GPU/TPU自动并行计算实战

近年来，大模型训练与科学计算对算力的需求呈现指数级增长。传统框架面临硬件绑定深、并行编码复杂、跨平台迁移成本高三大痛点。Google开源的JAX框架通过函数式编程范式、XLA编译优化与自动并行原语，正在重塑高性能计算的技术栈。一、JAX核心优势：三位一体的技术突破1.1函数式编程+即时编译（JIT）与PyTorch/TensorFlow的面向对象范式不同，JAX强制纯函数设计：#传统PyTorch

AI咸鱼保护协会·2025-06-18 10:58

CUDA核函数优化进阶：利用Shared Memory实现矩阵计算10倍加速

在NVIDIAA100上优化1024×1024矩阵乘法时，共享内存策略将计算速度从3.2TFLOPS提升至31.5TFLOPS——本文将揭示如何通过内存访问优化突破GPU计算瓶颈。

AI咸鱼保护协会·2025-06-18 10:57

AWS EC2 终极指南：如何选择预装 GPU 驱动和特定功能的最佳 AMI

选择一个合适的AMI，尤其是需要预装GPU驱动或特定软件栈时，能让你跳过繁琐的配置，直接进入核心工作。本文将深入解析AMI分类，并手把手教你找到最适合你需求的镜像。一、为什么AMI选择如此重要？

ivwdcwso·2025-06-18 02:38

使用开源NVIDIA cuOpt加速决策优化

使用开源NVIDIAcuOpt加速决策优化文章目录使用开源NVIDIAcuOpt加速决策优化决策优化的现实挑战供应链优化的复杂性实时决策的挑战计算复杂性的挑战NVIDIAcuOpt：GPU加速的决策优化解决方案

扫地的小何尚·2025-06-18 02:05

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

一、Docker基础命令查看容器状态dockerps#查看运行中的容器dockerps-a#查看所有容器（包括已停止的）查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai:v0.8.4打包多个镜像到一个文件docker

·2025-06-17 18:16

推荐频道

GPU