深度学习机器学习gpu 第2页

Open-Sora - 为所有人实现高效的视频制作大众化

小众AI·2025-03-21 10:57

无矩阵乘法LLM：效率与性能双突破

标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。

XianxinMao·2025-03-21 08:42

高性能计算:GPU加速与分布式训练

传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。

AI天才研究院·2025-03-21 06:17

查看 CUDA cudnn 版本查看Navicat GPU版本

查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()

FergusJ·2025-03-21 03:30

OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3，精准识别黄仁勋演讲实拍

3月12日晚间，谷歌发布了「单卡大魔王」Gemma3，号称是能在单个GPU或TPU上运行的最强模型，真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3，以及o3-

·2025-03-20 18:00

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用

AI天才研究院·2025-03-20 18:45

CUDA编程基础

它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。

清澜·2025-03-20 17:35

2025年开发者工具全景图：IDE与AI协同的效能革命

核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU

He.Tech·2025-03-20 14:45

人形机器人报告：新一代GPU、具身智能与AI应用

今天分享的是人形机器人系列深度研究报告：《人形机器人专题：新一代GPU、具身智能与AI应用》。（报告出品方：中泰证券）核心观点GTC2024召开在即，关注新一代GPU、具身智能、AI应用三大方向。

小报告达人·2025-03-20 13:05

centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo

在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3

小太阳，乐向上·2025-03-20 08:21

关于bitsandbytes安装报错

RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment

跃跃欲试88·2025-03-20 07:18

python -m bitsandbytes 报错解释与解决

RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation

MityKif·2025-03-20 07:44

c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作

cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU

FakeOccupational·2025-03-20 06:35

逾越TAO·2025-03-19 23:39

Deepseek的本地化部署软件工具包

选择模型版本参数规模硬件要求（最低）适用场景1.5B/7B8GB内存，无专用GPU文本处理、简单问答14B16GB内存+12GB显存代码生成、逻辑推理32B/70B24GB显存+32GB内存企业级复杂任务执行命令

哈拉少12·2025-03-19 20:14

芯片：CPU和GPU有什么区别？

CPU（中央处理器）和GPU（图形处理单元）是计算机系统中两种非常重要的处理器，它们各自有不同的设计理念、架构特点以及应用领域。

InnoLink_1024·2025-03-19 19:07

使用LoRA微调LLaMA3

步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。

想胖的壮壮·2025-03-19 16:12

nvidia_uvm 被占用，nvidia-smi 卡死

系统可以识别到多块NVIDIAGPU，且驱动模块已加载，但nvidia_uvm被占用，nvidia-smi卡死，通常是由于以下原因导致：可能原因GPU资源被占用某些进程正在使用NVIDIA驱动，导致模块无法卸载

guganly·2025-03-19 15:08

用户行为路径分析（Google Analytics数据挖掘）

目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU

闲人编程·2025-03-19 14:00

算力未来演进与多场景创新

从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。

智能计算研究中心·2025-03-19 11:06

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。

·2025-03-19 11:59

Windows 图形显示驱动开发-WDDM 3.0功能- IOMMU DMA 重新映射（一）

概述直到WDDM3.0，Dxgkrnl仅支持通过1:1物理重新映射实现IOMMU隔离，这意味着GPU访问的逻辑页被转换为相同的物理页码。

程序员王马·2025-03-19 07:58

Linux中部署DeepSeek R1

DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化

Java探索者 °·2025-03-19 07:26

深入GPU渲染流水管线：从顶点到像素的微观世界

现代图形硬件的架构解密与优化实践一、渲染流水线全景解析1.经典渲染管线阶段划分应用阶段几何阶段光栅化阶段像素处理阶段输出合并阶段2.现代GPU架构演进SIMT架构特性：NVIDIASM(StreamingMultiprocessor

晴空了无痕·2025-03-19 01:00

程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化

这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H

AI创享派·2025-03-18 20:59

自建 DeepSeek 时代已来，联网搜索如何高效实现

基于7B/13B参数量的模型在常规GPU服务器上即可获得商业级响应效果，配合Higress开源AI网关的增强能力，开发者可快速构建具备实时联网搜索能力的智能问答系统。

·2025-03-18 18:38

yolov4

V4贡献：亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点两大核心方法，从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了

zzh-·2025-03-18 16:28

【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！

文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表

一只云卷云舒·2025-03-18 16:56

使用 WebP 优化 GPU 纹理占用

WebP格式相比JPEG/PNG文件更小，可以减少GPU纹理内存占用，提高WebGL/Three.js/3D渲染的性能。为什么WebP能减少GPU内存占用？

泫凝·2025-03-18 14:45

LLaMA-Factory 微调训练

LLaMA-Factory微调训练该框架功能，标注-微调-导出-合并-部署，一整条流程都有，而且训练时消耗的gpu算力也会小一些一，安装（推荐在linux中训练，win可以用wsl+docker）gitclonehttps

zsh_abc·2025-03-18 14:40

指纹浏览器：隐私保护利器与技术实践指南——从身份隐匿到多账号管理的核心解析

▶核心技术解析Canvas指纹：不同设备的抗锯齿算法差异生成唯一哈希值，成为主流追踪手段WebGL指纹：提取GPU驱动版本等硬件信息，构建设备画像环境参数交叉验证：时区、屏幕分辨率、

Hotlogin·2025-03-18 13:07

金枪鱼net·2025-03-18 12:31

PyTorch 生态概览：为什么选择动态计算图框架？

其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新

小诸葛IT课堂·2025-03-18 07:12

Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 视频编码（一）

关于Direct3D12视频编码在Windows11（WDDM3.0）之前，DirectX12提供了应用程序和驱动程序级接口（API和DDI），以支持多个视频应用程序的GPU加速，包括视频解码、视频处理和运动估计

程序员王马·2025-03-18 07:38

ubuntu20.04挂起/休眠后无法唤醒，只能强制重启

设备信息OS:Ubuntu20.04.2LTSx86_64Kernel:5.8.0-63-genericShell:zsh5.8DE:GNOMECPU:Inteli5-6300HQ(4)@3.200GHzGPU

koigh·2025-03-18 04:11

ubuntu20.04 GPU基准测试

目前仅在一种机型尝试环境系统版本（cat/etc/issue）ubuntu20.04gpu数量及型号（lspci|grepNV|grepVGA）02:00.0VGAcompatiblecontroller

爱吃土豆的猫ttt·2025-03-18 04:11

torch.unsqueeze：灵活调整张量维度的利器

在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。

冰蓝蓝·2025-03-17 23:07

如何使用MATLAB进行高效的GPU加速深度学习模型训练？

要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。

百态老人·2025-03-17 22:56

matlab怎么将代码在gpu上运行,使用GPU加速MATLAB代码？

使用GPU加速MATLAB代码？

如果有片海·2025-03-17 22:26

Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 增强型屏障（二）

任何依赖于先前GPU工作的GPU工作都必须在访问相关数据之前同步。增强型屏障接口使用显式SyncBefore和SyncAfter值作为逻辑位字段掩码。

程序员王马·2025-03-17 22:24

【技术解密】本地部署 DeepSeek-V3：完整指南

1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持

海棠AI实验室·2025-03-17 22:54

推荐文章：GPU 基于顶点着色器的高效动画系统 for Unity.Entities

劳治亮·2025-03-17 22:53

[Unity] GPU动画实现（四）——生成动画数据

目前使用的方法有一个很大缺陷在于基于顶点生成的动画占用的空间很大，一个理想的情况是基于骨骼数据，本文权当抛砖引玉，后续有时间考虑尝试一下基于骨骼数据生成动画。本文内容大量参考自白菊花瓣丶的视频，感谢！生成动画数据需要用到ComputeShader来提高运行的效率，首先在Resources下创建这样一个computeshader，在这里我将其命名为"AnimVertices"。#pragmakern

Zhidai_·2025-03-17 22:23

[Unity] GPU动画实现（一）——介绍

当谈到戴森球计划的时候，我师兄说里面的动画都是一个叫GPU动画的东西来实现的，几乎一切图形功能名字扯到GPU的时候，通常都是高性能的体现，让我不禁好奇GPU动画是什么东西。

Zhidai_·2025-03-17 22:22

Matlab GPU加速技术

1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。

算法工程师y·2025-03-17 21:50

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型

低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。

源泉的小广场·2025-03-17 21:19

PyTorch中，将`DataLoader`加载的数据高效传输到GPU

一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量

大霸王龙·2025-03-17 20:42

智能体平台架构深度剖析：从底层到应用的全链路解析

其中，GPU和服务器构成了强大的计算硬件支撑，确保平台能够应对复杂的计算任务。而数据与OSS（对象存储服务）则如同智能体的“

·2025-03-17 20:18

21-梯度累积原理与实现

一、基本概念在深度学习训练的时候，数据的batchsize大小受到GPU内存限制，batchsize大小会影响模型最终的准确性和训练过程的性能。

机器人图像处理·2025-03-17 19:34

Cesium：开源的三维地球可视化引擎

特点：a.高性能：Cesium利用GPU加速和流式处理技术，能够处理大规模的地理数据，并实时渲染出逼真的三维地球场景。b.开放性：Cesium是一个开源项目

ZD1·2025-03-17 16:13

推荐频道

深度学习机器学习gpu