GPU驱动安装

NVIDIA Cosmos-Transfer1：重塑物理AI训练的革命性“世界生成器”

2025年3月22日在2025年GPU技术大会（GTC）上，英伟达（NVIDIA）重磅发布了其最新AI模型Cosmos-Transfer1，这一突破性技术通过多模态空间控制输入生成高度逼真的虚拟世界，为机器人

未来智慧谷·2025-03-26 05:16

H100赋能生成式AI算力革新

内容概要NVIDIAH100GPU的推出标志着AI算力架构的范式革新。

智能计算研究中心·2025-03-26 04:13

如何利用多张 GPU 高效运行 Ollama

在当今的人工智能和机器学习领域，利用多GPU进行加速计算已经成为提升性能的关键手段。本文将详细介绍如何在系统中使用多张GPU来运行Ollama，充分发挥硬件的强大性能。

刘怼怼·2025-03-26 01:20

Ray 源码分析(16)—Ray Serve

它具有多项用于服务大语言模型的特性和性能优化，例如响应流、动态请求批处理、多节点/多GPU服务等。据说OpenAI背后用

Jim.Li·2025-03-26 01:15

Ray 源码分析系列(2)—编译

编译步骤1.下载代码仓库gitclonehttps://github.com/ray-project/ray.git2.下载官方镜像由于习惯用gpu的镜像开发与调试，直接来个gpu版本的。

Jim.Li·2025-03-26 01:45

NVIDIA GTC 开发者社区Watch Party资料汇总

NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总，希望可以帮到各位：1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp：高性能GPU模拟与图形计算的

扫地的小何尚·2025-03-26 00:41

国内GPU算力租用平台

GPU算力租用平台为深度学习、科学计算、图形渲染等领域的研究者、开发者及企业提供了强大的计算支持。

君君学姐·2025-03-25 21:15

发布AiCube DeepSeek一体机，中兴通讯加速AI大模型商业化落地

AiCubeDeepSeek一体机通过软硬件一体化设计，支持DeepSeek等大模型在不同计算架构GPU间的无缝迁移，显著提升了部署效率和安全性。

蜂耘·2025-03-25 21:13

WebGPU实战：Three.js性能优化新纪元

一、WebGPU技术突破解析1.1传统WebGL的架构瓶颈graphLRA[JavaScript]-->B[WebGLBinding]B-->C[OpenGLES]C-->D[GPUDriver]D--

AWS官方合作商·2025-03-25 13:46

在GpuGeek上创建实例如何自定义环境？

Step2：安装Python登录实例终端，根据需要的Python版本创建虚拟环境：condacreate-ngpugeekpython==3.8.10condaactivategpugeekpython3

·2025-03-25 13:48

本机（Windows）和服务器（Linux）之间传输文件的命令

将本机文件上传至服务器的命令：scp-P端口号"D:\test\1.txt"root@i-2.gpushare.com:/hy-tmp/datasets功能为将D盘根目录下test文件夹中的1.txt上传至服务器的

catchtimea·2025-03-25 11:05

Tensorflow 2 单GPU同时训练多个模型

Tensorflow2单GPU同时训练多个模型问题有时我们需要对多个模型进行性能对比。若一次只训练一个模型，我们需要时刻关注训练进度，非常耗费精力。同时进行多个模型的训练能够降低人力成本。

TTTYYZZ·2025-03-25 07:36

怎么在linux服务器选择GPU进行训练模型？

首先查看当前节点有那些可用的GPU：使用nvidia-smi命令来查询Linux服务器上可用的GPUnvidia-smi命令会输出一些关于服务器上NVIDIAGPU的信息，包括每个GPU的型号、驱动版本

LRJ-jonas·2025-03-25 07:03

如何在多个GPU中训练非常大的模型？

目录一、并行训练策略1.数据并行2.模型并行3.混合并行：4.上下文并行二、内存优化技术三、总结在多个GPU上训练超大规模模型（如千亿参数级语言模型）需要结合并行策略、内存优化技术、分布式框架。

Mr终游·2025-03-25 07:00

轻量级AI革命：无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐

随着人工智能技术的快速发展，大语言模型已成为推动产业智能化的重要工具。在这一领域，DeepSeek系列模型凭借其创新的架构和高效的性能，成为众多开发者和企业关注的焦点。而其中的R1-1.5B模型，作为家族中参数量最小、资源需求最低的版本，更是备受青睐。下面就让我们来看看DeepSeek各模型之间的性能差异、应用场景，以及部署R1-1.5B模型时所需的云服务器配置。DeepSeek开源模型官方文档一

·2025-03-25 04:09

【CUDA】了解GPU架构

目录一、初步认识二、Fermi架构三、Kepler架构3.1动态并行3.2Hyper-Q一、初步认识SM（StreamingMultiprocessors）是GPU架构中非常重要的部分，GPU硬件的并行性就是由

GG_Bond21·2025-03-25 04:07

AMD RDNA3 GPU架构解析

本文会通过把AMD的RDNA3架构为例比喻为施工公司工作模式，深入理解GPU如何高效处理顶点着色、像素计算等任务。一、施工公司的组织架构1.施工公司（WGP）与施工队（CU

颜早早·2025-03-25 01:46

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-03-24 15:38

一文搞懂ASIC和GPU

近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。

·2025-03-24 15:08

OpenRAND可重复的随机数生成库

特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。

novanova2009·2025-03-24 12:41

基于WebAssembly的浏览器密码套件

2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU

闲人编程·2025-03-24 09:13

使用 Baseten 部署和运行机器学习模型的指南

无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同

shuoac·2025-03-24 03:17

机器学习 Day01人工智能概述

1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。

山北雨夜漫步·2025-03-23 22:58

【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址

TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu

江上_酒·2025-03-23 21:25

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】

文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是

待磨的钝刨·2025-03-23 18:53

H800能效架构实战解析

在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率

智能计算研究中心·2025-03-23 15:56

AI大模型训练教程

2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin

Small踢倒coffee_氕氘氚·2025-03-23 12:07

英伟达常用GPU参数速查表，含B300.....

英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域

Ai17316391579·2025-03-23 11:59

学习笔记——GPU

注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。

鹤岗小串·2025-03-23 09:17

显卡（Graphics Processing Unit，GPU）架构详细解读

显卡架构主要分为两大类：GPU核心架构（也称为图形处理单元架构）和显卡的其他组件（如内存、控制器、输出接口等）。

m0_74824112·2025-03-23 06:44

GPU架构分类

一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。

大明者省·2025-03-23 06:11

一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）

文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解

AI天才研究院·2025-03-23 02:36

不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人

可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。

阳光永恒736·2025-03-22 20:01

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。

哈罗·沃德·2025-03-22 15:19

GPU计算的历史与CUDA编程入门

GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。

己见明·2025-03-22 12:49

GTC 2025 中文在线解读

作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库

扫地的小何尚·2025-03-22 11:17

知识蒸馏：让大模型“瘦身“而不失智慧的魔术

GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。

一休哥助手·2025-03-21 21:06

在网页跑3D多人互动之渲染效能瓶颈

数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。

微网兔子·2025-03-21 17:24

密码策略合规性检查仪表盘

目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI

闲人编程·2025-03-21 16:49

17.1Go语言操作MongoDB

驱动安装gogetgo.mongodb.org/mongo-driver/mongo基础连接示例packagemainimport("context""fmt""log""time""go.mongodb.org

chxii·2025-03-21 12:48

CPO光电共封装关键技术与Top玩家代表作

CPO（Co-PackagedOptics，光电共封装）关键技术介绍CPO（Co-PackagedOptics）是一种将光学器件与电子芯片（如ASIC、CPU、GPU等）封装在同一基板上的技术。

CoderIsArt·2025-03-21 12:17

Marker可以快速且准确地将PDF转换为markdown格式。

支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理

星霜笔记·2025-03-21 11:34

Open-Sora - 为所有人实现高效的视频制作大众化

小众AI·2025-03-21 10:57

无矩阵乘法LLM：效率与性能双突破

标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。

XianxinMao·2025-03-21 08:42

高性能计算:GPU加速与分布式训练

传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。

AI天才研究院·2025-03-21 06:17

查看 CUDA cudnn 版本查看Navicat GPU版本

查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()

FergusJ·2025-03-21 03:30

OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3，精准识别黄仁勋演讲实拍

3月12日晚间，谷歌发布了「单卡大魔王」Gemma3，号称是能在单个GPU或TPU上运行的最强模型，真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3，以及o3-

·2025-03-20 18:00

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用

AI天才研究院·2025-03-20 18:45

CUDA编程基础

它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。

清澜·2025-03-20 17:35

推荐频道