gpu 第2页

【大模型】微调一个大模型需要多少 GPU 显存？

视频链接：微调一个模型需要多少GPU显存？

酒酿小圆子～·2025-04-06 13:50

OpenGL(三)着色器语言GLSL

着色器语言在GPU上运行的图形渲染语言，类C风格。

战术摸鱼大师·2025-04-06 09:53

七、OpenGL ES 着色器语言GLSL

一、关于着色器着色器（Shader）是在GPU上运行的小程序。从名称可以看出，可通过处理它们来处理顶点。此程序使用OpenGLESSL语言来编写。它是一个描述顶点或像素特性的简单程序。

mChenys·2025-04-06 09:53

GPU编程实战指南04：CUDA编程示例，使用共享内存优化性能

以下是详细分析：1.CUDA内存层次结构CUDA设备（GPU）具有多层次的内存架构，主要包括以下几种：寄存器（Registers）：每个线程私有的高速存储单元，速度最快但容量有限。

anda0109·2025-04-06 07:10

深度剖析英伟达 GTC 2025：开启 AI 与计算的新纪元

一、盛会启幕，行业聚焦在科技飞速发展的当下，英伟达年度技术盛会GTC（GPUTechnologyConference）无疑是全球AI与计算领域的顶级盛宴。

代码世界的浪客·2025-04-06 06:33

使用 AMD GPU 加速推理的投机采样

SpeedUpTextGenerationwithSpeculativeSamplingonAMDGPUs—ROCmBlogs随着变压器模型的规模增长，进行推理的成本也在增加，影响了延迟和吞吐量。

109702008·2025-04-06 06:32

从渲染原理剖析如何提高 Flutter 应用性能

本文将主要讲讨论UI线程中的性能优化，由于GPU线程涉及底层Skia图形引擎的调用，相较于UI线程而言更加繁琐，对其感兴趣的同学可以观看Google官方的《深入了解Flutter的高性能图形渲染》。

鹅肝手握高V五色·2025-04-06 05:55

pytorch1.2.0 GPU安装

1.创建框架环境cmd窗口输入：condacreate-npytorch1.2.0python=3.6.52.激活环境condaactivatepytorch1.2.03.安装框架pipinstalltorch=1.2.0torchvision=0.4.0-fhttps://download.pytorch.org/whl/torch_stable.html

缘来也不错·2025-04-06 05:23

【Cuda 编程思想】CUDA线程执行原理

CUDA线程执行原理CUDA的线程执行原理是理解GPU并行计算的基础。

Mr.Lee jack·2025-04-06 04:51

deepseek开源周的所有项目总结报告

以下是对这五个项目的详细总结报告：1.FlashMLA（2月24日发布）FlashMLA是DeepSeek首个开源的代码库，针对NVIDIAHopper架构GPU（如H800）优化的高效多层注意力（MLA

LisaHusband·2025-04-06 03:40

（本地 GPU vs 云计算 vs 端侧 AI）

本文将详细介绍如何在本地GPU、云计算以及端侧AI环境中部署私有AI大模型，并给出具体实战操作指南。

晴天彩虹雨·2025-04-06 03:38

解决：CUDA error: no kernel image is available for execution on the device CUDA kernel errors

这个错误表明CUDA设备（GPU）无法执行当前的PyTorch操作，通常是因为PyTorch版本与CUDA驱动不兼容，或者GPU计算能力不被支持。

Dawn³·2025-04-05 23:13

下载 MindSpore &配置 PyTorch环境

以下是下载MindSpore并配置PyTorch环境的详细步骤，适用于常见的Linux/Windows系统（以NVIDIAGPU为例）：一、环境准备1.硬件与软件检查GPU支持：确保使用NVIDIA显卡

Dawn³·2025-04-05 23:13

LLM 优化技术(4)——flash_attention 原理

FastandMemory-EfficientExactAttentionwithIO-Awareness如上图所示，Flash-attention采用了矩阵分块和算子融合(safesoftmaxreducetion)的方法，尽可能的减少内存的IO时间，最大化利用GPU

哦豁灬·2025-04-05 22:37

深度学习主流经典框架PyTorch（day1）

PyTorch使用张量（tensor）来表示数据，可以轻松地处理大规模数据集，且可以在GPU上加速。

inquisitor.dom·2025-04-05 21:29

第J9周：Inception v3算法实战与解析

文章目录一、前期准备1.设置GPU/CPU2.导入数据3.划分数据集二、搭建网络模型1.Inception-A3.Inception-C4.Reduction-A5.Reduction-B6.辅助分支7

计算机真好丸·2025-04-05 20:56

# 教你计算模型训练时资源占用

然而，在使用BERT-Base模型时，显存（GPU内存）的占用问题常常成为开发者们需要面对的重要挑战。本文将深入探讨BERT-Base模型的显存占用来源，并提供一系列实用的

@MrLiu·2025-04-05 11:24

3dgs通俗讲解

特点：无深度学习简单的机器学习大量的CG知识复杂的线性代数对GPU的高性能编程一、什么是splatting1、选择“雪球”；为什么使用核（雪球）各向同性：在所有方向具有相同的扩散梯度（球）；各向异性：在不同方向具有不同的扩散程度

whuzhang16·2025-04-05 10:18

使用ollama部署本地大模型(没有GPU也可以)，实现IDEA和VS Code的git commit自动生成

详情问豆包，提示词如下：收集下ollama相关信息，包括但不限于：官网地址/GitHub地址/文档地址官网地址https://ollama.com/GitHub地址https://github.com/ollama/ollama文档地址https://github.com/ollama/ollama/blob/main/docs/README.md安装https://ollama.com/down

阿杜杜不是阿木木·2025-04-05 09:13

树莓派超全系列文档--(13)如何使用raspi-config工具其二

如何使用raspi-config工具其二`raspi-config`PerformanceoptionsOverclockGPUmemoryOverlayfilesystemFanLocalisationoptionsLocaleTimezoneKeyboardWLANcountryAdvancedoptionsExpandfilesystemNetworkinterfacenamesNetwor

想躺在地上晒成地瓜干·2025-04-05 00:18

raspistill command not found

(我使用的系统为命令行版本，无桌面)原因在最新的树莓派系统中已经从基于专有BroadcomGPU代码的传统相机

想躺在地上晒成地瓜干·2025-04-05 00:18

DeepSeek本地部署全攻略

一、部署前准备（一）硬件需求GPU：DeepSeek对GPU性能有着较高要求，强烈推荐使用NVIDIAGPU，诸如

科目三次郎·2025-04-04 23:09

signature=e3020ad5caa17ee07f1f9c55b406f82e,yarn-error.log

Arguments:D:\ProgramFiles\nodejs\node.exeD:\ProgramFiles(x86)\Yarn\bin\yarn.jsPATH:C:\ProgramFiles\NVIDIAGPUComputingToolkit

河马和荷花·2025-04-04 22:34

GPU云服务器厂商综合评测与排名（2025年更新版）

本文从算力性能、行业适配性、性价比、生态支持及安全性五大维度，对国内主流GPU云服务器厂商进行多场景评测。

AI_CPU_GPU_Cloud·2025-04-04 21:22

Rust 中的高效视频处理：利用硬件加速应对高分辨率视频

硬件加速技术通过利用GPU等专用硬件分担编解码任务，不仅能大幅提升处理效率，还能释放CPU资源，为用户带来更流畅的体验。

·2025-04-04 19:05

【RAGFlow】ubuntu22部署ragflow（v0.17.2）

按照官方手册部署：https://ragflow.io/docs/v0.17.2/部署环境：CPU:4核memory：16gGPU:T4(vGPU)Disk:20g1.配置国内docker-ce源https

onlyellow·2025-04-04 18:35

10.YOLOV4

M江湖传闻最高的武功：嫁衣神功2.V4贡献：亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点两大核心方法，从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都

sho_re·2025-04-04 14:06

贤小二c#版Yolov5 yolov8 yolov10 yolov11自动标注工具 + 免python环境 GPU一键训练包

贤小二c#版yolo标注训练工具集欢迎使用贤小二AI标注训练系统v2.0本课程所有演示程序全部免费1、这节课程主要演示贤小二AI标注训练系统的使用，以及标注数据时注意事项和技巧；2、本程序采用c#+Net8.0框架开发，是贤小二开发的一款Yolo标注和免环境训练的工具集，可以标注并一键生成anaconda训练脚本，可以直接免环境训练yolov5,yolov8,yolov10,yolov11等多个版

贤小二AI·2025-04-04 09:04

利用 Python 与 DeepStream 构建视频流实时分析系统

而NVIDIADeepStream的出现，使得我们可以充分利用GPU的强大并行计算能力，对视频流进行高效的编解码和后续处理，大幅提升整体性能。

Lunar*·2025-04-04 03:26

一步步教你使用 NVIDIA 推出的全新GPU加速求解器 cuOpt：解锁超高效率的求解体验

文章目录1.什么是cuOpt2.基于GPU的求解器作为传统求解器的补充3.cuOptAPI详细使用教程3.1cuOpt求解“最后一英里配送”案例3.1.1WebGUI演示3.1.2基于API的Python

Lins号丹·2025-04-04 01:15

常见各类处理器特点及区别对比

GPU图形处理器，专为并行计算优化，处理大规模数据。众核架构（数千核心），高吞吐量。图形渲染、AI训练、科学计算。并行性

真相很简单·2025-04-03 23:59

大模型——手把手教你在macos上部署Ragflow

部署首先我们去克隆代码gitclonehttps://github.com/infiniflow/ragflow.git我们在README文件中会看到下面一段描述，也就是官方是支持了x86CPU和NvidiaGPU

不二人生·2025-04-03 18:00

在PyTorch中使用GPU加速：从基础操作到模型部署

本文将通过具体代码示例，详细介绍如何在PyTorch中利用GPU进行张量计算和模型训练，包含设备查询、数据迁移以及模型部署等完整流程。

意.远·2025-04-03 17:52

GpuGeek平台新玩法上线啦！竞价实例来袭，AI算法工程师们快来围观

GpuGeek平台近日上线了新功能——竞价实例！这些可不是普通的实例哦，它们是那些“闲置待命”的超级实例，性能跟常规的GPU实例一样强大，但价格却像坐过山车一样刺激，最高能帮你省下70%的成本！

·2025-04-03 14:07

NVIDIA A100加速引擎核心技术解析

其技术革新围绕三大核心维度展开：第三代张量核心通过结构化稀疏支持与TF32精度扩展，显著提升矩阵运算效率；多实例GPU（MIG）技术通过硬件级资源分区，实现单卡多任务并行处理能力；NVLink3.0互连方案则将带宽提升至

智能计算研究中心·2025-04-03 13:25

H100突破生成式AI性能边界

内容概要NVIDIAH100GPU的发布标志着生成式人工智能算力进入全新阶段。基于Hopper架构的设计革新，该硬件在动态精度计算、并行处理能力及能效比方面实现突破性进展。

智能计算研究中心·2025-04-03 13:25

Grok 3 炸场：马斯克的“地球最聪明 AI”来了！[特殊字符]

10万块GPU的“算力狂欢”先说说G

埼玉君·2025-04-03 11:47

【弹性计算】异构计算云服务和 AI 加速器（四）：FPGA 虚拟化技术

《异构计算云服务和AI加速器》系列，共包含以下文章：异构计算云服务和AI加速器（一）：功能特点异构计算云服务和AI加速器（二）：适用场景异构计算云服务和AI加速器（三）：GPU虚拟化技术异构计算云服务和

G皮T·2025-04-03 11:46

Rust 中的高效视频处理：利用硬件加速应对高分辨率视频

硬件加速技术通过利用GPU等专用硬件分担编解码任务，不仅能大幅提升处理效率，还能释放CPU资源，为用户带来更流畅的体验。

Yeauty·2025-04-03 09:31

PyTorch 核心详解

Autograd）基本用法禁用梯度跟踪4.神经网络模块（nn.Module）定义模型常用层5.数据加载与预处理自定义数据集数据增强6.模型训练与验证训练流程验证流程7.模型保存与加载保存模型参数（推荐）加载模型8.GPU

Code_Geo·2025-04-03 00:58

nvidia 各 GPU 架构匹配的 CUDA arch 和 CUDA gencode

使用NVCC进行编译cudac(.cu)时，arch标志(-arch)指定了CUDA文件将为其编译的NVIDIAGPU架构的名称。

哦豁灬·2025-04-02 20:33

结构化剪枝（Structured Pruning）与动态蒸馏（Dynamic Distillation）

其优势在于：硬件友好性：生成规则稀疏模式（如4×4权重块），便于GPU/TPU等加速器并行计算。块状结构定义：首先将神经网络的权重矩阵划分为固定大小的块，例如4×4的小方块。每个块包含16个权重参数。

frostmelody·2025-04-02 19:53

Pytorch 张量操作

张量是一个多维数组，类似于NumPy的数组，但具有更强大的功能，尤其是在GPU上进行高效计算。本文将深入探讨PyTorch中的张量操作，包括创建张量、维度操作、索引与切片、数学运算等。

niuguangshuo·2025-04-02 11:35

【LLM】Llama Factory：Windows部署全流程

一、部署原理与流程概述（一）核心逻辑本教程基于"环境隔离-硬件适配-框架集成"三层架构设计，通过创建独立Python环境保障系统稳定性，结合GPU硬件加速提升计算效率，最终实现LlamaFactory框架的完整功能调用

T0uken·2025-04-02 09:49

ComplexE的代码注释

还不想配电脑，又不会用GPU服务器。哭死哭死。心态崩了。直接发吧。

水深00安东尼·2025-04-02 07:06

print(torch.cuda.is_available())输出为False

但是就是在python中打印print(torch.cuda.is_available())输出为False原因你所下载的pytorch为cpu版本解决方案下载gpu版本的pytorch、torch_version

筱文rr·2025-04-02 06:29

DeepSeek-R1模型不同参数规模（1.5B、7B、8B、14B、32B、70B、671B）之间的区别

以下是具体区别和选择建议：1.核心区别：参数量与模型能力参数规模能力范围典型应用场景硬件需求1.5B轻量级任务（文本生成、简单问答）移动端/嵌入式设备、低资源环境CPU或低端GPU（如RTX3060）7B

Remember_Ray·2025-04-02 03:38

常见的人工智能学习框架以及特点、应用场景

支持分布式计算，可以使用多个GPU和TPU进行训练。提供了TensorBoard用于可视化训练过程和模型性能。应用场景：图像识别、自然语言处理（NLP）、生成模型等

2020314·2025-04-02 03:31

注册成为 GPU 提供者全攻略：系统、申请与操作指南

目录一、成为GPU提供者的系统要求（一）硬件“基石”：显示处理器是关键（二）软件“支柱”：多软件协同构建运行环境二、注册申请流程：清晰步骤指引（一）了解硬件，更新软件（二）认真填写用户申请表（三）提交申请等待审核三

Muyu881·2025-04-01 22:24

机器学习： LightGBM模型（优化版）——高效且强大的树形模型

它具有高效的训练速度、低内存占用、支持并行和GPU加速等特点，非常适合大规模数据的训练任务，尤其在分类和回归任务中表现突出。

秀儿还能再秀·2025-04-01 21:15

推荐频道

gpu

【大模型】微调一个大模型需要多少 GPU 显存？

OpenGL(三)着色器语言GLSL

七、OpenGL ES 着色器语言GLSL

GPU编程实战指南04：CUDA编程示例，使用共享内存优化性能

深度剖析英伟达 GTC 2025：开启 AI 与计算的新纪元

使用 AMD GPU 加速推理的投机采样

从渲染原理剖析如何提高 Flutter 应用性能

pytorch1.2.0 GPU安装

【Cuda 编程思想】CUDA线程执行原理

deepseek开源周的所有项目总结报告

（本地 GPU vs 云计算 vs 端侧 AI）

解决：CUDA error: no kernel image is available for execution on the device CUDA kernel errors

下载 MindSpore &配置 PyTorch环境

LLM 优化技术(4)——flash_attention 原理

深度学习主流经典框架PyTorch（day1）

第J9周：Inception v3算法实战与解析

# 教你计算模型训练时资源占用

3dgs通俗讲解

使用ollama部署本地大模型(没有GPU也可以)，实现IDEA和VS Code的git commit自动生成

树莓派超全系列文档--(13)如何使用raspi-config工具其二

raspistill command not found

DeepSeek本地部署全攻略

signature=e3020ad5caa17ee07f1f9c55b406f82e,yarn-error.log

GPU云服务器厂商综合评测与排名（2025年更新版）

Rust 中的高效视频处理：利用硬件加速应对高分辨率视频

【RAGFlow】ubuntu22部署ragflow（v0.17.2）

10.YOLOV4

贤小二c#版Yolov5 yolov8 yolov10 yolov11自动标注工具 + 免python环境 GPU一键训练包

利用 Python 与 DeepStream 构建视频流实时分析系统

一步步教你使用 NVIDIA 推出的全新GPU加速求解器 cuOpt：解锁超高效率的求解体验

常见各类处理器特点及区别对比

大模型——手把手教你在macos上部署Ragflow

在PyTorch中使用GPU加速：从基础操作到模型部署

GpuGeek平台新玩法上线啦！竞价实例来袭，AI算法工程师们快来围观

NVIDIA A100加速引擎核心技术解析

H100突破生成式AI性能边界

Grok 3 炸场：马斯克的“地球最聪明 AI”来了！[特殊字符]

【弹性计算】异构计算云服务和 AI 加速器（四）：FPGA 虚拟化技术

Rust 中的高效视频处理：利用硬件加速应对高分辨率视频

PyTorch 核心详解

nvidia 各 GPU 架构匹配的 CUDA arch 和 CUDA gencode

结构化剪枝（Structured Pruning）与动态蒸馏（Dynamic Distillation）

Pytorch 张量操作

【LLM】Llama Factory：Windows部署全流程

ComplexE的代码注释

print(torch.cuda.is_available())输出为False

DeepSeek-R1模型不同参数规模（1.5B、7B、8B、14B、32B、70B、671B）之间的区别

常见的人工智能学习框架以及特点、应用场景

注册成为 GPU 提供者全攻略：系统、申请与操作指南

机器学习： LightGBM模型（优化版）——高效且强大的树形模型