GPU转场第2页

只需几步！在本地电脑轻松部署DeepSeek大模型

Ollama还允许用户通过编写Modelfile配置文件来自定义模型的推理参数，支持多GPU并行推理加速。二、安装Ollama（一）

魔法小匠·2025-03-07 01:42

揭秘AWS GPU实例：以极致AI算力与成本优化，重塑企业智能竞争力

本文将深度解析AWSGPU实例的颠覆性技术方案，带您解锁AI时代的核心生产力。

AWS官方合作商·2025-03-06 23:55

chatglm3如何进行微调

loadmodel时，是先放在内存里面，所以内存不能小，最好在30GB左右显存：如果用half()精度来loadmodel的话(int4是不支持微调的)，显存在16GB就可以，比如可以用kaggle的t4gpu

learner_ctr·2025-03-06 23:24

yolov8训练模型、测试视频

1、训练代码train.pyimportos#os.environ["CUDA_VISIBLE_DEVICES"]="3"#同样是选择第3块GPUfromultralyticsimportYOLO#L

灰灰学姐·2025-03-06 21:12

《基于WebGPU的下一代科学可视化——告别WebGL性能桎梏》

WebGPU作为下一代Web图形标准，通过显存直存、多线程渲染和计算着色器三大革新，将科学可视化性能提升至10倍以上。本文将深入解析如何利用WebGPU突破大规模数据渲染的极限。

Eqwaak00·2025-03-06 20:31

VoVNet（2019 CVPR）

论文标题AnEnergyandGPU-ComputationEfficientBackboneNetworkforReal-TimeObjectDetection论文作者YoungwanLee,Joong-wonHwang

刘若里·2025-03-06 19:15

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

手把手教你在免费GPU算力环境、本地环境部署运行ComfyUI工作流，玩转Wan2.1文生视频、图生视频案例实践。

zhangjiaofa·2025-03-06 07:33

INA(In-Network Aggregation)技术

核心原理在传统分布式训练中，计算节点（如GPU）需要将本地计算的梯度或中间结果发送到中心节点（如参数服务器）进行聚合，这会产生大量的网络传输。In-NetworkAggregation则是通过可编

一只积极向上的小咸鱼·2025-03-06 01:22

PyTorch 与 NVIDIA GPU 的适配版本及安装

PyTorch与NVIDIAGPU的适配版本需要通过CUDA和cuDNN来实现。以下是详细的安装教程，包括如何选择合适的PyTorch版本以及如何配置NVIDIAGPU环境。

小赖同学啊·2025-03-05 19:05

鸿蒙HarmonyOS NEXT实战（5.0）ArkUI开发＞模态转场方式

模态转场是新的界面覆盖在旧的界面上，旧的界面不消失的一种转场方式。表1模态转场

蜡笔小新、没有笔·2025-03-05 17:17

kubevirt源码分析之谁分配了gpu_device（3）

目标当一个launcherpod被创建时，它会请求资源，如下Requests:cpu:16devices.kubevirt.io/kvm:1devices.kubevirt.io/tun:1devices.kubevirt.io/vhost-net:1ephemeral-storage:50Mhugepages-2Mi:8Gimemory:1574961152nvidia.com/GA102_GE

生命不息折腾不止·2025-03-05 15:54

《基于WebGL的matplotlib三维可视化性能调优》——让大规模3D数据流畅运行在浏览器端！

本文将解锁matplotlib与WebGL的融合之道，通过GPU加速渲染+数据压缩算法+计算负载转移三大杀招，实现浏览器端千万级粒子系统60FPS流畅交互。

Eqwaak00·2025-03-05 15:53

大模型训练内存预估计算方法

方法论大模型在训练过程中,需要预估需要多少显存进行参数的存储,需要进行预估.来方便GPU的购买.举例以DeepSeek-V3模型为例,总共有671B个参数.B=Billion（十亿）,因此，671B模型指拥有

junjunzai123·2025-03-05 13:29

Python | Pytorch | Tensor知识点总结

如是我闻：Tensor是我们接触Pytorch了解到的第一个概念，这里是一个关于PyTorchTensor主题的知识点总结，涵盖了Tensor的基本概念、创建方式、运算操作、梯度计算和GPU加速等内容。

漂亮_大男孩·2025-03-05 08:27

NCU使用指南及模型性能测试（pytorch2.5.1）

OverviewNsightCompute(NCU)是NVIDIA提供的GPU内核级性能分析工具，专注于CUDA程序的优化。它提供详细的计算资源、内存带宽、指

Jakari·2025-03-05 02:05

AI 芯片全解析：定义、市场趋势与主流芯片对比

与普通处理器（如CPU、GPU）相比，AI芯片有什么不同？本文将详细解析AI芯片的定义、核心特性、市场上的流行产品（国内外），以及AI芯片的定位与发展趋势。2.什么才算AI芯片？

嵌入式Jerry·2025-03-04 22:39

高性能计算中如何优化内存管理？

例如，在CUDA编程中，可以使用内存池来管理GPU内存，从而提高内存访问效率。异构内存管理：在异构计算环境中（如CPU+GPU），采用统一内存管理（UnifiedMemory）或智能数据迁移策略，

·2025-03-04 22:52

< HarmonyOS TechTalk 34 > HarmonyOS应用性能优化最佳实践

主要内容是介绍优化主线程的冗余操作和使用拆帧操作优化应用帧率，包括滑动场景和跳转场景。课程旨在帮助开发者快速完成对应用进行性能优化，提升HarmonyOS应用运行效率。

·2025-03-04 18:44

基于PyTorch的深度学习2——Numpy与Tensor

不过它们也有不同之处，最大的区别就是Numpy会把ndarray放在CPU中进行加速运算，而由Torch产生的Tensor会放在GPU中进行加速运算。

Wis4e·2025-03-04 15:38

android 仿ios悬浮窗,iOS仿微信悬浮窗

仿微信悬浮窗,可直接协议加入悬浮窗或者直接调用方法注册,可自定义转场动画演示myFloat.gif用法1在Appdelegate中注册传入对应控制器的className//只带控制器的className

新littleant·2025-03-04 14:30

Helix 是开源的私有 GenAI 堆栈，用于构建具有声明性管道、知识（RAG）、API 绑定和一流测试的 AI 应用程序。

从语言模型到图像模型等，Helix以符合人体工程学、可扩展的方式为您的业务带来最好的开源AI，同时优化GPU内存和延迟

2301_78755287·2025-03-04 13:50

GPU与CPU：架构对比与技术应用解析

1.引言1.1为什么探讨GPU与CPU的对比？随着计算技术的不断发展，GPU（图形处理单元）和CPU（中央处理单元）已经成为现代计算机系统中最重要的两个组成部分。

Hello.Reader·2025-03-04 12:50

DEEPSEEK为什么还不能在工业控制领域使用？

以下是具体原因及深度分析：一、实时性与可靠性瓶颈1.毫秒级响应要求工业控制场景（如机器人协作、生产线急停）需确定性响应（通常50℃）、高湿、震动、电磁干扰等极端条件，通用AI服务器（如GPU集群）缺乏工业级防护

Wnq10072·2025-03-04 11:39

测量纹波是否合格的标准是什么?

测量纹波是否合格需要结合具体应用场景和技术规范，以下为收集到的详细判断标准及分类说明：一、通用行业标准数字电路基础逻辑电路（如TTL/CMOS）：<100mVpp高速数字电路（DDR/FPGA）：<50mVpp处理器核心供电（如CPU/GPU

CircuitWizard·2025-03-04 11:07

探索AGI：谷歌开源的先进智能系统框架

探索AGI：谷歌开源的先进智能系统框架agiAndroidGPUInspector项目地址:https://gitcode.com/gh_mirrors/ag/agiAGI（ArtificialGeneralIntelligence

劳泉文Luna·2025-03-04 06:30

python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战

准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU

weixin_39724362·2025-03-04 04:52

私有部署 ChatGLM3-6B

1.在AutoDL平台上租赁GPUGPU型号：RTX4090PyTorch版本：2.5.1**（推荐使用2.0及以上的版本，以获得最佳的推理性能）**2.开启学术资源加速source/etc/network_turbo3

张申傲·2025-03-04 03:16

人工智能和python的关系

人工智能是计算密集型，需要非常精细的优化，其中还需要GPU、专用硬件之类的接口，这些都只有C/C++能做到，所以某种意义上来说，其实C/C++才是人工智能领域最重要的语言。

兜里揣着星星·2025-03-03 22:32

本地部署大语言模型-DeepSeek

HosteaseAMD9950X/96G/3.84TNVMe/1G/5IP/RTX4090GPU服务器提供多种计费模式。

NightReader·2025-03-03 15:36

在 MacBook 上设置 DeepSeek R1 (8B) 的 3 个步骤

知识大胖·2025-03-03 11:04

DeepSeek 开源周五个开源项目，引领 AI 创新？

Day1:FlashMLA项目介绍FlashMLA是一个为HopperGPU设计的高效解码内核，专门用于大型语言模型（

LaughingZhu·2025-03-03 08:09

如何高效运行 DeepSeek-R1：分步指南

无论您想在Mac上本地运行它，还是在云GPU上运行它，还是优化性能以供大规模使用，本指南都会逐步引导您完成所有操作。

知识大胖·2025-03-03 06:31

论文阅读笔记2

OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对

sixfrogs·2025-03-03 03:59

《AI大模型开发笔记》DeepSeek技术创新点

Richard Chijq·2025-03-03 03:57

Vulkan：Vulkan与现代GPU架构_2024-07-20_17-11-33.Tex

Vulkan：Vulkan与现代GPU架构Vulkan简介Vulkan的历史与发展Vulkan是一个跨平台的2D和3D图形应用程序接口(API)，由KhronosGroup开发。

chenjj4003·2025-03-03 02:22

【弹性计算】弹性裸金属服务器和神龙虚拟化（二）：适用场景

弹性裸金属服务器和神龙虚拟化（二）：适用场景1.混合云和第三方虚拟化软件部署2.高隔离容器部署3.高质量计算服务4.高速低时延RDMA网络支持场景5.RISCCPU支持6.GPU性能无损输出公共云服务提供商推出弹性裸金属服务器

G皮T·2025-03-02 14:20

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

它通过虚拟张量技术优化了内存使用，并支持多GPU加速，适合需要高性能推理的场景。LLaMA.cpp:这是一个针对C++优化的LLaMA模型实现，特别适合在资源受限的环境中

深度求索者·2025-03-02 08:19

一文搞懂最新NVIDIA GPU满血版和阉割版芯片：A100、H100、A800、H800、H20的差异

目录一、NVIDIAGPU架构1、Blackwell架构2、Hopper架构3、Ampere架构4、Turing架构5、Volta架构二、A100、H100、A800、H800、H20差异对比1.A100

神马行空·2025-03-02 06:09

Python vLLM 实战应用指南

vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU

ghostwritten·2025-03-02 06:34

DPU：数据中心与计算架构的革新引擎

在传统计算架构中，中央处理单元（CPU）和图形处理单元（GPU）扮演着重要的角色，但随着

wljslmz·2025-03-02 03:46

云服务器部署DeepSeek Janus-Pro生成图片实战

序本文主要研究一下如何在腾讯云HAI-GPU服务器上部署DeepSeekJanus-Pro来进行文本生成图片步骤选择带GPU的服务器到deepseek2025试用一下带GPU的服务器下载Janusgitclonehttps

·2025-03-01 22:32

【学习】电脑上有多个GPU，命令行指定GPU进行训练。

使用如下指令可以指定使用的GPU。CUDA_VISIBLE_DEVICES=1假设要使用第二个GPU进行训练。CUDA_VISIBLE_DEVICES=1pythontrain.py

超好的小白·2025-03-01 19:18

k8s之pod的调度之污点与容忍污点，什么是污点？如何容忍污点

通常用于以下场景：专用节点：某些节点专门用于运行特定类型的Pod（如GPU节点）。节点维护：标

终端行者·2025-03-01 15:25

单卡挑战千亿模型！深度求索MoE架构实战指南：从理论到开源工具全解析

引言：为什么需要单GPU训练千亿参数模型？随着大模型参数规模突破千亿级别，训练成本与算力需求呈指数级增长。传统密集架构（DenseModel）在单卡训练中面临显存不足、计算效率低等问题。

小诸葛IT课堂·2025-03-01 11:27

苹果AI功能，GPU内存瓶颈，大气预测模型，Chrome内置Gemini

智源社区刚刚！苹果发布AppleIntelligence，官宣免费接入ChatGPT，Siri迎来重磅更新大模型竞速赛鸣枪开跑后，苹果似乎已经脱离了第一梯队，曾经的行业风向标并没有像其他大厂那样频繁地宣讲AI，加之缺乏能够参与竞争的「明星产品」，其一度被贴上了「落后」的标签。但其实熟悉苹果的网友都知道，这是一家「重落地」的公司，更加擅长的是把创新技术工程化，实现「工程创新」。也正因如此，在生成式A

一支烟一朵花·2025-03-01 08:59

Ubuntu+GPU+python编程环境

本文安装之前，参考了如下链接的大体思路：https://blog.csdn.net/rogerchen1983/article/details/90272877不过中间还是遇到一些小问题，花了点时间都解决掉了。(1)Ubuntu系统这次安装Ubuntu的时候，最新版本是20.04，当然要安装最新的了，不过由于要对双系统作出分区安排，还是花了一些时间整理windows下的资料，腾出干净的空间出来。然

liwenkaitop·2025-03-01 07:25

DeepSeek入门：安装与配置

以下是不同版本的硬件要求：DeepSeek-R1-1.5B：CPU：最低4核（推荐Intel/AMD多核处理器）内存：8GB+硬盘：3GB+存储空间（模型文件约1.5-2GB）显卡：非必需（纯CPU推理），若GPU

梦落青云·2025-03-01 01:08

DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库

然而，这种方法也引入了一些挑战，尤其是在GPU之间的通信方面。在MoE模型中，对于任何给定的token，只有一部分专家是活跃的，因此在设备之间高效地交换数据至关重要。

强哥之神·2025-03-01 01:37

谈谈DeepSeek-v3在算力约束下的出色工作

谈谈DeepSeek-v3在算力约束下的出色工作原创渣Bzartbot2024年12月28日22:52上海寒冷的周末,加完班挤点时间读个论文吧.Deepseek-v3仅用了2048块H800GPU就超越了

强化学习曾小健·2025-02-28 22:19

Anaconda配置tensorflow-gpu教程

最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU

rubisco214·2025-02-28 22:19

推荐频道

GPU转场