高性能计算gpu 第10页

实验随记2-Pytorch Lightning多机多卡训练

示例实现5节点4GPU共计20卡训练。使用pytorch_lightning==1.9.4存在bug:启

晓岚和雪·2025-02-14 23:48

PyTorch Lightning多GPU分布式日志介绍

分布式日志是指在分布式系统中，多个节点（如多台机器或多个GPU）协同工作时，对系统运行状态、错误信息、性能指标等进行记录的过程。

qq_27390023·2025-02-14 23:48

1.1、Ray-关键概念Key Concepts

Ray使任务能够指定其在CPU、GPU和自定义资源方面的资源需求。这些资源请求被集群调度器用来在整个集群中分配任务，以实现并行执行。参见

MaxCode-1·2025-02-14 20:23

用 Python 实现 DeepSeek R1 本地化部署

你的电脑至少得配备8GB内存，要是想运行更大的模型，比如7B及以上的，那最好有更强劲的CPU和GPU，内存也

喜-喜·2025-02-14 18:33

Chrome内核解析 -- 背景篇：Chromium的多进程多线程构架

采用多进程构架，以DesktopChromium为例，它包括一个BrowserProcess(也称为UIProcess),一个或多个RenderProcess(也称为WebProcess),零个或一个GPUProcess

yunchao_he·2025-02-14 05:31

华瑞数鑫加入OurBMC，为构建繁荣的 BMC 软硬件生态发展贡献力量

华瑞数鑫的RAID卡产品广泛应用于服务器、存储系统和高性能计算环境中，为用户提供卓越的数据保护和管理能力，其产品支持多种RAID级

·2025-02-14 05:05

windows hyperv中Ubuntu使用本机的nvidia显卡

在WindowsHyper-V中，Ubuntu虚拟机默认无法直接使用主机的NVIDIA显卡，因为Hyper-V的虚拟化技术会独占GPU资源。

飞瀑·2025-02-14 05:26

GPU（Graphics Processing Unit）详解

GPU（GraphicsProcessingUnit）详解1.GPU的定义与核心特性GPU（图形处理器）是一种专为并行计算和图形渲染优化的处理器。

美好的事情总会发生·2025-02-14 03:32

国产化板卡设计原理图：2288-基于FMC接口的JFM7K325T PCIeX4 3U VPX接口卡

可应用于高性能计算，频域算法，如与FFT的加速等；配合AD，DAFMC子卡

hexiaoyan827·2025-02-13 23:35

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

岁月的眸·2025-02-13 23:03

Windows下安装CPU用的Tensorflow

刚在电脑上安装了Tensorflow，还是碰到了一些麻烦，记录一下：很多教程是介绍怎么在Linux平台下安装的，或者是Windows平台下GPU用的，很可惜，这些教程对我来说太麻烦了。

Coder LM Wang·2025-02-13 22:26

ubuntu-gpu生产环境，创建lvm步骤（真实生产）

一、手动-创建步骤多块磁盘创建成一个LVM，并挂载到/mnt，同时确保系统在启动时自动挂载该LVM卷，你可以按照以下步骤进行操作。以下是具体的操作命令：1.创建LVM1.1初始化物理卷首先，我们需要将所有指定的磁盘初始化为物理卷（PhysicalVolume,PV）。#列出所有磁盘lsblk#初始化每个磁盘为物理卷pvcreate/dev/nvme0n1pvcreate/dev/nvme1n1pv

清风 001·2025-02-13 22:26

【虚幻引擎UE】UE4.23到UE5.5的核心功能变化

但通过第三方插件（如WebAssembly+WebGPU）可在浏览器运行部分项目。

灵境引路人·2025-02-13 21:19

免费体验！DeepSeek一键部署全攻略

借助AlayaNeW算力云服务提供的强大GPU资源，您可以轻松实现DeepS

·2025-02-13 20:13

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

我记得在PyTorch中，模型并行通常涉及到将模型的层分布到不同的GPU上。ColumnParallelLinear可能指的是将线性层的列（即输出神经元）分布在多个设备上。

DukeYong·2025-02-13 18:00

【性能优化】C++ 编码规范之性能优化篇

综合对比表格2.5对比规范在特定方面的异同第三章:详细分析3.1深入分析3.2规范的优缺点及其对项目的潜在影响第四章:项目定制规范4.1项目需求4.2根据不同的需求来参考不同的规范结语第一章:引言在当今的高性能计算和资源密集型应用中

泡沫o0·2025-02-13 16:21

Tritonserver 在得物的最佳实践

一、Tritonserver介绍Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案，因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点，是目前云端的GPU

·2025-02-13 16:03

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动是一家专注于大规模AI计算的技术公司,由清华大学高性能计算研究所孙广宇教授团队创

yuntianming3906·2025-02-13 05:53

DeepSeek核心成员专访，顶级团队的思维与执行力恐怖如斯 - 1

例如，我们曾在讨论一个核心算子时，发现其GPU使用率并不高，我们尝

2402_86608154·2025-02-12 22:33

一文走进GpuGeek | 如何快速使用实例？

使用流程注册登录进入GpuGeek.com平台注册页面使用手机号注册数据上传平台提供网盘存储，在【网盘存储】页面，可以看到存储的使用量、费用及文件。选择网盘后，点击上传，上传本地文件至网盘。

·2025-02-12 22:38

Java也能玩转机器学习？从零搭建你的第一个模型

1.1.1无缝集成1.1.2JVM的跨平台优势1.1.3高性能计算能力1.1.4多线程与分布式计算1.2主流Java机器学习库全景1.2.1基础数值计算库1.2.2传统机器学习框架1.2.3深度学习生态

prince_zxill·2025-02-12 20:12

CUDA与CUDPP源码解析及实战应用

本文还有配套的精品资源，点击获取简介：CUDA是NVIDIA推出的并行计算平台，CUDPP是一个提供GPU优化算法的开源库。

昊叔Crescdim·2025-02-12 19:06

生物制药企业选择谷歌云的理由有哪些？

作为谷歌云菁英合作伙伴，CloudAce云一梳理了以下几个要点：强大的计算能力和数据分析功能:谷歌云提供强大的高性能计算(HPC)和人工智能(AI)功能，可帮助生物制药公司处理和分析大量数据。这对

·2025-02-12 18:53

嵌入式AI革命：DeepSeek开源如何终结GPU霸权，开启单片机智能新时代？

2025年，全球AI领域最震撼的突破并非来自算力堆叠的超级模型，而是中国团队DeepSeek通过开源策略，推动大模型向微型化、低功耗场景的跨越。相对于当人们还在讨论千亿参数模型的训练成本被压缩到600万美金而言，被称作“核弹级别”的操作，是DeepSeek的完全开源。一个更具颠覆性的命题浮出水面：能否将DeepSeek这样的先进AI模型移植到单片机（MCU）上，让手表、传感器甚至灯泡都具备真正的智

老六哥_AI助理指南·2025-02-12 16:09

Deep Seek大模型部署到本地详细教程

以下是将DeepSeek大模型部署到本地开发环境的详细教程，分为多个步骤，包含技术细节和注意事项：步骤1：环境准备硬件要求GPU：推荐NVIDIAGPU（至少16GB显存，如RTX3090/4090或A100

Katie。·2025-02-12 11:40

（python）如何看自己安装的包的版本

findstr"numpyscipytensorflowkeras"输出numpy1.13.1scipy0.19.1tensorflow-cpu2.4.0tensorflow-estimator2.4.0tensorflow-gpu2.4.0

9677·2025-02-12 10:04

llama-cpp-python CUDA error问题

安装完cuBLAS(CUDA)版本的llama-cpp-pythonCMAKE_ARGS="-DLLAMA_CUBLAS=on"pipinstallllama-cpp-python跑模型，指定n_gpu_layers

0语1言·2025-02-12 09:31

【‌Unity】Unity中物体的static属性作用

因此，Unity可以提前计算并缓存这些物体的光照和遮挡信息，从而减少在运行时对GPU的调用次数，提高游戏运行的流畅度‌。光照贴图优化‌：对于标

_Keep up·2025-02-12 07:42

Pointnet++改进即插即用系列：全网首发ACConv2d|即插即用，提升特征提取模块性能

目录1.理论介绍2.修改步骤2.1步骤一2.2步骤二2.3步骤三1.理论介绍由于在给定的应用环境中设计合适的卷积神经网络(CNN)架构通常需要大量的人工工作或大量的GPU时间，研究社区正在

AICurator·2025-02-12 06:36

FORTRAN语言的云计算

随着科学计算和高性能计算需求的日益增长，众多传统编程语言和技术开始被纳入云计算生态系统。

冯逸桐·2025-02-12 05:28

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

DARTS算法笔记（论文+代码）

DARTS通过两次近似，将问题简单化，以减少GPU计算天数，局部最优近似全局最优，有限差分近似求梯度。摘要：在CIFAR-10、ImageNet、PennTreebank和

朴公英不会飞·2025-02-11 19:42

【DeepSeek】DeepSeek R1 本地部署（Ollama+Docker+OpenWebUI）

说明为什么使用本方案部署环境与资源本地部署需要用户自建硬件（如GPU集群）和配置环境，适合对数据隐私要求较高或离线处理场景；线上API则由服务商托管，用户通过网络调用，无需自行投资硬件资源。

neter.asia·2025-02-11 19:42

云上部署文生图大模型Stable Diffusion 3

请跟随本文，在百度智能云GPU服务器上部署StableDiffusion3。准备工作环境信息本文以百度智能云GP

·2025-02-11 16:26

Win11电脑显存大小查看教程：两种方法轻松掌握

Win11电脑显存大小查看教程：两种方法轻松掌握显存作为图形处理单元（GPU）的重要组成部分，对于图形渲染、游戏性能以及专业图形应用等方面都有着至关重要的影响。

mmoo_python·2025-02-11 13:05

唤醒 AI 算力，专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

从「建好」到「用好」，企业级智算平台借助专有云ABCStack的GPU提效服务，应对大模型业务挑战，唤醒AI算力，加速AI原生业务的落地。

·2025-02-11 12:16

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎的基本工作模式可以概括为，接收包括输入prompt和采样参数的并发请求，分词并且组装成batch输入给引擎，调度GPU执行前向推理，处理计算结果并转为词元返回给用户。

·2025-02-11 11:44

NVIDIA-docker Cheatsheet

TensorFlowDockerrequirementsInstallDockeronyourlocalhostmachine.ForGPUsupportonLinux,installnvidia-docker.Note

weixin_30758821·2025-02-11 11:22

windows server独立部署Qwen2.5-vl-7B

服务器配置信息CPU：64GGPU：48G（RTX4090）一、使用conda下载模型Qwen2.5-VL-7B-Instructconda下载condacreate--nameqwenpython=3.11condaactivateqwen

hello_world_Q·2025-02-11 10:38

编程语言的未来

有些语言专注于数据科学（例如Python、R），有些专注于并行处理和高性能计算（例如Rust、Julia），还有

胡图不迷糊·2025-02-11 07:48

Vulkan：Vulkan性能优化与调试技巧_2024-07-20_16-35-28.Tex

Vulkan：Vulkan性能优化与调试技巧Vulkan基础概述Vulkan渲染管线简介Vulkan是一种低开销、跨平台的图形和计算API，它为开发者提供了直接访问GPU的能力，从而实现高性能的图形渲染和计算任务

chenjj4003·2025-02-11 02:36

AI 场景下，函数计算 GPU 实例模型存储最佳实践

为了帮助开发者高效地在函数计算上部署AI推理应用，并快速解决不同场景下的模型存储选型问题，本文将对函数计算的GPU模型存储的优缺点及适用场景进行对比分析，以期为您的模型存储决策提供帮助。

·2025-02-10 23:53

看懂 DeepSeek 模型参数与运行需求

在运行配置方面，最低只需4GB显存的GPU、4核CPU以及8GB内存，普通的个人电脑便能轻松驾驭。

现时云·2025-02-10 22:08

均薪23W还缺人，FPGA工程师到底有多重要?

尤其是在高性能计算、边缘计算等场景下，FPGA凭借其高并行计算能力和灵活性，成为不可或缺的技术方案。

博览鸿蒙·2025-02-10 20:22

“轻松上手！5分钟学会用京东云打造你自己的专属DeepSeek”

\#从第⼀步骤到第四步骤是完成DeepSeek本地部署和使⽤,可以满⾜中⼩企业环境的稳定使⽤,第五步骤为基于AnythingLLM和本地数据进⾏训练(基于本地数据搭建本地知识库):⼀：京东云GPU云主机环境准备

·2025-02-10 18:11

DeepSpeed 在三台T4卡上部署deepseek-r1:32b

推理部署的重点是利用多台机器和多块GPU来加速模型的推理过程。1.环境准备首先，确保每台机器上都安装了正确的依赖项。

MonkeyKing.sun·2025-02-10 14:33

硅基流动与华为云联合推出基于昇腾云的DeepSeek R1&；V3推理服务

该服务具备以下特点：得益于自研推理加速引擎加持，硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。

光锥智能·2025-02-10 12:14

机架式服务器是指什么？

机架式服务器是一种高性能计算设备，主要是设计用来安装在标准机架上的，机架式服务器是现代数据中心和企业网络的核心组成部分之一，可以为企业与用户提供强大的计算和存储能力，从而能够支持各种应用和服务。

wanhengidc·2025-02-10 09:59

Julia语言的编程范式

Julia语言的编程范式引言随着数据科学、机器学习和高性能计算的迅猛发展，编程语言的选择对研究者和开发者来说变得尤为重要。

段慕华·2025-02-10 05:37

手把手教你学固件开发（1.1）--DMA固件

DMA传输3.3中断处理4.参考资料4.1官方文档4.2在线资源5.常见问题及解决方法5.1数据传输不完整5.2性能问题5.3调试技巧总结DMA（DirectMemoryAccess）固件在嵌入式系统和高性能计算中非常重要

小蘑菇二号·2025-02-10 02:13

推荐频道

高性能计算gpu