GPU并行计算第2页

大模型推理：vllm多机多卡分布式本地部署

文章目录1、vLLM分布式部署docker镜像构建通信环境配置2、其他大模型部署工具3、问题记录参考文献单台机器GPU资源不足以执行推理任务时，一个方法是模型蒸馏量化，结果就是会牺牲些效果。

m0_74824755·2025-01-21 08:20

GPU介绍之GPU监控中，如何确定GPU忙碌程度

关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富

借雨醉东风·2025-01-21 01:40

大模型介绍

通常，它们需要在多个GPU或TP

詹姆斯爱研究Java·2025-01-21 01:39

postgrel执行VACUUM报VACUUM cannot run inside a transaction block

deletefromdwd_access_record_inout_temptwheret.indate>(selectnow()::timestamp-interval'36hour')"3conn=gputil.connect

dianzufa9403·2025-01-21 00:58

【TVM 教程】内联及数学函数

ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-01-20 17:47

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，

学术菜鸟小晨·2025-01-20 02:50

PyTorch使用教程- Tensor包

张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。

Loving_enjoy·2025-01-19 23:52

Matlab多核CPU并行和多线程

简介这里需要明白的概念有：多核、多进程、多线程、并行计算、并发计算的区别。什么是多核在计算机设计早期，为了响应更多计算性能的需要，单处理器系统发展成为多处理器系统。

m0_74823021·2025-01-19 22:39

什么是AI显卡，英伟达与AMD显卡的全面对比

AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。

wit_@·2025-01-19 16:53

从零开始的 AI Infra 学习之路

AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU

SSS不知-道·2025-01-19 15:15

【YOLOV8】YOLOV8模型训练train及参数详解

高效性：无论是单GPU设置还是跨多个GPU扩展，都能充分利用你的硬件。多功能性：

小小小小祥·2025-01-19 15:10

【学习总结|DAY031】后端Web实战(员工管理)三

通过集合接收参数的代码如下：@DeleteMappingpublicResultdelete(@RequestParamListids){log.info(

123yhy传奇·2025-01-19 14:04

加速AI模型部署：深入探索Banana的无服务架构

在本文中，我们将探讨如何利用Banana提供的无服务GPU推理来部署AI模型，并结合LangChain实现高效的模型推理。主要内容1.Banana生态系统的优势Banana提供了一套完

afTFODguAKBF·2025-01-19 13:30

构建高效GPU算力平台：挑战、策略与未来展望

引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。

Mr' 郑·2025-01-19 11:43

AI技术架构：从基础设施到应用

1.GPU（图形处理单元）：并行计算的核心GPU是深度学习的核心引擎，专为大规模并行计算设计。技术优

fuqinyijiu·2025-01-19 06:31

NVIDIA发布企业级硬件 AI 参考架构

NVIDIA发布企业级硬件AI参考架构NVIDIA英伟达在OCP峰会后发布了许多AI参考架构，#GPU服务器#供应商与Nvidia合作开发了大规模部署NvidiaAI硬件所需的基础设施硬件，近日Nvidia

深度学习服务器·2025-01-19 05:45

实验室多人共享GPU服务器搭建指南（更新ing）

linux安装nvidia驱动必备（笔者实验室的GPU服务器交货时已安装驱动，不再详述）Ubuntu20.04安装Nvidia驱动——4060显卡（黑屏解决方法）1.首先禁

Geodesy&Geomatic·2025-01-19 04:30

【安利一个超高性价比的GPU租赁平台使用分享】

GPU算力服务器，使用经验分享，强烈推荐，还送你30元额度！可以白嫖！！为什么需要租服务器？当我使用自己的电脑跑模型时，每个Epoch大概要花费54分钟左右，总共有150个Epoch...

放飞自我的Coder·2025-01-19 04:30

深度学习(1)

一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码

浅忆へ梦微凉·2025-01-18 18:57

NVIDIA下一代Hopper架构曝光，采用5nm工艺晶体管超1400亿

据媒体报道，NVIDIA下一代主要面向高性能计算、人工智能等Hopper架构，将会采用5nm工艺制程，晶体管多达1400亿个，面积核心达到了900平方毫米，是有史以来最大的GPU。

Java小海.·2025-01-18 17:54

NVIDIA Hopper解说

NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。

白总Server·2025-01-18 17:24

NVIDIA Hopper 架构深入

在2022年NVIDIAGTC主题演讲中，NVIDIA首席执行官黄仁勋介绍了基于全新NVIDIAHopperGPU架构的全新NVIDIAH100TensorCoreGPU。

RZer·2025-01-18 16:40

Pytorch实现：LSTM-火灾温度预测

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms

骑猪玩狗·2025-01-18 11:32

【TVM 教程】为 x86 CPU 自动调优卷积网络

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-01-17 20:18

云计算技术深度解析与代码实践

云计算技术特点云计算技术融合了网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化以及负载均衡等多种先进技

我的运维人生·2025-01-17 19:27

加速 AI 训推：Lepton AI 如何构建多租户、低延迟云存储平台

该平台适用于各种训练、推理需求，GPU充足，在保证高性能的同时，能够灵活应对不断变化的工作负载。用户可以快速在Lepton平台上部署推理服务和执行训练任务，无需关注基础设施和稳定性问题。

·2025-01-17 15:51

高通AdrenoGPU简介（一）

这意味着gpu需要在相同的固定时间段内光栅化更多的片段。假设目标帧率为30fps，游戏在单个帧上的花费不能超过33.3ms。

·2025-01-17 15:20

云手机技术是怎么实现的？（云手机在海外社媒营销、跨境电商、短视频领域应用)

其中主板还集成着CPU，GPU，内存等元件。手机硬件主要由SOC、RAM、ROM、电池、屏幕、传感器等组成。那为什么说云手机本质上是手机呢？

verybots2023·2025-01-17 11:48

拯救者电脑安装Windows和Ubuntu双系统遇到黑屏或者花屏问题的解决方法，亲测有效

最近想在电脑上跑深度学习，有一定基础的都知道，ubuntu更适合gpu、apex以及其他加速的使用，如果在Windows上总是遇到各种各样的问题，所以我给电脑安装了双系统。

我爱猪肉炖粉条·2025-01-17 07:15

《量子计算对人工智能发展的深远影响》

在科技发展的浪潮中，量子计算与人工智能无疑是两颗璀璨的明星，二者的融合正引领着一场深刻的科技变革.量子计算的独特之处在于其利用量子比特的叠加和纠缠特性，能够实现并行计算，从而在处理复杂问题时展现出超越传统计算的巨大潜力

·2025-01-17 05:02

神经架构搜索在大模型效率优化中的应用

计算资源消耗巨大:大模型的训练需要大量的计算资源，例如高性能GPU和TPU，这导致训练成本高昂，难以普及。内存占用量大:大模型的参数量庞大，需要大量的内存进行存储和

AI大模型应用之禅·2025-01-17 03:06

【vLLM 学习】安装

依赖环境操作系统：LinuxPython：3.8-3.12GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L

·2025-01-17 00:08

《鸿蒙Next微内核：解锁人工智能决策树并行计算的加速密码》

鸿蒙Next以其独特的微内核特性，为设计决策树的并行计算框架提供了新的思路和契机。

·2025-01-16 18:17

【Triton 教程】持久矩阵乘法 (Persistent Matmul)

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

·2025-01-16 18:47

报错解决：undefined symbol: _ZN15TracebackLoggerC1EPKc, version libcudnn_ops_infer.so.8

Ubuntu20.04的机器上跑，报错如下：undefinedsymbol:_ZN15TracebackLoggerC1EPKc,versionlibcudnn_ops_infer.so.8这个错误是在NVIDIAGPU

打工人你好·2025-01-16 18:46

【JS】执行时长(100分) |思路参考+代码解析（C++）

题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。

l939035548·2024-09-16 09:48

Faiss Tips：高效向量搜索与聚类的利器

它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN

焦习娜Samantha·2024-09-16 09:47

2021-06-07 Do What You Are Meant To Do

smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt

春生阁·2024-09-16 02:37

Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图

要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU

亚图跨际·2024-09-15 18:20

Spark 组件 GraphX、Streaming

SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算

叶域·2024-09-15 14:54

深度学习-13-小语言模型之SmolLM的使用

文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask

皮皮冰燃·2024-09-15 10:48

【大模型】triton inference server

前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。

idiotyi·2024-09-15 05:47

Upstage 将发布新一代 LLM “Solar Pro “预览版

SolarPro是最智能的LLM，经过优化可在单GPU上运行，性能超过微软、Meta和谷歌等科技巨头的模型。

吴脑的键客·2024-09-14 14:31

使用vllIm部署大语言模型

-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。

添砖JAVA的小墨·2024-09-14 12:18

大模型框架：vLLM

目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学

m0_37559973·2024-09-14 11:41

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。

诗者才子酒中仙·2024-09-14 04:56

Unity3D GPUDriven渲染详解

前言Unity3D中的GPUDriven渲染技术是一种通过最大化GPU的利用，减少CPU负担，从而提高渲染效率和帧率的方法。

Thomas_YXQ·2024-09-14 03:17

1. 下载安装RKNN的docker镜像

下载镜像文件：网盘链接：https://console.zbox.filez.com/l/I00fc3密码：rknn下载最新的版本，当前最新版本2.1.0，（[[2024-09-01]]）：下载路径：GPU-Group01

jcfszxc·2024-09-13 18:55

【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程

【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。

ShuQiHere·2024-09-13 15:08

项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化

目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU

PhoenixAI8·2024-09-13 15:07

推荐频道

GPU并行计算