GPU并行计算

【JS】执行时长(100分) |思路参考+代码解析（C++）

题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。

l939035548·2024-09-16 09:48

Faiss Tips：高效向量搜索与聚类的利器

它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN

焦习娜Samantha·2024-09-16 09:47

2021-06-07 Do What You Are Meant To Do

smostimportanttoyouanddoeverythingyoucantoputyourselfinapositionwhereyoucanfocusonthosepriorities,ratherthanbeingpulledbyt

春生阁·2024-09-16 02:37

Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图

要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU

亚图跨际·2024-09-15 18:20

Spark 组件 GraphX、Streaming

SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算

叶域·2024-09-15 14:54

深度学习-13-小语言模型之SmolLM的使用

文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask

皮皮冰燃·2024-09-15 10:48

【大模型】triton inference server

前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。

idiotyi·2024-09-15 05:47

Upstage 将发布新一代 LLM “Solar Pro “预览版

SolarPro是最智能的LLM，经过优化可在单GPU上运行，性能超过微软、Meta和谷歌等科技巨头的模型。

吴脑的键客·2024-09-14 14:31

使用vllIm部署大语言模型

-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。

添砖JAVA的小墨·2024-09-14 12:18

大模型框架：vLLM

目录一、vLLM介绍二、安装vLLM2.1使用GPU进行安装2.2使用CPU进行安装2.3相关配置三、使用vLLM3.1离线推理3.2适配OpenAI-API的API服务一、vLLM介绍vLLM是伯克利大学

m0_37559973·2024-09-14 11:41

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。

诗者才子酒中仙·2024-09-14 04:56

Unity3D GPUDriven渲染详解

前言Unity3D中的GPUDriven渲染技术是一种通过最大化GPU的利用，减少CPU负担，从而提高渲染效率和帧率的方法。

Thomas_YXQ·2024-09-14 03:17

1. 下载安装RKNN的docker镜像

下载镜像文件：网盘链接：https://console.zbox.filez.com/l/I00fc3密码：rknn下载最新的版本，当前最新版本2.1.0，（[[2024-09-01]]）：下载路径：GPU-Group01

jcfszxc·2024-09-13 18:55

【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程

【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。

ShuQiHere·2024-09-13 15:08

项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化

目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU

PhoenixAI8·2024-09-13 15:07

TensorFlow的基本概念以及使用场景

TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。

张柏慈·2024-09-13 15:03

RTX 4090深度学习性能实测奉上！模型训练可提升60~80%

测试硬件配置简单介绍一下本次使用的平台为超微SYS-420GP-TNR，这款GPU系统针对AI和图形密集型工作负载的灵活设计，4U双处理器（第三代英特尔®至强®），双根GPU系统，最多10个P

赋创小助手·2024-09-13 14:26

深度学习的零碎知识点

显卡内存什么是显卡内存简单来说就是，Windows会在物理显存/「专用GPU内存」不够用或只有集成显卡的情况下，将物理内存RAM当作GPU的虚拟显存/「共享GPU内存」来使用。

csdn_now·2024-09-13 13:50

分布式离线计算—Spark—基础介绍

各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架

测试开发abbey·2024-09-13 11:11

GPU版pytorch安装

由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。

普通攻击往后拉·2024-09-13 03:13

人工智能-GPU版本机器学习、深度学习模型安装

背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU

bw876720687·2024-09-13 02:06

入门篇，带你了解CPU, GPU, TPU, NPU, DPU

目录CPU(中央处理器)GPU(图形处理器)TPU(张量处理单元)NPU(神经网络处理器)DPU(数据处理器)CPU(中央处理器)专业介绍：CPU是计算机系统的核心，负责执行操作系统和应用程序的指令。

今夕是何年，·2024-09-13 00:55

LLM大模型学习：LLM大模型推理加速

文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。

七七Seven～·2024-09-12 17:45

鸿蒙（API 12 Beta6版）GPU加速引擎服务【自适应VRS】

XEngineKit提供自适应VRS功能，其通过合理分配画面的计算资源，视觉无损降低渲染频次，使不同的渲染图像使用不同的渲染速率，能够有效提高渲染性能。接口说明以下接口为自适应VRS设置接口，如要使用更丰富的设置和查询接口。接口名描述constGLubyte*HMS_XEG_GetString(GLenumname)XEngineGLES扩展特性查询接口。GL_APICALLvoidGL_APIE

移动开发技术栈·2024-09-12 16:38

安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突

问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy

GJK_·2024-09-12 08:16

本地部署大语言模型详细讲解

前言：本地部署大语言模型（LLM，LargeLanguageModel）需要相应的硬件资源和技术栈支持，如GPU计算能力、大量内存、存储空间，以及模型部署框架。

程序员小羊！·2024-09-12 04:25

python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray

Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。

weixin_39946313·2024-09-12 04:52

OPENCL之SIMT与SIMD在架构上的主要区别是什么？

每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（

糯米宝宝·2024-09-12 01:57

Python | 使用Joblib模块加快任务处理速度

Joblib模块简介Joblib是一个用于Python的开源库，它提供了一些用于并行计算和内存映射的工具，旨在提高科学计算和数据分析的效率。

python收藏家·2024-09-11 21:28

验证resneXt，densenet，mobilenet和SENet的特色结构

实验结果GPU：gtx107

dfj77477·2024-09-11 20:55

Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda

一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址

徐小妞66666·2024-09-11 20:58

【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1)

cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu

2401_83703835·2024-09-11 13:36

linux查看jupyter运行,在Linux服务器上运行Jupyter notebook server教程

但只在本地运行没有GPU环境，虽然googlecolab是个好办法，但发现保存模型后在云端找不到模型文件，且需要合理上网才能访问。

天启大烁哥·2024-09-11 10:15

ONNX Runtime、CUDA、cuDNN、TensorRT版本对应

、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu

可keke·2024-09-10 22:45

ONNXRuntime与CUDA版本对应

onnxruntime-gpu版本可以说是一个非常简单易用的框架，因为通常用pytorch训练的模型，在部署时，会首先转换成onnx，而onnxruntime和onnx又是有着同一个爸爸，无疑，在op的支持上肯定是最好的

zy_destiny·2024-09-10 22:15

Deepspeed 结合huggingface Trainer实现多机分布式训练

一、环境准备本试验使用两台机器（manager，worker），操作系统ubuntu22.4，每台机器有4个GPU为了使安装配置统一，使用docker容器，docker的安装这里不做介绍。

ningzhao·2024-09-10 17:38

大模型多机多卡脚本实例 - 增量预训练 -accelerate和deepspeed命令多机多卡训练有什么不同

第一步，同步权重ls-l/data/xxx/gpu008/MoeRemake/train/etuning/LLaMA-Factory2/models/xxx-Base-10B-200k-Llama第二步

AI生成曾小健·2024-09-10 16:33

ray.tune文档总结

ray.tune文档总结tune.runconfig指定超参数的搜索方法ConcurrencyLimiter搜索算法scheduler试验调度程序分析资源（并行、GPU、分布式）原文档请看这里https

AI大司马·2024-09-10 14:48

从零开始设计一款全新GPU

（提纲：：）设计一款全新的GPU（图形处理单元）是一项复杂且多方面的工程工作，涉及到硬件架构、软件编程模型、性能优化、功耗管理等多个领域。以下是从零到一设计一款全新GPU的基本步骤和关键考虑因素。

jack_201316888·2024-09-10 13:15

AMD GCN GPU微架构简介

AMDGCN(GraphicsCoreNext)微架构介绍AMDGCN(GraphicsCoreNext)是AMD公司推出的一种用于图形处理单元（GPU）的微架构。

jack_201316888·2024-09-10 12:09

AI 证件照制作工具：HivisionIDPhotos，CPU可运行！

而且最棒的是，它在普通的CPU上也能运行，完全不需要高性能的GPU支持！HivisionIDPhotosHivisionIDPhotos是什么？Hivis

学术Fun·2024-09-09 22:26

【并行计算】Strong scaling和weak Scaling

可以从这个角度来区分：StrongScaling在扩展时是壮壮的，即使增加负载，也不需要调整机器。WeakScaling在扩展时是弱弱的，如果要增加负载，也要同步增加机器。Strong的目的是为了知道当前的机器所能够提供的最大并行能力。Weak的目的是为了保证当前的负载均衡性一致的情况下比较不同数量机器的并行效果。

栏杆拍遍看吴钩·2024-09-09 20:43

OSError: libnccl.so.2: cannot open shared object file: No such file or directory

linux安装完torch或者tensorflow的gpu版本，安装没问题，但是import就有问题，报错OSError:libnccl.so.2:cannotopensharedobjectfile:

王小葱鸭·2024-09-09 17:16

cpu运行gpu上的pytorch 报错:AssertionError:torch not compiled with cuda enabled——已解决

感觉今天介绍的这种方法可以解决所有这种报错出现的问题事件发生：报错：AssertionError:torchnotcompiledwithcudaenabled解决方法：后来看到这个代码parser.add_argument('--test_device',default="cuda:0",type=str,

霍格沃茨电气魔法师·2024-09-09 11:35

Infiniband网络架构的技术与性能分析

集群算力优化的关键在于GPU利用率和线性加速比。其中，GPU利用率受限于

科技互联人生·2024-09-09 04:51

【车载智能座舱域控制器】-【测试】

目录一、座舱SOC芯片历程介绍1、注解：1.CPU（中央处理器）2.GPU（图形处理器）3.NPU（神经处理单元）2、具体应用示例3、性能指标的重要性二、智能座舱包含哪些功能三、智能座舱测试包括：四、智能座舱

@逝水流年轻染尘@·2024-09-09 01:56

【已解决】Halcon错误代码4104

结果如下图所示，正常在使用GPU训练。搞定，手工~

聪明不喝牛奶·2024-09-08 23:12

10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发

3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu

三十度角阳光的问候·2024-09-08 21:03

【DeepSpeed 教程翻译】三，在 DeepSpeed 中使用 PyTorch Profiler做性能调试和Flops Profiler教程翻译

文章目录0x0.前言0x1.在DeepSpeed中使用PyTorchProfiler做性能调试Profile模型训练的循环标记任意代码范围ProfileCPU/GPU的活动Profile内存消耗0x2.

just_sort·2024-09-08 17:39

NUMA架构

最近在学习.NET的并行计算技术，学到一个服务器NUMA架构，NUMA架构在中大型系统上一直非常盛行，也是高性能的解决方案，在系统延迟方面表现都很优秀。

weixin_34220623·2024-09-08 15:21

推荐频道