GPU云桌面第4页

并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹

并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹在深度学习领域，模型的规模和复杂性不断增长，单GPU的计算能力已难以满足需求。多GPU并行计算成为提升训练效率的关键。

2401_85763639·2024-08-28 09:56

苹果M4芯片Mac全面曝光或10月发布

其中三台Mac配备了10核CPU和10核GPU；第四台机器配备了8核CPU和8核GPU（首次亮相），所有四台M4Mac都有16GB

一一一一一一__1·2024-08-28 08:22

精准掌控GPU：深度学习中PyTorch的torch.cuda.device应用指南

精准掌控GPU：深度学习中PyTorch的torch.cuda.device应用指南在深度学习的世界里，GPU加速已成为提升模型训练和推理速度的关键。

2401_85760095·2024-08-28 06:41

编译运行 llama.cpp (vulkan, Intel GPU SYCL)

llama.cpp是一个运行AI(神经网络)语言大模型的推理程序,支持多种后端(backend),也就是不同的具体的运行方式,比如CPU运行,GPU运行等.但是编译运行llama.cpp并不是那么容易的

穷人小水滴·2024-08-28 05:27

大模型推理测速 (llama.cpp, Intel GPU A770)

由于本文太长,分开发布,方便阅读.3.1CPU(i5-6200U,2C/4T/2.8GHz)x86_64AVX2在4号PC(物理机)上运行.版本:>./llama-b3617-bin-ubuntu-x64/build/bin/llama-cli--versionversion:3617(a07c32ea)builtwithcc(Ubuntu11.4.0-1ubuntu1~22.04)11.4.0f

穷人小水滴·2024-08-28 05:57

Windows下编译libevent 64位静态库总结

参照：https://my.oschina.net/jacobin/blog/146567http://blog.csdn.net/qingfengpu99/article/details/45113841http

岩屿·2024-08-28 01:09

详细说明：向量数据库Faiss的搭建与使用

它能够处理大型数据集，并且在GPU上的性能表现尤为出色。下面详细介绍Faiss的搭建与使用。1.搭建Faiss1.1安装依赖包首先，需要安装Faiss及其依赖包。

AI逍遥子·2024-08-28 01:09

PYTORCH 官方文档，开发文档，Python编程人工智能深度机器学习

PYTORCH文档PyTorchdocumentation—PyTorchmasterdocumentationPyTorch是一个使用GPU和CPU进行深度学习的优化张量库。

zhangfeng1133·2024-08-27 13:21

HPC&AI并行计算集群Slurm作业调度系统对通用资源（GRES）的调度

为特定GRES类型启用了其他内置功能，包括图形处理单元（GPU）、CUDA多进程服务（MPS）设备，并通过可扩展的插件机制进行分片。二、配置默认情况下，群集的配置中未启用任何GRES。

技术瘾君子1573·2024-08-27 09:25

运维系列&AI系列&Lenovo-G双系统系列（前传-装之前搜索的）：pytorch cuda安装报错的解决方法

pytorchcuda安装报错的解决方法pytorchcuda安装报错的解决方法前言2022.12.8在win+cuda11.8下安装最新PytorchGPU版时遇到包不兼容的问题，该文记录安装的整个流程一

坦笑&&life·2024-08-27 06:33

【CUDA编程笔记】如何使用CUDA统一内存来优化多进程多线程程序的性能？

理解统一内存统一内存是CUDA编程模型的一个组件，它定义了一个所有处理器都可访问的单一连贯内存映像，允许数据在CPU和GPU之间透明迁移，无需显式复制。

qq2108462953·2024-08-26 23:26

CUDA指南-CUDA简介与开发环境搭建

CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的并行计算平台和编程模型，它允许开发者利用NVIDIAGPU进行高效的通用计算任务。

小虾米欸·2024-08-26 21:41

关于苹果M1和Intel等芯片的区别

这颗芯片采用5纳米制程工艺，CPU、GPU、缓存集成在一起，其中包含160亿个晶体管。虽然股价没涨，市场反应也不温不火，但是，苹果变革的暗流，已经汹涌袭来。

丿星纟彖彳亍·2024-08-26 19:15

[服务器运维] gpu幽灵进程处理

僵尸进程是指那些已经完成任务但没有正确关闭的进程，它们可能因为各种原因未能释放占用的GPU资源。这会导致资源浪费，并且阻碍其他任务的执行。

PigeonGuan·2024-08-26 18:38

Python(PyTorch)多语言图像感知质量指标算法

LabVIEW单尺度质量指标算法|MATLAB单尺度质量指标算法|PyTorch完整参考图像质量测量指标、和分布式图像特征质量测量指标|多尺度质量模型应用：图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU

亚图跨际·2024-08-26 16:57

人工智能开源库有哪些

TensorFlow：由Google开发的深度学习库，提供了丰富的工具和API，支持CPU和GPU计算。PyTorch：由Facebook开发的深度学习框架，提供动态图和静态图两种模式，并且易于使用。

openwin_top·2024-08-26 02:59

深度学习多GPU训练原理

详细参考《动手学深度学习》P233，8.4节多GPU计算。数据并行的方法把一个batch的所有数据平均分配到每块GPU的显存里，把模型参数在每个GPU显存上拷贝一份。

浦东新村轱天乐·2024-08-25 22:31

TensorFlow库详解：Python中的深度学习框架

它能够处理大规模的多维数据，并支持在多种硬件平台上运行，如CPU、GPU和TPU（TensorProcessingUnit）。

Ambition_LAO·2024-08-25 21:28

OpenCL在移动端GPU计算中的应用与实践

在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。

m0_67544708·2024-08-25 10:51

向量数据库Faiss的搭建与使用｜Faiss｜向量数据库｜高效检索｜机器学习｜大规模数据

Faiss的安装与环境配置2.1环境要求2.2Faiss的安装2.3验证安装3.Faiss的基本使用3.1创建索引与添加向量3.2执行查询3.3向量的压缩与内存优化4.Faiss的高级功能与优化4.1GPU

concisedistinct·2024-08-25 09:10

pytorch实现模型搭建

通常是在你有GPU的情况下需要这样显式进行设备的设置，从而在需要时，你可以将变量从主存迁移到显存中。如果没有GPU，不获取也没事，pytorch会默认将参数都保存在主存中。

Fiona.y·2024-08-24 21:30

关于离屏渲染

1、当前屏幕渲染一般情况下界面的呈现是在当前屏幕渲染，首先CPU计算好frame等属性，将计算好的内容提交给GPU去渲染，GPU渲染完成之后就会放入屏幕帧缓冲区，然后控制器每隔一段时间会去屏幕缓存区读取渲染好的内容

晨枫阳·2024-08-24 16:29

启用Microsoft Edge浏览器的“硬件加速”功能

MicrosoftEdge浏览器提供了“硬件加速”选项，允许浏览器利用计算机的GPU来提升渲染性能，从而加快页面加载速度和改善用户体验。本文将详细介绍如何在Edge浏览器中启用“硬件加速”功能。

哎呦没·2024-08-24 16:28

K8S集群中驱逐节点

K8S集群中驱逐node节点下面以驱逐节点上的GPU节点为例：1.驱逐节点上的资源使用以下命令从节点上驱逐GPU资源：kubectldrain--delete-local-data--force--ignore-daemonsets

听说唐僧不吃肉·2024-08-24 02:32

C# 获取当前电脑的mac地址

一个方法GetMacByIpConfigpublicstringGetMacByIpConfig(){Listmacs=newList();varrunCmd=ExecuteInCmd("chcp437&

Net蚂蚁代码·2024-08-23 21:59

GPGPU

1、GPGPU(general-purposegraphicsprocessorunitsarchitecture，通用图像处理器）:是一种利用处理图形任务的图形处理器来计算原本由中央处理器处理的通用计算任务

朝朝暮暮Quake·2024-08-23 10:19

【Story】《现代芯片架构全景图：架构、内存系统与外设接口》

目录芯片架构详解1.处理器核心（CPUCore）1.1RISC（精简指令集计算）1.2CISC（复杂指令集计算）1.3VLIW（超长指令字）1.4SIMD（单指令流多数据流）1.5MIMD（多指令流多数据流）1.6GPU

LuckiBit·2024-08-23 05:21

CentOS7安装NVIDIA GPU驱动程序和CUDA工具包

1.查看本地环境检查GPU型号lspci|grep-invidia查看linux系统版本uname-m&&cat/etc/redhat-release禁用nouveaulsmod|grepnouveau

2级选手·2024-08-23 02:30

cuML installation guidence

Mycomputer’sgpuisgtx3060ti,cudaversionis11.4.FirstChecktheversionofyourgcc,type“gcc-v”,ensuringthatyourgccversionis9orhigher

clancy_wu·2024-08-23 02:29

GPU 架构概述费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）和伏特（Volt）架构

GPU架构概述本文主要介绍NVIDIAGPU每一代架构的技术发展和架构之间的区别和联系，时间跨度从2010年至2017年，包括费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡

EwenWanW·2024-08-22 19:49

阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算架构区别

在我们选购阿里云服务器的时候，云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选，有的用户并不清楚他们之间有何区别，本文主要简单介绍下不同类型的云服务器有何不同

阿里云最新优惠和活动汇总·2024-08-22 16:13

pyinstaller打包onnxruntime-gpu报错找不到CUDA的解决方案

问题说明：使用onnxruntime-gpu完成了深度学习模型部署，但在打包时发生了报错：找不到CUDA具体问题描述：RuntimeError:D:\a\_work\1\s\onnxruntime\python

布呐呐na·2024-08-22 15:56

opencv | cv::cuda::GpuMat upload函数用法

cv::cuda::GpuMat是OpenCV中用于表示GPU上的图像数据的类，它继承自cv::cuda::GpuMatBase类，提供了一些常用的操作函数，例如upload、download、copyTo

Ddddddd_158·2024-08-22 08:40

计算机四个方面：计算、存储、通信与程序；操作系统

CPU和GPU信息：lscpu：显示CPU的架构信息。cat/proc/

loong_XL·2024-08-22 07:06

java与python-java和python的比较

python干活，需求再学习python各种库，pyhton的强壮在于库，为什么python的库强壮，原因是python的库能够用python，c言语,c++等规划，再提供给python运用，所以无论gpu

weixin_37988176·2024-08-22 05:52

DeepSpeed与Megatron的区别和联系

DeepSeedDeepSeed代表性功能MegatronMegatron代表性功能备注GPU底层优化有开创性的全栈GPU内核设计FP6量化更牛逼FusedCUDAKernels毕竟Megatron是Nvidia

爱串门的小马驹·2024-08-22 04:16

bigbig猩猩·2024-08-21 23:15

大模型的学习 LLaMa和ChatGLM，minichatgpt4

NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,

贝猫说python·2024-03-27 07:55

@llvm.amdgcn.workitem.id.x()引发的一些前后端的调研

记录资料：UserGuideforAMDGPUBackend—LLVM5documentationintrinsic函数会执行lowerintrinsicspassllvm-project-main/llvm

jc小小川+幻幻融hr·2024-03-25 05:50

CUDA——内存

内存形式静态全局内存#include#include__device__floatdevData;//-GPU静态变量（所有设备代码均可见，主机代码不允许直接访问）__global__voidcheckGlobalVariable

UCAS_HMM·2024-03-25 04:19

2024最新华为OD机试试题库全 -【执行时长】- C卷

1.题目详情1.1⚠️题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。

算法小叮当·2024-03-20 19:32

MATLAB使用OMP实现图像的压缩感知实例

OMP（OrthogonalMatchingPursuit）是一种用于稀疏信号恢复的迭代算法。它的目标是从一组测量值中重建具有少量非零元素的信号。

superdont·2024-03-18 09:16

加速 PyTorch 模型预测常见方法梳理

目录1.使用GPU加速2.批量推理3.使用半精度浮点数(FP16)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时，可以通过多种方法来加快推理速度

samoyan·2024-03-17 16:54

数据科学简讯 2023-04-14

他购买了大约10,000个GPU，并且一直在聘请AI专家，同时探索与ChatGPT竞争的可能性。Twitter的这种生成式AI的确切用途尚不清楚，但它有可能用于增强搜索功能或广告。

数科每日·2024-03-17 09:53

tang-0203·2024-03-16 22:30

【深度学习笔记】1 数据操作

然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使

RIKI_1·2024-03-16 02:02

阿里云分布式深度学习训练架构Whale

阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs

qwfys200·2024-03-14 07:30

深度学习踩坑记录（持续更新）

TrainingArguments时output_dir指定问题4060显卡cuda版本异常环境：torch1.11.0+cu113程序报错RuntimeError:nvrtc:error:invalidvaluefor--gpu-architecture

芒果不茫QAQ·2024-03-13 15:39

RuntimeError: (PreconditionNotMet) The third-party dynamic library (cublas64_102.dll；cublas64_10.dll

(cublas64_102.dll;cublas64_10.dll)thatPaddledependsonisnotconfiguredcorrectly.C:\ProgramFiles\NVIDIAGPUComputingToolkit

xxxggany·2024-03-12 21:13

c#截取两个指定字符串中间的字符串列表

localization:50-50},jdjsi{emoj,{localization:12-58}}"截取中间的坐标，根据"{localization:"和"}"进行匹配，得到结果如下打印image.pngpubliccl

好怕怕·2024-03-12 08:01

推荐频道

GPU云桌面