GPU高性能编程

AI大模型的技术突破与传媒行业变革

这一突破的核心在于三大技术创新：MoE架构升级：通过部署256个细粒度专家网络，减少知识冗余，提升模型效率；MLA注意力机制：动态压缩推理过程中的缓存需求，降低GPU内存

AIQL·2025-02-17 07:52

hunyuan-DiT模型部署指南

二、部署流程环境要求：所需的最小GPU内存为11GB，建议使用具有32GB内存的GPU，以获得更好的生成质量。

算家云·2025-02-17 05:12

controller入参异常 No primary or default constructor found for class

java.lang.IllegalStateException:Noprimaryordefaultconstructorfoundforclassjava.time.LocalDateTime错误写法：@GetMappingpublicStringquery

Lin_Miao_09·2025-02-17 04:30

显卡性能对比：P100、RTX3090、A40、A100、A800、H100

32GBRTX3080RTX2080TiRTXA4000RTXA5000A100-SXM4-80GBA100-PCIE-40GBTITANXpRTX3060RTX3080TiV100-32GBTeslaT4A800H100世上最全NVDIAGPU

u013250861·2025-02-17 03:27

【Stable Diffusion部署至GNU/Linux】安装流程

显卡与计算架构介绍CUDA是NVIDIAGPU的专用并行计算架构技术层级说明CUDAToolkit提供GPU编译器(nvcc)、数学库(cuBLAS)等开发工具cuDNN深度神经网络加速库（需单独下载）

星星点点洲·2025-02-17 00:34

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

清华团队用CPU/GPU协同计算，让4090跑起671B参数全量模型！”大家好，我是蚝油菜花。如果你也经历过——看着API调用账单瑟瑟发抖，微调一次模型吃掉半月算力预算️盯着OOM报错抓狂，为了

蚝油菜花·2025-02-17 00:32

高效高并发调度架构

以下是从架构层面为你提供的适合多核CPU、多GPU环境下API客户端、服务端高级调度，以实现高效并发大规模与用户交互的技术栈：通信协议gRPC：基于HTTP/2协议，具有高性能、低延迟的特点，支持二进制序列化

之群害马·2025-02-16 23:59

【vLLM 学习】安装

依赖环境操作系统：LinuxPython：3.8-3.12GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L

·2025-02-16 23:25

三种方式实现人车流统计（yolov5+opencv+deepsort+bytetrack+iou）

一、运行环境1、项目运行环境如下2、CPU配置3、GPU配置如果没有GPUyolov5目标检测时间会比较久二、编程语言与使用库版本项目编程语言使用c++，使用的第三方库，onnxruntime-linux-x64

Jayson God·2025-02-16 23:24

【Stable Diffusion部署至Google Colab】

GoogleColab中快速搭建带GPU加速的StableDiffusionWebUIfromgoogle.colabimportdrivedrive.mount('/content/drive')!

星星点点洲·2025-02-16 21:40

麒麟SoC的详细架构组成介绍

目录麒麟SoC的主要组成部分1.应用处理器（ApplicationProcessor,AP）2.图形处理单元（GPU）3.神经网络处理单元（NPU）4.图像信号处理器（ISP）5.调制解调器（Modem

小蘑菇二号·2025-02-16 16:33

以下是一篇关于使用SLURM编写作业脚本的原创技术指南

通过编写规范的SLURM脚本，研究人员可以：1.精确申请计算资源（CPU/GPU/内存）2.实现任务队列管理3.自动化作业流程4.获得执行日志和性

这题有点难度·2025-02-16 15:57

InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens

InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers

伊织code·2025-02-16 14:18

理解WebGPU 中的 GPUDevice ：与 GPU 交互的核心接口

在WebGPU开发中，GPUDevice是一个至关重要的对象，它是与GPU进行交互的核心接口。

ttod_qzstudio·2025-02-16 13:12

解析浏览器中JavaScript与Native交互原理：以WebGPU为例

WebGPU的出现正是这一矛盾的解决方案之一。作为新一代Web图形API，WebGPU允许JS以接近原生（Native）的方式操作GPU，同时严格遵循浏览器的安全模型。本文将结

ttod_qzstudio·2025-02-16 12:36

onnx 推理报错：onnxruntime.capi.onnxruntime_pybind11_state.Fail: [ONNXRuntimeError] : 1 : FAIL : Load mo

onnx模型不匹配有可能是你转换的是gpu但是推理是cpu，也可能版本不兼容导致，因此卸载cpu版本，重新安装gpu版本或者升级gpu版本pipuninstallonnxruntime-gpupipinstall-ihttps

fengsongdehappy·2025-02-16 10:19

理解WebGPU 中的 GPUAdapter ：连接浏览器与 GPU 的桥梁

在WebGPU开发中，GPUAdapter是一个至关重要的对象，它作为浏览器与GPU之间的桥梁，为开发者提供了请求GPU设备、查询GPU特性以及获取适配器信息的能力。

ttod_qzstudio·2025-02-16 06:44

理解 WebGPU 中的 GPUQueue：GPU 的命令队列

在现代图形编程中，与GPU的交互变得越来越高效和灵活，而WebGPUAPI的出现更是为Web开发者带来了强大的图形处理能力。其中，GPUQueue作为WebGPU的核心接口之一，扮演着至关重要的角色。

ttod_qzstudio·2025-02-16 05:38

java实现kotlin接口_Kotlin 接口与 Java8 新特性接口详解

前言在看一本关于高性能编程的时候发现Java8中关于接口的新特性的介绍，这个特性是真的棒，解决了一个接口中有多个方法，但并不想实现该接口的类都去实现所有的方法，简单的说就是在类需要的情况再去重写接口。

天使走自己的路·2025-02-16 04:05

DeepSeek 大模型离线 Docker 部署技术指南

核心组件包括：模型服务层：基于TritonInferenceServer的模型推理容器API网关层：FastAPI实现的REST/gRPC接口服务资源管理层：CUDA-awareDocker运行时+NVIDIAGPU

容器的搬运工·2025-02-16 04:32

动手学深度学习V2.0(Pytorch)——25. 使用块的网络 VGG

文章目录P1讲解1.1基本介绍1.2总结P2代码实现2.1报错解决2.2windows下专用/共享GPU内存P3Q&AP4.其他4.1ImageNetClassificationLeaderboard4.2VGG

吨吨不打野·2025-02-16 04:58

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

以下是KTransformers的详细介绍：1.核心特点高性能优化：KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术，显著加速模型推理速度，降低硬件门槛。

魔王阿卡纳兹·2025-02-16 03:52

C++栈内存管理：从原理到高性能编程实践

以下是一篇关于C++栈机制的原创技术论文框架及内容，结合语言规范、编译器实现与工程实践，包含创新性分析和实验验证：---**C++栈内存管理：从原理到高性能编程实践****摘要**本文深入剖析C++栈内存的分配机制

溟海.·2025-02-16 03:51

大模型转换为 GGUF

其目的是为了有一个单文件共享的格式，并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中，遇到了灵活性不足、相容性及难以维护的问

奔跑中的小象·2025-02-15 22:48

深度学习基础知识

它允许开发人员利用NVIDIA的GPU（图形处理器）来加速各种计算任务，包括科学计算、机器学习、深度学习、数据分析等。NVIDIA是一个全球领先的计算技术公司，专注于设计和制造高性能计算设备。

namelijink·2025-02-15 15:22

如何在我的电脑上查看是否安装cuda12？我现在在我的VS中新建项目时，里面多出来一个CUDA12.4 runtime，这是什么？是不是使用CUDA cpp进行编程？

在你的电脑上检查是否安装了CUDA12，可以通过以下几种方法：1.检查CUDAToolkit安装目录查看CUDA安装目录：-默认情况下，CUDAToolkit安装在C:\ProgramFiles\NVIDIAGPUComputingToolkit

吃榴莲的小鳄鱼·2025-02-15 15:21

Python 并发处理

编写您自己的并发和并行软件系统所需的并发的基本概念介绍调试和异常处理等概念，以及一些允许您创建事件驱动和反应式系统的最流行的库和框架内容加快速度并行化线程的生命线程间同步线程之间的通信调试和基准测试执行和池多进程事件驱动编程反应式编程使用GPU

亚图跨际·2025-02-15 15:21

【开发日志】数字人+LLM：从概念到实现的全程记录！

系统环境：CPU:i91490016GBGPU:GTX40608GBSYS:Windows11WSL:Ubuntu22.04本文章使用到的技术内容:数字人框架:LiveTalking大模型:Llama3.1TTS

AI大模型-王哥·2025-02-15 13:11

麒麟8000处理器参数

麒麟8000CPU为1个2.4GHz的A77核心+3个2.19GHz的A77核心+4个1.84GHz的A55核心，GPU是Mali-G610，频率为864MHz。

m0_50307601·2025-02-15 12:32

使用CerebriumAI进行大规模语言模型的推理

传统的CPU在处理大规模语言模型（LLM）时效率较低，GPU成为了首选。然而，自行搭建GPU环境成本高昂且维护复杂。

qahaj·2025-02-15 07:54

实验随记2-Pytorch Lightning多机多卡训练

示例实现5节点4GPU共计20卡训练。使用pytorch_lightning==1.9.4存在bug:启

晓岚和雪·2025-02-14 23:48

PyTorch Lightning多GPU分布式日志介绍

分布式日志是指在分布式系统中，多个节点（如多台机器或多个GPU）协同工作时，对系统运行状态、错误信息、性能指标等进行记录的过程。

qq_27390023·2025-02-14 23:48

1.1、Ray-关键概念Key Concepts

Ray使任务能够指定其在CPU、GPU和自定义资源方面的资源需求。这些资源请求被集群调度器用来在整个集群中分配任务，以实现并行执行。参见

MaxCode-1·2025-02-14 20:23

用 Python 实现 DeepSeek R1 本地化部署

你的电脑至少得配备8GB内存，要是想运行更大的模型，比如7B及以上的，那最好有更强劲的CPU和GPU，内存也

喜-喜·2025-02-14 18:33

Chrome内核解析 -- 背景篇：Chromium的多进程多线程构架

采用多进程构架，以DesktopChromium为例，它包括一个BrowserProcess(也称为UIProcess),一个或多个RenderProcess(也称为WebProcess),零个或一个GPUProcess

yunchao_he·2025-02-14 05:31

windows hyperv中Ubuntu使用本机的nvidia显卡

在WindowsHyper-V中，Ubuntu虚拟机默认无法直接使用主机的NVIDIA显卡，因为Hyper-V的虚拟化技术会独占GPU资源。

飞瀑·2025-02-14 05:26

GPU（Graphics Processing Unit）详解

GPU（GraphicsProcessingUnit）详解1.GPU的定义与核心特性GPU（图形处理器）是一种专为并行计算和图形渲染优化的处理器。

美好的事情总会发生·2025-02-14 03:32

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

岁月的眸·2025-02-13 23:03

Windows下安装CPU用的Tensorflow

刚在电脑上安装了Tensorflow，还是碰到了一些麻烦，记录一下：很多教程是介绍怎么在Linux平台下安装的，或者是Windows平台下GPU用的，很可惜，这些教程对我来说太麻烦了。

Coder LM Wang·2025-02-13 22:26

ubuntu-gpu生产环境，创建lvm步骤（真实生产）

一、手动-创建步骤多块磁盘创建成一个LVM，并挂载到/mnt，同时确保系统在启动时自动挂载该LVM卷，你可以按照以下步骤进行操作。以下是具体的操作命令：1.创建LVM1.1初始化物理卷首先，我们需要将所有指定的磁盘初始化为物理卷（PhysicalVolume,PV）。#列出所有磁盘lsblk#初始化每个磁盘为物理卷pvcreate/dev/nvme0n1pvcreate/dev/nvme1n1pv

清风 001·2025-02-13 22:26

【虚幻引擎UE】UE4.23到UE5.5的核心功能变化

但通过第三方插件（如WebAssembly+WebGPU）可在浏览器运行部分项目。

灵境引路人·2025-02-13 21:19

免费体验！DeepSeek一键部署全攻略

借助AlayaNeW算力云服务提供的强大GPU资源，您可以轻松实现DeepS

·2025-02-13 20:13

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

我记得在PyTorch中，模型并行通常涉及到将模型的层分布到不同的GPU上。ColumnParallelLinear可能指的是将线性层的列（即输出神经元）分布在多个设备上。

DukeYong·2025-02-13 18:00

Tritonserver 在得物的最佳实践

一、Tritonserver介绍Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案，因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点，是目前云端的GPU

·2025-02-13 16:03

DeepSeek核心成员专访，顶级团队的思维与执行力恐怖如斯 - 1

例如，我们曾在讨论一个核心算子时，发现其GPU使用率并不高，我们尝

2402_86608154·2025-02-12 22:33

一文走进GpuGeek | 如何快速使用实例？

使用流程注册登录进入GpuGeek.com平台注册页面使用手机号注册数据上传平台提供网盘存储，在【网盘存储】页面，可以看到存储的使用量、费用及文件。选择网盘后，点击上传，上传本地文件至网盘。

·2025-02-12 22:38

CUDA与CUDPP源码解析及实战应用

本文还有配套的精品资源，点击获取简介：CUDA是NVIDIA推出的并行计算平台，CUDPP是一个提供GPU优化算法的开源库。

昊叔Crescdim·2025-02-12 19:06

嵌入式AI革命：DeepSeek开源如何终结GPU霸权，开启单片机智能新时代？

2025年，全球AI领域最震撼的突破并非来自算力堆叠的超级模型，而是中国团队DeepSeek通过开源策略，推动大模型向微型化、低功耗场景的跨越。相对于当人们还在讨论千亿参数模型的训练成本被压缩到600万美金而言，被称作“核弹级别”的操作，是DeepSeek的完全开源。一个更具颠覆性的命题浮出水面：能否将DeepSeek这样的先进AI模型移植到单片机（MCU）上，让手表、传感器甚至灯泡都具备真正的智

老六哥_AI助理指南·2025-02-12 16:09

Deep Seek大模型部署到本地详细教程

以下是将DeepSeek大模型部署到本地开发环境的详细教程，分为多个步骤，包含技术细节和注意事项：步骤1：环境准备硬件要求GPU：推荐NVIDIAGPU（至少16GB显存，如RTX3090/4090或A100

Katie。·2025-02-12 11:40

（python）如何看自己安装的包的版本

findstr"numpyscipytensorflowkeras"输出numpy1.13.1scipy0.19.1tensorflow-cpu2.4.0tensorflow-estimator2.4.0tensorflow-gpu2.4.0

9677·2025-02-12 10:04

推荐频道