GPU；FFT 第6页

nvidia docker, nvidia docker2, nvidia container toolkits区别

背景在docker容器中用GPU时，查阅了网上许多教程，教程之间概念模糊不清，相互矛盾，过时的教程和新的教程混杂在一起。

coco_1998_2·2025-02-28 01:40

通过vLLM部署LLM模型到生产环境中

文章目录1使用vLLM部署模型2部署过程2.1准备GPU环境2.2安装vLLM依赖项3使用vLLM部署模型并启动服务3.1部署开源模型3.2部署微调模型4测试服务是否正常运行5评估服务性能1使用vLLM

MichaelIp·2025-02-28 01:04

阿里云服务器的作用

阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU

腾云服务器·2025-02-28 00:59

Unity3D 实现骨骼动画的 GPU Skinning 详解

传统的骨骼动画通常在CPU上进行计算，但随着硬件的发展，GPU的计算能力越来越强，GPUSkinning技术逐渐成为优化骨骼动画性能的重要手段。

Thomas_YXQ·2025-02-27 23:13

docker部署GPU环境

使用Docker部署GPU环境涉及到几个关键步骤，以下是详细步骤：1.安装NVIDIA驱动程序确保你的系统已经安装了NVIDIAGPU驱动。这是使用GPU的前提条件。

atom goper·2025-02-27 20:53

浅析 DeepSeek 开源的 FlashMLA 项目

浅析DeepSeek开源的FlashMLA项目DeepSeek开源周Day1（2025年2月24日）放出的开源项目——FlashMLA，是一款针对Hopper架构GPU高效多层级注意力(Multi-LevelAttention

X.Cristiano·2025-02-27 20:18

从CPU到GPU：渲染技术的演进和趋势

渲染技术一直在不断演进，从最初的CPU渲染到后来的GPU渲染，性能和质量都有了显著提升。

Imagination官方博客·2025-02-27 19:42

Imagination通过最新的D系列GPU IP将效率提升至新高度

ImaginationDXTPGPUIP在加速移动设备和其他电力受限设备上的图形和计算工作负载时，能够延长电池续航时间。

Imagination官方博客·2025-02-27 19:42

智算中心的核心硬件是什么？

当前主流的AI加速计算芯片包括：1、GPU（图形处理器）GPU是智算中心的算力担当，其强大的并行计算能力使其在深度学习领域大放异彩。GPU芯片

Imagination官方博客·2025-02-27 19:42

A100 解析：为何它成为 AI 大模型时代的首选？

前言NVIDIAA100TensorCoreGPU可针对AI、数据分析和HPC应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。

PPIO派欧云·2025-02-27 18:37

为 ARM 32 位平台交叉编译 FFTW 库（基于正点原子的阿尔法开发板）

首先：因为电脑是X86-64位，而我们需要arm-32位，所以要先导入交叉编译工具链。如果不会导入交叉编译工具链：请查看：导入交叉编译工具链echo$CCarm-poky-linux-gnueabi-gcc-march=armv7ve-mfpu=neon-mfloat-abi=hard-mcpu=cortex-a7--sysroot=/opt/fsl-imx-x11/4.1.15-2.1.0/sy

学者候选·2025-02-27 16:50

DeepEP：开源通信库的高效专家并行计算解决方案

它提供高效的all-to-all通信模式，支持GPU之间的高吞吐量和低延迟数据交换。DeepEP旨在优化专家并行计算中的通信效率，确保在大规模分布式系统中实现高性能的数据处理。

耶耶Norsea·2025-02-27 16:41

DeepSeek开源周合集

周一：FlashMLA，核心成就：GPU带宽利用接近理论极限，算力利用效率翻倍；周二：DeepEP，一个高效的MOE架构专家并行通信库：支持高效且优化后的全对全通信使用NVlink和RDMA进行节点内和节点间通信用于训练和推理填充的高吞吐量内核用于推理解码的低延迟内核原生支持

Vip.Gong·2025-02-27 14:03

自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）

我们不会在本博客中使用GPU，但您至少需要17GB的RAM，因为我们将加载一些大小超过15GB的文件。如果这对您来说是个问题，您可以使用Kaggle作为解

知识大胖·2025-02-27 10:33

Cassini_Network-Aware Job Schedulingin Machine Learning Clusters

研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长，对高效GPU集群的需求日益增加。

一只积极向上的小咸鱼·2025-02-27 07:37

NVIDIA CUDA Compiler Driver NVCC

`--list-gpu-code`(`-code-ls`)4.2.8.24.

Yongqiang Cheng·2025-02-27 05:23

cosyvoice自用的代码

fromcosyvoice.cli.cosyvoiceimportCosyVoice,CosyVoice2fromcosyvoice.utils.file_utilsimportload_wavimporttorchaudioimportonnxruntimeasort#设置使用GPUort.set

PyAIGCMaster·2025-02-27 05:22

LM_Funny-2-01 递推算法：从数学基础到跨学科应用

目录第一章递推算法的数学本质1.1形式化定义与公理化体系定理1.1(完备性条件)1.2高阶递推的特征分析案例：Gauss同余递推4第二章工程实现优化技术2.1内存压缩的革新方法滚动窗口策略分块存储技术2.2异构计算加速方案GPU

王旭·wangxu_a·2025-02-27 01:25

理解CPU与GPU频繁数据传输

基础理解在学习深度学习神经网络过程中，有时候会遇到一些描述“尽量避免CPU与GPU频繁数据传输”。那这句话应该如何理解呢？我们知道CPU可以访问内存，而GPU也有自己的显存。

_DCG_·2025-02-26 22:58

深度学习批次数据处理的理解

GPU硬件架构GPU的硬件架构设计是批处理能够高效运行的关键原因之一。GPU现阶段一般采用SIMT架构，它的特点如下：SIMT（Singl

_DCG_·2025-02-26 22:28

IPU概述

1.IPU概述（一）框架首先来看看imx6q整体系统框架图，看看IPU位于整个SOC系统中的位置：可以看出来，整个IPU挂接在AXI与AHB总线上面，通过总线，它可以与ARM，VPU，GPU和RAM等模块通信

深圳信迈主板定制专家·2025-02-26 21:24

安装CUDA以及GPU版本的pytorch

使用pytorch进行深度学习的时候，往往想用GPU进行运算来提高速度。于是搜索便知道了CUDA。下面给出一个自检的建议：检查cuda的版本是否适配自己的GPU。

lskkkkkkkkkkkk·2025-02-26 21:53

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

DeepSeek近期开源项目详细分析1.FlashMLA：大模型推理效率革命技术特点：首个开源项目FlashMLA是针对英伟达Hopper架构GPU（如H800）优化的高效多头潜在注意力（MLA）解码内核

guzhoumingyue·2025-02-26 20:45

全面分析 DeepSeek 的新开源 FlashMLA

导言著名的人工智能公司DeepSeek最近开源了FlashMLA，这是一款针对HopperGPU上的多头潜意识（MLA）进行了优化的高性能解码内核。

X.Cristiano·2025-02-26 19:34

云原生周刊：云原生和 AI

FlashMLA是专为NVIDIAHopper架构GPU（如H100、H800）优化的高效多头潜在注意力（MLA）解码内核，旨在提升大模型推理性能，特别是针对可变长度序列进行了优化。

·2025-02-26 19:58

DeepSeep开源周，第三天：DeepGEMM是啥？

DeepGEMM通过算法优化、硬件指令集加速和并行计算技术，显著提升计算速度，适用于GPU、CPU等硬件平台。对开发者的用处性能提升优化计算密集型任务（如LLM训练/推理），降低延迟，提升吞吐量。

程序员差不多先生·2025-02-26 19:33

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

这个旨在优化GPU性能的工具一经发布便迅速获得了广泛的关注和赞誉，短短两小时内就斩获了超过1000个Star。本文将详细介绍DeepEP的功能、应用场景以及如何使用它来提升AI训练和推理的效率。

东方佑·2025-02-26 18:29

在Intel GPU上使用IPEX-LLM进行本地BGE嵌入

Intel的IPEX-LLM是一种专门为IntelCPU和GPU优化的PyTorch库，能够在包括本地PC上的集成显卡和独立显卡（如Arc、Flex和Max）在内的Intel硬件上以极低的延迟运行大型语言模型

shuoac·2025-02-26 16:16

【无标题】

日常开发stream流示例基础对象代码块@Data@ToStringpublicclassPerson{privateStringname;privateStringcity;publicPerson(

fan510988896·2025-02-26 15:38

下载cuda11.2+cudnn8.1+tensorflow-gpu2.5

安装cuda11.2和cudnn8.1要注意自己的版本，目前tensorflow-gpu2.5或最高版本tensorflow-gpu2.6只支持cuda11.2和cudnn8.1。

听微雨·2025-02-26 14:03

云平台结合DeepSeek的AI模型优化实践：技术突破与应用革新

**弹性算力调度体系**-**动态资源分配**：基于Kubernetes的智能调度器实现GPU资源的细粒

荣华富贵8·2025-02-26 13:23

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)导读本人在Win10下安装深度学习框架Tensorflow

一个处女座的程序猿·2025-02-26 11:43

【TVM教程】为 NVIDIA GPU 自动调度神经网络

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-02-26 09:57

WebGPU与Web框架集成

目录React集成Vue集成Angular集成Svelte集成React集成将WebGPU与React集成，可以让您在React应用中利用现代Web图形和计算API来创建高性能的3D图形和计算任务。

天涯学馆·2025-02-26 08:13

【python】flash-attn安装

这个命令：确保使用正确的CUDA12.6工具链设置必要的CUDA环境变量包含了常见的GPU架构支持利用你的128核心进行并行编译#清理之前的安装proxychains4pipuninstall-yflash-attn

x66ccff·2025-02-26 03:43

GLake：优化GPU内存管理与IO传输的开源项目

GLake：突破GPU内存和IO瓶颈的利器在人工智能快速发展的今天，大模型训练和推理正面临着严峻的挑战。

2401_87458718·2025-02-26 02:35

llama-cpp-python本地部署并使用gpu版本

使用带编译的命令安装llama库#首选GGML_CUDA后续LLAMA_CUBLAS将删除CMAKE_ARGS="-DGGML_CUDA=on"FORCE_CMAKE=1pipinstallllama-cpp-python--no-cache-dirCMAKE_ARGS="-DLLAMA_CUBLAS=on"FORCE_CMAKE=1pipinstallllama-cpp-python--no-c

i__chen·2025-02-26 02:03

Vulkan：Vulkan物理模拟与碰撞检测技术教程_2024-07-20_15-47-39.Tex

它由KhronosGroup开发，旨在提供高性能的图形渲染和计算能力，同时减少CPU的开销，提高GPU的利用率。

chenjj4003·2025-02-26 01:58

嵌入式开发：傅里叶变换（5）：基于STM32-DSP库实现

目录1.准备工作2.函数介绍1.arm_rfft_instance_f32结构体2.arm_rfft_fast_init_f32函数3.arm_rfft_fast_f32函数4.FFT的执行过程4.编写

魂兮-龙游·2025-02-26 01:26

Anaconda 2025 最新版安装与Python环境配置指南（附官方下载链接）

一、软件定位与核心功能Anaconda2025是Python/R数据科学集成开发平台，预装1500+科学计算库，新增AI模型可视化调试、多环境GPU加速等特性。

waicsdn_haha·2025-02-26 00:22

一段电机转子表磁数据谐波幅值计算的MATLAB代码（需要自取）

,N1]=size(data);%行即为采集的数据点，列即为层数%设置采样率为数据点数fs=M1;pole=12;%电机为12对极fori1=1:N1data_1=data(:,i1);data_1_fft

Deepdaq·2025-02-25 23:48

梯度累加（结合DDP）梯度检查点

通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。

糖葫芦君·2025-02-25 23:16

突破性能极限：DeepSeek开源FlashMLA解码内核技术解析

Shockang·2025-02-25 22:09

PaddleOCR环境搭建(记录)

需nvidia下载zlib包即C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\v1

江木27·2025-02-25 21:04

探秘 DeepSeek 硬件适配：GPU/TPU/NPU 异构计算原理剖析

DeepSeek作为前沿且极具创新性的技术框架，在与GPU、TPU、NPU等异构硬件的融合适配方面展现出卓越特性。

FinkGO小码·2025-02-25 18:11

Flutter-Android编译报错与解决方案汇总

because“”isnull解决方案：IsolvedthisproblembyupgradingAndroidGradlePlugintoversion8.3.1.YoucanuseTools->AGPUpgradeAssistanttoupgradeAndroidGr

ShawnRacine·2025-02-25 09:35

部署 Llama 3.1 405B：分步指南,深入研究 Llama 最新模型 Llama 3.1 4050 亿参数模型的部署。这个强大的模型需要大量的 VRAM，特别是 4 位量化版本需要 231 G

但是，经过一些优化，我们可以使用8x4090GPU在192GB上运行它。最好的部分？我们只需要运行三个终端命令即可完成所有设置。

知识大胖·2025-02-25 02:47

Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用

硬件加速：GPU、TPU等加速计算，提升实

mosquito_lover1·2025-02-25 01:07

使用 DeepSeek 和 Streamlit 构建 AI 驱动的 SQL 查询应用程序

知识大胖·2025-02-25 01:06

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序

使用Opencv_CUDA模块实现基本计算机视觉程序CUDA提供了出色的接口，发挥GPU的并行计算能力来加速复杂的计算应用程序利用CUDA和Opencv的功能实现计算机视觉应用1.对图像的算术和逻辑运算两个图像相加

明月醉窗台·2025-02-24 18:51

推荐频道

GPU；FFT

nvidia docker, nvidia docker2, nvidia container toolkits区别

通过vLLM部署LLM模型到生产环境中

阿里云服务器的作用

Unity3D 实现骨骼动画的 GPU Skinning 详解

docker部署GPU环境

浅析 DeepSeek 开源的 FlashMLA 项目

从CPU到GPU：渲染技术的演进和趋势

Imagination通过最新的D系列GPU IP将效率提升至新高度

智算中心的核心硬件是什么？

A100 解析：为何它成为 AI 大模型时代的首选？

为 ARM 32 位平台交叉编译 FFTW 库（基于正点原子的阿尔法开发板）

DeepEP：开源通信库的高效专家并行计算解决方案

DeepSeek开源周合集

自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）

Cassini_Network-Aware Job Schedulingin Machine Learning Clusters

NVIDIA CUDA Compiler Driver NVCC

cosyvoice自用的代码

LM_Funny-2-01 递推算法：从数学基础到跨学科应用

理解CPU与GPU频繁数据传输

深度学习批次数据处理的理解

IPU概述

安装CUDA以及GPU版本的pytorch

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

全面分析 DeepSeek 的新开源 FlashMLA

云原生周刊：云原生和 AI

DeepSeep开源周，第三天：DeepGEMM是啥？

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

在Intel GPU上使用IPEX-LLM进行本地BGE嵌入

【无标题】

下载cuda11.2+cudnn8.1+tensorflow-gpu2.5

云平台结合DeepSeek的AI模型优化实践：技术突破与应用革新

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)

【TVM教程】为 NVIDIA GPU 自动调度神经网络

WebGPU与Web框架集成

【python】flash-attn安装

GLake：优化GPU内存管理与IO传输的开源项目

llama-cpp-python本地部署并使用gpu版本

Vulkan：Vulkan物理模拟与碰撞检测技术教程_2024-07-20_15-47-39.Tex

嵌入式开发：傅里叶变换（5）：基于STM32-DSP库实现

Anaconda 2025 最新版安装与Python环境配置指南（附官方下载链接）

一段电机转子表磁数据谐波幅值计算的MATLAB代码（需要自取）

梯度累加（结合DDP）梯度检查点

突破性能极限：DeepSeek开源FlashMLA解码内核技术解析

PaddleOCR环境搭建(记录)

探秘 DeepSeek 硬件适配：GPU/TPU/NPU 异构计算原理剖析

Flutter-Android编译报错与解决方案汇总

部署 Llama 3.1 405B：分步指南,深入研究 Llama 最新模型 Llama 3.1 4050 亿参数模型的部署。这个强大的模型需要大量的 VRAM，特别是 4 位量化版本需要 231 G

Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用

使用 DeepSeek 和 Streamlit 构建 AI 驱动的 SQL 查询应用程序

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序