GPU；FFT 第3页

【翻译】Part4: Texture samplers.

上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。

·2025-07-02 22:52

pytorch底层原理学习--PyTorch 架构梳理

完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC

xinxiangwangzhi_·2025-07-02 14:21

onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析)

毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU

weixin_39759270·2025-07-02 11:02

OpenCV CUDA模块设备层-----双曲正切函数tanh()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备函数，用于在GPU

村北头的码农·2025-07-02 11:26

OpenCV CUDA模块设备层-----二值化阈值操作函数thresh_binary_func()

这个函数返回一个仿函数（functor），用于在GPU上执行二值化阈值处理（ThresholdBin

·2025-07-02 10:22

从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功

文章目录从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测环境+完整步骤】✅环境信息（实测成功）第一步：获取源码️第二步：编译命令参数说明（重点）第三步：安装构建好的`.whl

草莓奶忻·2025-07-02 09:41

Ubuntu 22.04 庙算平台训练环境搭建指南

本文记录了基于Ubuntu22.04.3LTS的训练环境搭建过程，适用于需要部署庙算推演离线平台的用户，支持GPU（可选）。

笑衬人心。·2025-07-02 03:00

Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告

32B（原版/量化版）测试目标：硬件性能适配性、推理速度、内存占用及优化方案一、Macmini硬件配置概览配置项M4基础款（16GB）M4Pro高配（32GB/64GB）芯片M4（10核CPU/10核GPU

强哥之神·2025-07-01 21:16

Python和MATLAB数字信号波形和模型模拟

快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。

·2025-07-01 19:34

口扫系统软件的架构设计流程

[结构光图像流]↓解码结构光图案↓三角测量计算深度↓点云生成并去噪滤波↓实时配准/拼接(可选ICP/Odometry)↓网格重建（如MarchingCubes或BallPivoting）↓GPU显示（OpenGL

老猿的春天·2025-07-01 16:41

GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析

DeepSeek.ai推出的DeepEP，专为MoE/EP通信优化，实现了GPU原生高吞吐、低延迟通信，极大释放了底层硬件潜力。

DeepLink_01·2025-07-01 10:33

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。

ezl1fe·2025-07-01 10:02

本地部署Qwen3小参数版本实测：并非鸡肋

另一方面，大模型对硬件要求较高，尤其是对GPU的性能和显存容量有一定要求。如果硬件不达标，模型运行起来可能会很慢，甚至根本无法运行。而且，

程序员寒山·2025-07-01 09:56

高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算

RK3588处理器技术细节计算单元CPU：4×[email protected]（大核集群）4×[email protected]（能效集群）支持ARMDynamIQ混合架构，可实现任务智能调度GPU：

九鼎创展科技·2025-07-01 07:18

如何搭建基于RK3588的边缘服务器集群？支持12个RK3588云手机

软件部署及优化要点：️‌一、硬件集群架构设计‌‌节点基础配置‌‌核心单元‌：单节点采用RK3588核心板（4×[email protected]+4×[email protected]），集成6TOPSNPU及Mali-G610GPU

XMAIPC_Robot·2025-07-01 07:17

商品类目一览

请求地址productCategory传入product_id，得到结果交流：5b6u5L+hIGpudG9vbA=={"data":{"alternative_categories":[{"category_id

乱乱乱乱·2025-07-01 06:37

信创背景下应用软件迁移解析：从政策解读到落地实践方案

信创（信息技术应用创新）是指用我国自主研发的基础软硬件产品实现对国外产品的替代，特别是在CPU、GPU及操作系统等关键领域。其核心目标是解决核心技术"卡脖子"问题，构建安全可控的IT底层架构和标准。

tianzhiyi1989sq·2025-07-01 00:06

什么是Alpha测试和Beta测试？

Beta测试≈真实世界的"路测实验"交给真实用户在实际环境中使用，比如某知名手游的Beta测试期间，我们发现了iOS14.3特定版本下的GPU内存泄漏问题，这种问题在模拟器上根本无法复现。2.

海姐软件测试·2025-07-01 00:32

CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。

一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。

struggle2025·2025-06-30 16:06

【TVM 教程】PAPI 入门

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-06-30 12:30

NVAPI 获取同步卡信息

<GPUNvPhysicalGpuHandlegpuHandles[NVAPI_MAX_PHYSICAL

xhh-cy·2025-06-30 10:24

【Python】科研代码学习：十三 Accelerate

torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus

溢流眼泪·2025-06-30 05:21

使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s

二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（

没刮胡子·2025-06-30 01:32

Unity纹理的性能优化

https://developer.unity.cn/projects/6482ba86edbc2a116e4f27c1在Unity的储存方式大部分的纹理，Unity都会保存两份像素数据的副本：GPU内存

东邪丶·2025-06-29 23:20

计算机基础和Java编程的练习题

显卡（GPU）：负责图形渲染，将数字信号转换为图像显示在屏幕上。电源：为计

柳依依@·2025-06-29 23:16

Python助力自动驾驶：深度学习模型优化全攻略

可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化

Echo_Wish·2025-06-29 22:11

tensorRT 与 torchserve-GPU性能对比

实验对比前端时间搭建了TensorRT、Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。

joker-G·2025-06-29 22:40

AI算力综述和资料整理

目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。

木鱼时刻·2025-06-29 15:48

【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）

【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。

金枝玉叶9·2025-06-29 15:48

YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践

到.bin转换与优化实践——基于TensorRT的高性能嵌入式部署方案第一章：技术背景与核心概念1.1RDK5开发板硬件架构NVIDIAJetsonOrinNX核心参数：1024-coreAmpereGPU

pk_xz123456·2025-06-29 13:35

分布式训练架构解析

分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU

·2025-06-29 11:55

鸿蒙应用动画优化：流畅交互的实现方法

鸿蒙应用动画优化：流畅交互的实现方法关键词：鸿蒙应用开发、动画优化、流畅交互、图形渲染、性能分析、VSYNC、GPU加速摘要：本文深入解析鸿蒙系统动画优化的核心技术，从动画渲染原理、性能瓶颈分析到具体优化策略

操作系统内核探秘·2025-06-29 11:24

【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践

然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非

无心水·2025-06-29 09:37

OpenGL-什么是软OpenGL/软渲染/软光栅？

‌软OpenGL（SoftwareOpenGL）‌或者软渲染指完全通过CPU模拟实现的OpenGL渲染方式（包括几何处理、光栅化、着色等），不依赖GPU硬件加速。

·2025-06-29 08:57

在MATLAB中使用GPU加速计算及多GPU配置

文章目录在MATLAB中使用GPU加速计算及多GPU配置一、基本GPU加速使用1.检查GPU可用性2.将数据传输到GPU3.执行GPU计算二、多GPU配置与使用1.选择特定GPU设备2.并行计算工具箱中的多

东北豆子哥·2025-06-29 06:14

gem5-gpu教程 DSENT (Design Space Exploration of Networks Tool) 配合gem5

概述DSENT是一种建模工具，旨在快速探索电子和新兴的片上光电网络（NoC）的设计空间。它为各种网络组件提供分析和参数化模型，并可在一系列技术假设下移植。给定架构级参数，DSENT从电气和光学构建块分层构建指定的模型，并输出详细的功率和面积估计。版本当前：0.91（2012年6月26日）最新版本或其他信息可在以下网址找到https://sites.google.com/site/mitdsent系

事橙1999·2025-06-29 06:42

Matplotlib 库来可视化频谱泄漏和加窗的效果

importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.fftimpo

Mark White·2025-06-29 01:37

OpenCV CUDA模块设备层-----线性插值函数log()

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样

村北头的码农·2025-06-28 21:03

阿里云魔搭社区AIGC专区：中国AI创作的革命性平台

这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。

Liudef06小白·2025-06-28 20:56

iOS 13 报错:[Assert] Unsupported use of UIKit view-customization API off the main thread

2021-05-1115:36:38.174462+0800App-Beta[1141:430280][Assert]UnsupporteduseofUIKitview-customizationAPIoffthemainthread

干志雄·2025-06-28 18:14

高通手机跑AI系列之——3D姿势估计

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-06-28 17:10

高通手机跑AI系列之——姿态识别

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-06-28 17:09

高通手机跑AI系列之——实时头发识别

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-06-28 17:09

高通手机跑AI系列之——手部姿势跟踪

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-06-28 17:09

✨【Blender/Houdini 渲染必看】CPUⓥⓢGPU？3 分钟选对算力不踩坑！

核心问题速答Q：渲染该选CPU还是GPU？✅CPU：复杂场景/批量渲染/预算可控首选✅GPU：单帧速度/实时预览/急单交付必选维度1：硬件硬刚——CPU凭啥赢麻了？

渲染101专业云渲染·2025-06-28 15:23

川翔云电脑全新上线：三维行业高效云端算力新选择

一、核心定位与优势云端虚拟工作站服务依托云端高性能CPU/GPU集群，提供远程桌面服务，支持普通设备运行专业软件。按需付费模式：无需采购高端硬件，大幅降低成本投入。

渲染101专业云渲染·2025-06-28 15:51

【安装Stable Diffusion以及遇到问题和总结】

下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。

岁月玲珑·2025-06-28 10:17

【PyTorch】保存和加载模型

加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU

Jackilina_Stone·2025-06-28 01:54

Python实现图像处理的快速傅里叶变换（FFT）或离散余弦变换（DCT）

目录Python实现图像处理的快速傅里叶变换（FFT）或离散余弦变换（DCT）一、引言1.1图像处理简介1.2快速傅里叶变换与离散余弦变换简介1.3本文目标与结构二、理论背景与数学原理2.1快速傅里叶变换

闲人编程·2025-06-27 19:39

信号处理算法：快速傅里叶变换(FFT)_（2）.FFT算法的原理与实现

FFT算法的原理与实现1.引言快速傅里叶变换（FastFourierTransform,FFT）是一种高效的算法，用于计算离散傅里叶变换（DiscreteFourierTransform,DFT）及其逆变换

kkchenkx·2025-06-27 19:06

推荐频道

GPU；FFT

【翻译】Part4: Texture samplers.

pytorch底层原理学习--PyTorch 架构梳理

onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析)

OpenCV CUDA模块设备层-----双曲正切函数tanh()

OpenCV CUDA模块设备层-----二值化阈值操作函数thresh_binary_func()

从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功

Ubuntu 22.04 庙算平台训练环境搭建指南

Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告

Python和MATLAB数字信号波形和模型模拟

口扫系统软件的架构设计流程

GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

本地部署Qwen3小参数版本实测：并非鸡肋

高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算

如何搭建基于RK3588的边缘服务器集群？支持12个RK3588云手机

商品类目一览

信创背景下应用软件迁移解析：从政策解读到落地实践方案

什么是Alpha测试和Beta测试？

CARLsim开源程序 是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络 （SNN） 模型。

【TVM 教程】PAPI 入门

NVAPI 获取同步卡信息

【Python】科研代码学习：十三 Accelerate

使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s

Unity纹理的性能优化

计算机基础和Java编程的练习题

Python助力自动驾驶：深度学习模型优化全攻略

tensorRT 与 torchserve-GPU性能对比

AI算力综述和资料整理

【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）

YOLOv8模型在RDK5开发板上的部署指南：.pt到.bin转换与优化实践

分布式训练架构解析

鸿蒙应用动画优化：流畅交互的实现方法

【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践

OpenGL-什么是软OpenGL/软渲染/软光栅？

在MATLAB中使用GPU加速计算及多GPU配置

gem5-gpu教程 DSENT (Design Space Exploration of Networks Tool) 配合gem5

Matplotlib 库来可视化频谱泄漏和加窗的效果

OpenCV CUDA模块设备层-----线性插值函数log()

阿里云魔搭社区AIGC专区：中国AI创作的革命性平台

iOS 13 报错:[Assert] Unsupported use of UIKit view-customization API off the main thread

高通手机跑AI系列之——3D姿势估计

高通手机跑AI系列之——姿态识别

高通手机跑AI系列之——实时头发识别

高通手机跑AI系列之——手部姿势跟踪

✨【Blender/Houdini 渲染必看】CPUⓥⓢGPU？3 分钟选对算力不踩坑！

川翔云电脑全新上线：三维行业高效云端算力新选择

【安装Stable Diffusion以及遇到问题和总结】

【PyTorch】保存和加载模型

Python实现图像处理的快速傅里叶变换（FFT）或离散余弦变换（DCT）

信号处理算法：快速傅里叶变换(FFT)_（2）.FFT算法的原理与实现

CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。