GPU转场

cuda编程python接口_使用Python写CUDA程序的方法

例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行

weixin_39822184·2025-07-23 14:12

AI周报：技术面试卷出新高度，Agent落地开启“工具觉醒”时代

百度二面手搓FP16精度：考的不是浮点数，而是对硬件底层的敬畏（原文）腾讯夺命11连问：混元大模型面试暴露行业真相——懂原理已不够，得会调参、训推、修故障的“全栈炼丹师”（解析)NVIDIA四轮拷打实录：GPU

哪小吒圈子·2025-07-23 10:48

EP 设备间P2P 与基于pcie switch 的p2p区别

以下是详细对比分析：1.基本概念(1)EP设备直接P2P定义：两个PCIeEndpoint（如GPU、NVMeSSD、网卡）不经过Switch

zly8865372·2025-07-23 10:17

基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析

基于国产手机SoC的多模态模型推理加速实战：GPU×NPU协同优化全流程解析关键词多模态模型推理、NPU硬件加速、GPU并行计算、国产手机SoC、端侧部署优化、华为昇腾NPU、小米Surge芯片、高通AIEngine

观熵·2025-07-23 09:36

精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介

1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。

·2025-07-23 06:54

2018 MacBook Pro 安装cuda+cuDNN+pytorch

我的环境系统版本：macOS10.13.6(17G10021)GPUDriverVersion:387.10.10.10.40.133CUDADriverVersion:410.130CUDA：cuda

·2025-07-22 17:00

CUDA在不受支持的macOS系统上使用（BigSur）

CUDA与WebDriver在macOS系统上不是同一个东西，CUDA是一个图形库，用于使用GPU在某些软件中进行计算或渲染，只安装CUDA不能使Maxwell和Pascal核心显卡工作，必须同时安装WebDriver

ilovefifa2020·2025-07-22 17:58

解读一个大学专业——信号与图像处理

关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。

·2025-07-22 12:57

深度学习分布式训练：并行策略与通信机制的系统性分析

以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。

Takoony·2025-07-22 12:53

buntu 22.04 上离线安装Docker 25.0.5（二）

以下有免费的4090云主机提供ubuntu22.04系统的其他入门实践操作地址：星宇科技|GPU服务器高性能云主机云服务器-登录相关兑换码星宇社区---4090算力卡免费体验、共享开发社区-CSDN博客兑换码要是过期了

努力一点948·2025-07-22 10:10

autodl云计算平台使用ollama 部署lightrag 加入streamlit界面

autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU

42fourtytoo·2025-07-22 06:10

大模型部署的整体架构

1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e

flyair_China·2025-07-22 04:25

高通手机跑AI系列之——人像与背景分割

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-07-22 04:52

英伟达：要取代我？其实CUDA也支持RISC-V

第五届RISC-V中国峰会于2025年7月16至19日在上海张江科学会堂隆重举办，在峰会的圆桌讨论中，主持人曾经提出这样一个问题：你认为RISC-V未来会取代GPU吗？

EEPW电子产品世界·2025-07-22 03:49

Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？

知识大胖·2025-07-22 03:17

Blender 云渲染高效流程：渲染 101 集群加速实战

一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画

渲染101专业云渲染·2025-07-21 19:29

【科研绘图系列】R语言绘制配对散点图连线柱状图

包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制配对散点图连线柱状图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr

生信学习者1·2025-07-21 18:21

【科研绘图系列】R语言绘制柱状散点连线图

包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制柱状散点连线图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr

生信学习者1·2025-07-21 18:49

PyTorch的基础概念和复杂模型的基本使用

文章目录一、PyTorch基础概念二、复杂模型的学习使用一、PyTorch基础概念张量（Tensor）操作：张量是PyTorch中的基本数据结构，类似于NumPy的数组，但支持GPU加速常见操作包括创建张量

香蕉可乐荷包蛋·2025-07-21 18:49

python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系

首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA

·2025-07-21 18:18

TensorFlow GPU 2.10.1 for Python 3.9快速安装指南

本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。

疑样·2025-07-21 17:12

Docker build ollama

dockerrun-d--gpus=all-vollama:/root/.ollama-p11434:11434--networkbridge--nameollamaollama/ollama

longze_7·2025-07-21 13:46

pytorch的学习笔记

一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型

wyn20001128·2025-07-21 08:39

统一内存架构的可行性与科学性

1.统一内存架构的技术定义与演进1.1核心概念与实现机制苹果的统一内存架构（UMA）通过将内存直接集成于SoC（系统级芯片），使CPU、GPU、神经引擎等计算单元共享同一物理内存池。

恣艺·2025-07-20 23:02

内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理

上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理目录一、背景二、：Android通用GPU内存分配和释放原理2.1：用户态GPU

一起搞IT吧·2025-07-20 14:31

QuACK：用纯 Python 把 H100 推到“光速”

这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的

吴脑的键客·2025-07-20 13:47

基于AutoCut实现在文档中按照片段剪辑视频

依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。

Mr数据杨·2025-07-20 11:04

常用显卡命令

常用显卡命令1.查看显卡基本信息lspci|grep-invidia2.查看显卡驱动版本不更新：nvidia-smi-a每秒更新：watch-n1nvidia-smi3.查看gpu使用情况nvidia-smi4

Mr.小海·2025-07-20 05:59

阿里云产品介绍

·2025-07-20 05:57

第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）

本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI

阿里云云原生·2025-07-20 04:21

Docker 与 GPU 训练

wydxry·2025-07-20 04:18

2025-04-22| Docker: --privileged参数详解

以下是--privileged的作用和相关细节：作用完全访问宿主机的设备：容器可以访问宿主机的所有设备（如/dev下的设备文件，包括GPU、USB设备等）。

·2025-07-20 03:13

Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析

Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排

观熵·2025-07-20 01:22

AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？

就像交响乐团需要指挥家，万级GPU需要云原生调度艺术。深夜的机房，硬件工程师老张盯着监控屏上跳动的红色警报——手工组装的千卡集群再次因单点故障崩溃。

·2025-07-19 20:19

【科研绘图系列】R语言绘制分组直方图

文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制分组直方图加载R包library(ggplot2)library(ggpubr)rm(list=ls())options

生信学习者1·2025-07-19 20:41

探索OpenCV 3.2源码：计算机视觉的架构与实现

OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。

轩辕姐姐·2025-07-19 19:10

GPU网络运维

一、GPU网络架构与核心技术GPU集群网络需适配分布式训练中“多节点数据同步”（如all-reduce、broadcast）的高频、大流量需求，主流技术方案及特点如下：网络技术核心优势适用场景运维重点InfiniBand

一行代码通万物·2025-07-19 19:07

深度学习——CNN（3）

前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。

飘涯·2025-07-19 14:23

Qt/C++音视频开发22-通用GPU显示

一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下

feiyangqingyun·2025-07-19 13:58

『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！

理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7

AI大模型前沿研究·2025-07-19 13:27

UGUI 性能优化系列：第三篇——渲染与像素填充率优化

在这个环节中，Overdraw（过度绘制）是一个我们必须理解和解决的关键问题，因为它直接关系到GPU的工作效率。一、Overdraw（过度绘制）的危害与检测1.什么是Overdraw？

吉良吉影NeKoSuKi·2025-07-19 11:45

深入解析 vLLM 分布式推理与部署策略

1.单GPU推理：如果模型能够在单个

·2025-07-19 11:13

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南

简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。

知识大胖·2025-07-12 11:21

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化

简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策

知识大胖·2025-07-12 11:21

在 Obsidian 中本地使用 DeepSeek — 无需互联网！

知识大胖·2025-07-12 11:21

什么是热力学计算？它如何帮助人工智能发展？

现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。

知识大胖·2025-07-12 11:19

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.

汀、人工智能·2025-07-12 10:09

8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试

GPU拓扑情况如下(test)root@ubuntu:/opt/models#nvidia-smitopo-mGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7CPUAffinityNUMAAffinityGPUNUMAIDGPU0XNODENODENODESYSSYSSYSSYS0

·2025-07-12 01:37

YOLO11 目标检测从安装到实战

一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU

·2025-07-12 01:34

怎么强制macOS上的某个应用不使用独立显卡

背景之前碰到过企业微信更新之后强制使用独立GPU，后面找到了快捷指令的方式禁止企业微信使用独立GPU启动，后面某个版本更新好了。

·2025-07-12 00:31

推荐频道

GPU转场

cuda编程python接口_使用Python写CUDA程序的方法

AI周报：技术面试卷出新高度，Agent落地开启“工具觉醒”时代

EP 设备间P2P 与 基于pcie switch 的p2p区别

基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析

精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介

2018 MacBook Pro 安装cuda+cuDNN+pytorch

CUDA在不受支持的macOS系统上使用（BigSur）

解读一个大学专业——信号与图像处理

深度学习分布式训练：并行策略与通信机制的系统性分析

buntu 22.04 上离线安装Docker 25.0.5（二）

autodl云计算平台 使用ollama 部署lightrag 加入streamlit界面

大模型部署的整体架构

高通手机跑AI系列之——人像与背景分割

英伟达：要取代我？其实CUDA也支持RISC-V

Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？

Blender 云渲染高效流程：渲染 101 集群加速实战

【科研绘图系列】R语言绘制配对散点图连线柱状图

【科研绘图系列】R语言绘制柱状散点连线图

PyTorch的基础概念和复杂模型的基本使用

python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系

TensorFlow GPU 2.10.1 for Python 3.9快速安装指南

Docker build ollama

pytorch的学习笔记

统一内存架构的可行性与科学性

内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理

QuACK：用纯 Python 把 H100 推到“光速”

基于AutoCut实现在文档中按照片段剪辑视频

常用显卡命令

阿里云产品介绍

第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）

Docker 与 GPU 训练

2025-04-22| Docker: --privileged参数详解

Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析

AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？

【科研绘图系列】R语言绘制分组直方图

探索OpenCV 3.2源码：计算机视觉的架构与实现

GPU网络运维

深度学习——CNN（3）

Qt/C++音视频开发22-通用GPU显示

『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！

UGUI 性能优化系列：第三篇——渲染与像素填充率优化

深入解析 vLLM 分布式推理与部署策略

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化

在 Obsidian 中本地使用 DeepSeek — 无需互联网！

什么是热力学计算？它如何帮助人工智能发展？

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试

YOLO11 目标检测从安装到实战

怎么强制macOS上的某个应用不使用独立显卡

EP 设备间P2P 与基于pcie switch 的p2p区别

autodl云计算平台使用ollama 部署lightrag 加入streamlit界面