GPU切片

大模型部署的整体架构

1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e

flyair_China·2025-07-22 04:25

高通手机跑AI系列之——人像与背景分割

RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz

伊利丹~怒风·2025-07-22 04:52

英伟达：要取代我？其实CUDA也支持RISC-V

第五届RISC-V中国峰会于2025年7月16至19日在上海张江科学会堂隆重举办，在峰会的圆桌讨论中，主持人曾经提出这样一个问题：你认为RISC-V未来会取代GPU吗？

EEPW电子产品世界·2025-07-22 03:49

Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？

知识大胖·2025-07-22 03:17

Python基础（字符串的切片与断言）

'''1.输入一个字符串，判断是否只包含英文字母（大写或小写）。输出True或False。2.输入一个字符串，统计里面数字字符（0-9）的数量。3.输入两个字符串，第一个是主串，第二个是要查找的字符，判断字符是否在主串中。4.输入一个字符串，将所有数字字符转换成整数后求和。5.统计字符串中空格的数量6.输入字符串和数字n，判断字符串是否只包含数字且长度等于n。7.验证用户输入的手机号格式（中国手机

日暮凡尘·2025-07-21 20:07

Python学习笔记

万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片

cherishSpring·2025-07-21 19:31

Blender 云渲染高效流程：渲染 101 集群加速实战

一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画

渲染101专业云渲染·2025-07-21 19:29

【科研绘图系列】R语言绘制配对散点图连线柱状图

包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制配对散点图连线柱状图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr

生信学习者1·2025-07-21 18:21

【科研绘图系列】R语言绘制柱状散点连线图

包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制柱状散点连线图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr

生信学习者1·2025-07-21 18:49

PyTorch的基础概念和复杂模型的基本使用

文章目录一、PyTorch基础概念二、复杂模型的学习使用一、PyTorch基础概念张量（Tensor）操作：张量是PyTorch中的基本数据结构，类似于NumPy的数组，但支持GPU加速常见操作包括创建张量

香蕉可乐荷包蛋·2025-07-21 18:49

python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系

首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA

·2025-07-21 18:18

TensorFlow GPU 2.10.1 for Python 3.9快速安装指南

本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。

疑样·2025-07-21 17:12

Docker build ollama

dockerrun-d--gpus=all-vollama:/root/.ollama-p11434:11434--networkbridge--nameollamaollama/ollama

longze_7·2025-07-21 13:46

pytorch的学习笔记

一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型

wyn20001128·2025-07-21 08:39

统一内存架构的可行性与科学性

1.统一内存架构的技术定义与演进1.1核心概念与实现机制苹果的统一内存架构（UMA）通过将内存直接集成于SoC（系统级芯片），使CPU、GPU、神经引擎等计算单元共享同一物理内存池。

恣艺·2025-07-20 23:02

我总结的制作酵素快步骤

我总结的制作酵素快步骤：首先将水果喷上果蔬宝，接下来1、桶；2、倒入水6L；3、将大滤芯放入桶内；4、直接将白砂糖倒入水中（不要搅拌，给糖自然融化也很快的，有了加热垫会更快，不一定需要先化糖）；5、洗净水果，处理切片

婷依1988·2025-07-20 22:00

【DICOM后处理】qt+vs 实现DICOM数据四视图显示

标准四视图布局：横截面（Axial）水平切面，从上向下观察（类似传统CT/MRI的横断面切片）。显示解剖结构的横向分布，常用于定位病变。矢状面（Sa

leafpipi·2025-07-20 20:07

Kotlin获取集合中的元素操作

Slice（切片）切片是一个基本操作：它根据索引返回集合中某个范围的元素。如果你使用slice()方法，就可以根据索引范围或具体的索引集合获取一个新的集合。

·2025-07-20 17:18

DAY2——Python 基础变量类型之字符串和数字类型

字符串是不可变序列，支持索引和切片操作。

.venn·2025-07-20 15:36

内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理

上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理目录一、背景二、：Android通用GPU内存分配和释放原理2.1：用户态GPU

一起搞IT吧·2025-07-20 14:31

QuACK：用纯 Python 把 H100 推到“光速”

这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的

吴脑的键客·2025-07-20 13:47

基于AutoCut实现在文档中按照片段剪辑视频

依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。

Mr数据杨·2025-07-20 11:04

常用显卡命令

常用显卡命令1.查看显卡基本信息lspci|grep-invidia2.查看显卡驱动版本不更新：nvidia-smi-a每秒更新：watch-n1nvidia-smi3.查看gpu使用情况nvidia-smi4

Mr.小海·2025-07-20 05:59

阿里云产品介绍

·2025-07-20 05:57

空间转录组样本准备指南

•对于人、鼠较为特殊的组织样本，比如胚胎、眼或较为柔软纤薄的组织，会有一定的难度，难点在于冷冻包埋时要保持其原本的形态结构，以及调整到合适的位置以利于切片。

ee00dc6faab7·2025-07-20 04:20

第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）

本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI

阿里云云原生·2025-07-20 04:21

Docker 与 GPU 训练

wydxry·2025-07-20 04:18

2025-04-22| Docker: --privileged参数详解

以下是--privileged的作用和相关细节：作用完全访问宿主机的设备：容器可以访问宿主机的所有设备（如/dev下的设备文件，包括GPU、USB设备等）。

·2025-07-20 03:13

Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析

Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排

观熵·2025-07-20 01:22

AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？

就像交响乐团需要指挥家，万级GPU需要云原生调度艺术。深夜的机房，硬件工程师老张盯着监控屏上跳动的红色警报——手工组装的千卡集群再次因单点故障崩溃。

·2025-07-19 20:19

【科研绘图系列】R语言绘制分组直方图

文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制分组直方图加载R包library(ggplot2)library(ggpubr)rm(list=ls())options

生信学习者1·2025-07-19 20:41

探索OpenCV 3.2源码：计算机视觉的架构与实现

OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。

轩辕姐姐·2025-07-19 19:10

GPU网络运维

一、GPU网络架构与核心技术GPU集群网络需适配分布式训练中“多节点数据同步”（如all-reduce、broadcast）的高频、大流量需求，主流技术方案及特点如下：网络技术核心优势适用场景运维重点InfiniBand

一行代码通万物·2025-07-19 19:07

深度学习——CNN（3）

前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。

飘涯·2025-07-19 14:23

Qt/C++音视频开发22-通用GPU显示

一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下

feiyangqingyun·2025-07-19 13:58

『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！

理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7

AI大模型前沿研究·2025-07-19 13:27

UGUI 性能优化系列：第三篇——渲染与像素填充率优化

在这个环节中，Overdraw（过度绘制）是一个我们必须理解和解决的关键问题，因为它直接关系到GPU的工作效率。一、Overdraw（过度绘制）的危害与检测1.什么是Overdraw？

吉良吉影NeKoSuKi·2025-07-19 11:45

深入解析 vLLM 分布式推理与部署策略

1.单GPU推理：如果模型能够在单个

·2025-07-19 11:13

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南

简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。

知识大胖·2025-07-12 11:21

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化

简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策

知识大胖·2025-07-12 11:21

在 Obsidian 中本地使用 DeepSeek — 无需互联网！

知识大胖·2025-07-12 11:21

什么是热力学计算？它如何帮助人工智能发展？

现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。

知识大胖·2025-07-12 11:19

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.

汀、人工智能·2025-07-12 10:09

5G RAN接入场景的IMS语音业务开通全流程

AMF：发送RegistrationRequestNAS消息，关键参数：-UE'susagesetting="VoiceCentric"//终端以语音业务为核心-RequestedNSSAI:包含IMS切片标识

码农老gou·2025-07-12 09:00

8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试

GPU拓扑情况如下(test)root@ubuntu:/opt/models#nvidia-smitopo-mGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7CPUAffinityNUMAAffinityGPUNUMAIDGPU0XNODENODENODESYSSYSSYSSYS0

·2025-07-12 01:37

YOLO11 目标检测从安装到实战

一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU

·2025-07-12 01:34

怎么强制macOS上的某个应用不使用独立显卡

背景之前碰到过企业微信更新之后强制使用独立GPU，后面找到了快捷指令的方式禁止企业微信使用独立GPU启动，后面某个版本更新好了。

·2025-07-12 00:31

第35周—————糖尿病预测模型优化探索

目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision

·2025-07-11 22:49

数据不Ready，一切AI Ready都是伪命题

是买了GPU服务器，就能跑出结果？显然不是。在袋鼠云看来，AIReady不等于模型Ready，而是数据Ready。没有可用、可控、可理解的数据，AI只能是空中楼阁。

·2025-07-11 21:13

以下哪种类型在Golang中不是内置类型？

基本类型包括，整型，浮点型，布尔型，字符串，复数型（complex64，complex128）复合型包括，数组，切片，map，slice控制通道，channel高级抽象包括，interface，f

小高Baby@·2025-07-11 20:35

推荐频道

GPU切片

大模型部署的整体架构

高通手机跑AI系列之——人像与背景分割

英伟达：要取代我？其实CUDA也支持RISC-V

Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？

Python基础（字符串的切片与断言）

Python学习笔记

Blender 云渲染高效流程：渲染 101 集群加速实战

【科研绘图系列】R语言绘制配对散点图连线柱状图

【科研绘图系列】R语言绘制柱状散点连线图

PyTorch的基础概念和复杂模型的基本使用

python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系

TensorFlow GPU 2.10.1 for Python 3.9快速安装指南

Docker build ollama

pytorch的学习笔记

统一内存架构的可行性与科学性

我总结的制作酵素快步骤

【DICOM后处理】qt+vs 实现DICOM数据四视图显示

Kotlin获取集合中的元素操作

DAY2——Python 基础变量类型之字符串和数字类型

内存泄漏系列专题分析之二十九：高通相机CamX--Android通用GPU内存分配和释放原理

QuACK：用纯 Python 把 H100 推到“光速”

基于AutoCut实现在文档中按照片段剪辑视频

常用显卡命令

阿里云产品介绍

空间转录组样本准备指南

第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）

Docker 与 GPU 训练

2025-04-22| Docker: --privileged参数详解

Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析

AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？

【科研绘图系列】R语言绘制分组直方图

探索OpenCV 3.2源码：计算机视觉的架构与实现

GPU网络运维

深度学习——CNN（3）

Qt/C++音视频开发22-通用GPU显示

『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！

UGUI 性能优化系列：第三篇——渲染与像素填充率优化

深入解析 vLLM 分布式推理与部署策略

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化

在 Obsidian 中本地使用 DeepSeek — 无需互联网！

什么是热力学计算？它如何帮助人工智能发展？

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

5G RAN接入场景的IMS语音业务开通全流程

8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试

YOLO11 目标检测从安装到实战

怎么强制macOS上的某个应用不使用独立显卡

第35周—————糖尿病预测模型优化探索

数据不Ready，一切AI Ready都是伪命题

以下哪种类型在Golang中不是内置类型？