TensorCore

「大模型学习」(10)LLM的量化（GPTQ、LLM.int8()、AWQ）不信你学不会！

在显卡中，数据从HBM中加载到TensorCore中计算，计算速度受限于数据加载的速度。通过对模型进行量化，减少HBM和TensorCore之间的数值传输量，从而加快模型推理时间。

木楚子·2025-06-17 16:32

英伟达RT Core 与 Tensor Core 技术对比

英伟达的RTCore与TensorCore是推动图形处理和计算能力飞跃的两大关键力量。这两项技术虽有着不同的设计初衷和功能特性，但却共同为游戏、专业可视化以及人工智能等领域带来了巨大变革。

芥子沫·2025-06-14 08:37

GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

TensorCore（张量计算核心）是最重要的因素，其次是GPU的内存带宽和缓存层次结构，最后是GPU的FLOPS。

m0_70960708·2025-06-02 07:34

GPU软硬件架构协同设计解析

一、硬件架构的核心设计原则流式多处理器（SM）的模块化设计计算单元分层：每个SM包含多个CUDA核心（如NVIDIAH100SM含128个FP32核心）、TensorCore（AI加速）及RTCore（

ShineSpark·2025-05-09 01:26

CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略

本文面向具备CUDA基础的研究者，从寄存器、共享内存到TensorCore，系统剖析6项突破性优化策略，助你充分释放GPU算力。

学术猿之吻·2025-05-02 12:08

NVIDIA H100 vs A100：新一代GPU架构性能对比分析

一、核心架构演进对比‌Ampere架构（A100）‌采用台积电7nm工艺，集成540亿晶体管，配备6,912个CUDA核心和432个第三代TensorCore，支持FP16、TF32和INT8精度计算。

学术猿之吻·2025-05-02 12:37

A100架构解析：超算集群效能跃迁与数据处理范式重构

内容概要NVIDIAA100GPU作为第三代TensorCore架构的集大成者，其创新设计正在重塑高性能计算与人工智能的基础设施逻辑。

智能计算研究中心·2025-04-09 14:40

NVIDIA A100能效跃迁与架构精解

其核心创新围绕第三代TensorCore展开，通过引入细粒度结构化稀疏支持与增强型混合精度计算，使稀疏模型训练速度提升至传统架构的2.5倍。

智能计算研究中心·2025-04-01 18:51

V100加速引擎与效能突破

其核心架构创新可归纳为三个维度：首先，TensorCore引入稀疏化计算与动态张量切片技术，显著提升矩阵运算密度；其次，混合精度计算通过FP16/FP32自适应精度调度算法，在模型收敛性与计算效率间达成平衡

智能计算研究中心·2025-03-27 02:23

H100赋能生成式AI算力革新

其核心突破在于第四代TensorCore与Transformer引擎的协同设计，通过动态稀疏计算与混合精度支持，将大规模矩阵运算效率提升至新高度。

智能计算研究中心·2025-03-26 04:13

V100架构深度优化指南

本指南聚焦架构层面的核心优化要素，系统梳理从TensorCore矩阵运算加速原理到NVLink多卡通信协议的底层工作机制，同时深入探讨CUDA任务调度模型与显存子系统的协同优化路径。

智能计算研究中心·2025-03-26 04:39

H100解锁生成式AI算力新纪元

其创新性设计聚焦三大技术支柱：第三代TensorCore通过稀疏计算与混合精度支持，显著提升矩阵运算效率；显存带宽优化技术结合HBM3高带宽内存，将数据吞吐量提升至3.35TB/s，有效缓解大规模模型训练中的显存墙问题

智能计算研究中心·2025-03-14 22:43

H100架构解析与性能优化策略

本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解

智能计算研究中心·2025-03-11 21:36

H100生成式AI效能跃升指南

本文将从芯片架构创新出发，首先解析第四代TensorCore如何通过FP8精度支持与动态指令调度机制，实现矩阵运算效率的指数级提升；继而探讨显存子系统在带宽扩容与智能缓存分配上的突破，揭示其突破生成式AI

智能计算研究中心·2025-02-28 02:14

A100高效架构深度解析

在计算架构层面，第三代TensorCore通过引入细粒度结构化稀疏支持与新型数据格式，显著提升矩阵运算效率；多实例GPU（MIG）技术则通过物理级硬件隔离实现单卡多任务并行处理，为

智能计算研究中心·2025-02-28 02:14

突破性能极限：DeepSeek开源FlashMLA解码内核技术解析

项目亮点速览GitHub仓库|性能测试核心优势硬件级优化：专为Hopper架构GPU设计，充分发挥TensorCore潜力内存黑科技：

Shockang·2025-02-25 22:09

RTX 4090图形架构性能突破实测

首先解析第三代RTCore与第四代TensorCore的结构升级，阐述其如何通过着色器执行重排序（SER）技术提升光线追踪效率；其次，基于4K分辨率下的《赛博朋克2077》《瘟疫传说：安魂曲》等光追游戏实测

智能计算研究中心·2025-02-25 03:55

A100核心加速：高效计算方案解析

第三代TensorCore架构的突破性设计，不仅

智能计算研究中心·2025-02-25 03:25

NVIDIA Hopper解说

NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore

白总Server·2025-01-18 17:24

CES 2024：NVIDIA 通过新的笔记本电脑、GPU 和工具提供生成式 AI

这些GPU中的TensorCore可显著提高AI在要求最苛刻的工作和娱乐应用中的性能

少年黑客·2024-02-19 10:31

GPU Microarch 学习笔记【3】Tensor Core

目录1.指令与架构2.Load3.计算MMA4.Set,Step与threadgroup5.OCTET6.TensorCore微架构7.FinalNvidia自从Volta/Turing（2018）架构开始

南方铁匠·2024-01-22 03:34

NVIDIA GeForce RTX 3090 GPU系列

该系列产品搭载专用的第2代RTCore，第3代TensorCore、全新的SM多单元流处理器以及令人惊叹的24GBG6X显存，所有特性都旨在全力为游戏玩家和创作者提供震撼的体验。

运维FUN·2024-01-21 12:16

混合精度训练(MAP)

第三，数学运算在降低精度的情况下运行得更快，特别是在支持TensorCore的gpu上。混合精确训练实现了所有这些好处，同时确保与完全精确训练相比，没有任务特定的准确性损失。

Takoony·2023-12-23 04:46

周报4_YMK

片上SRAM比HBM快得多，但比HBM小得多，在计算方面，使用TensorCore的BFLOAT16的理论峰值吞吐量为312TFLOPS。

YMK_0·2023-12-03 14:07

英伟达发布 Windows 版 TensorRT-LLM 库

GeForceRTX和NVIDIARTXGPU配备了名为TensorCore的专用AI处理器，正在为超过1亿台WindowsPC和工作站带来原生生成式AI的强大功能。

分享IT资源·2023-11-04 17:03

cuDNN 的初始设计

硬件上引入了TensorCore，软件方面cuDNNV8中的GraphAPI相比之

图波列夫·2023-10-25 09:57

flash attention 2论文学习

优化点主要如下：一、减少non-matmulFLOPsA00中由于tensorcore的存在，使得gpu对于浮点矩阵运算吞吐很高，如FP16/BF16可以达到312TFLOPs/s，而对于非矩阵乘的浮点运算吞吐较低

KIDGINBROOK·2023-10-22 13:13

30系显卡浅析(后)

【嵌牛鼻子】RTX3070RTX3080RTX3090【嵌牛正文】安培GPU架构详解之：第三代TensorCore、8K游戏成为可能TensorCore是伏特GPU引入的一种新核心，现在也是SM单元的三

生来渴酒v_v·2023-10-19 04:54

树莓派udev不能自动挂载_英伟达：抢占‘树莓派市场，发布基于云的自动驾驶仿真平台...

发布会上，CEO黄仁勋用2个多小时的时间，向外界公布了英伟达最新的产品进展，包括基于RTX显卡和平台打造的支持实时光线追踪的游戏进展、实时设计协作软件Omniverse、TensorCore

weixin_39989688·2023-10-17 05:38

tensor core int8矩阵乘法

最近在研究tensorcore加速，文档中提到在turing架构之后，tensorcore就支持了int8的矩阵运算，但是网上文档相对较少，收集了几个文档备查。

wangyuehy·2023-10-13 13:27

简单的聊聊 NPU ，Tensor core

刚刚，有个前同事问我tensorcore到底是个啥在我接触过的项目和芯片里，tensorcore就是矩阵乘法器。

jinre2·2023-10-13 13:50

Tensor Core编程

文章目录背景demo总结背景这里的TensorCore是指Nvidia的显卡中的计算单元。

s.feng·2023-10-13 13:20

Tensor Core的WMMA API编程入门

WMMA(Warp-levelMatrixMultiplyAccumulate)API 对于计算能力在7.0及以上的CUDA设备，可以使用CUDAC++API调用TensorCore，支持形如D=AB

遂古之初，谁传道之·2023-10-13 13:48

CUDA 高性能计算面试问题总结

1.GPU的硬件架构以A100为例一个GPU又128个SM，每个SM中有64个FP32cudacore4个tensorcore，计算卡上还有8个FP16cudacore;被分为4个warp,每个warp

运气好到爆·2023-10-12 21:29

AI图像渲染

DLSS的原理是通过在超级计算机上训练一个神经网络，来学习不同游戏和场景的图像特征，然后在GPU的TensorCore上运行这个网络，对输入的低分辨率图像进行重建和增强。DLS

大囚长·2023-09-25 02:38

[图像算法]-(yolov5.train)-torch.cuda.amp: 自动混合精度详解

Nvidia在Volta架构中引入TensorCore单元，来支持FP32和FP16混合精度计算。也在2018年提出一个PyTorch拓展apex，来支持模型参数自动混合精度训练。

蒸饺与白茶·2023-08-14 11:55

NVIDIA-边缘计算产品

JetsonAGXOrin模组JetsonAGXOrin开发者套件规格JetsonAGXOrin模组AI性能275TOPSGPU搭载2048个NVIDIA®CUDA®核心和64个TensorCore的NVIDIAAmpere

呆呆珝·2023-08-01 10:08

简单理解TensorFloat32

Pytorch2.1Pytorch对NVIDIATF32的支持2.2Pytorch自动混合精度AMP参考1.NVIDIATF32TensorFloat-32，是NVIDIA在Ampere架构的GPU上推出的专门运用于TensorCore

友人小A·2023-04-17 17:27

【分享NVIDIA GTC干货】CUDA 新特性和发展

NVIDIAGTC干货】CUDA新特性和发展引言一、摩尔定律二、Grace/HopperSuperchip三、CUDA是什么1.CUDA不止是CUDAC++2.CUDA的多层次抽象维度3.规模维度四、异型硬件架构1.TensorCore2

WidestD.·2023-03-31 17:57

pytorch 混合精度训练

混合精度需要TensorCore支持，P4卡不支持混合精度训练。

alex1801·2023-02-06 07:26

显卡性能衡量指标

模型训练中各参数的影响下面以NvidiaT4为例首先是架构，Turing架构Tensor核心数，320个TensorCore。张量核支持混合精度计算，动态调整计算以加快吞吐量，同时保持精度。

彭祥.·2023-02-02 17:33

Pytorch混合精度训练

简介FP16(半精度浮点数)表示能够提升拥有TensorCore架构的GPU的计算速度(V100)。有很多相关介绍对其运作原理和使用方法进行了说明，本文就不再赘述。

whaosoft143·2023-02-01 12:06

TensorCore使用

目前有两个库使用了TensorCore技术：cuBLAS与cuDNN。

holyprince·2023-01-05 08:26

Tensor Core加速CUDA矩阵计算

在CUDA编程模型中利用TensorCore加速矩阵运算C++warp矩阵运算利用TensorCores来加速D=A*B+C形式的矩阵问题。

扫地的小何尚·2023-01-05 08:53

在cuda中使用tensor core计算GEMM（上）

从CUDA9.0开始就已经支持代码中调用tensorcore进行计算，tensorcore是NVIDIA的volta架构中新处理单元，分布于各个流处理器（SM）中，其在物理层支持如下形式的运算：其中矩阵乘法中的

Willowwww·2023-01-05 08:22

GEMM by CUDA WMMA

GEMMbyCUDAWMMA(tensorcore)本文章介绍的GEMM算法并非最优实现，只是为了介绍CUDA编程和WMMAGEMMGEMM又称为通用矩阵乘，一般为C=A∗BC=A*BC=A∗BWMMA

gtyinstinct·2023-01-05 08:21

跑深度模型的显卡_人工智能研究者应该选择哪款显卡？

英伟达为优化深度学习的矩阵运算，在较新的微架构中，专门设计了TensorCore这样的混合精度核心，因此，人工智能训练最好选择带有TensorCore的GPU。

weixin_39742727·2023-01-03 09:23

NVIDA GPU架构演进（2022年更新）

目录GPU发展时间表各代GPU的具体细节参数Fermi架构Kepler架构Maxwell架构Pascal架构Volta架构什么是TensorCore？

daijingxin·2023-01-03 09:41

令人头秃的cudaTensorCoreGemm详解

Compute_gemm函数流程图如下图所示：CudawmmaAPI主要用于使用SM中WARP和TensorCore加速矩阵乘加运算，标准公式如下（大

周吉客的舍友·2022-12-26 08:41

深度学习常用显卡比较

它基于Turing架构搭建，具有4608个CUDA核心、576个用于加速AI的全速混合精度TensorCore核心和72个用于加速光线追踪的RT核心。

studyeboy·2022-12-16 08:28

推荐频道