E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
TensorCore
「大模型学习」(10)LLM的量化(GPTQ、LLM.int8()、AWQ)不信你学不会!
在显卡中,数据从HBM中加载到
TensorCore
中计算,计算速度受限于数据加载的速度。通过对模型进行量化,减少HBM和
TensorCore
之间的数值传输量,从而加快模型推理时间。
木楚子
·
2025-06-17 16:32
学习
英伟达RT Core 与 Tensor Core 技术对比
英伟达的RTCore与
TensorCore
是推动图形处理和计算能力飞跃的两大关键力量。这两项技术虽有着不同的设计初衷和功能特性,但却共同为游戏、专业可视化以及人工智能等领域带来了巨大变革。
芥子沫
·
2025-06-14 08:37
人工智能
英伟达
人工智能
显卡核心
GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构
TensorCore
(张量计算核心)是最重要的因素,其次是GPU的内存带宽和缓存层次结构,最后是GPU的FLOPS。
m0_70960708
·
2025-06-02 07:34
笔记
深度学习
人工智能
GPU软硬件架构协同设计解析
一、硬件架构的核心设计原则流式多处理器(SM)的模块化设计计算单元分层:每个SM包含多个CUDA核心(如NVIDIAH100SM含128个FP32核心)、
TensorCore
(AI加速)及RTCore(
ShineSpark
·
2025-05-09 01:26
硬件架构
GPU
CUDA编程高阶优化:如何突破GPU内存带宽瓶颈的6种实战策略
本文面向具备CUDA基础的研究者,从寄存器、共享内存到
TensorCore
,系统剖析6项突破性优化策略,助你充分释放GPU算力。
学术猿之吻
·
2025-05-02 12:08
GPU
高校
人工智能
边缘计算
人工智能
transformer
深度学习
gpu算力
ai
AI编程
NVIDIA H100 vs A100:新一代GPU架构性能对比分析
一、核心架构演进对比Ampere架构(A100)采用台积电7nm工艺,集成540亿晶体管,配备6,912个CUDA核心和432个第三代
TensorCore
,支持FP16、TF32和INT8精度计算。
学术猿之吻
·
2025-05-02 12:37
高校
GPU
人工智能
架构
分布式
pytorch
人工智能
深度学习
python
ai
A100架构解析:超算集群效能跃迁与数据处理范式重构
内容概要NVIDIAA100GPU作为第三代
TensorCore
架构的集大成者,其创新设计正在重塑高性能计算与人工智能的基础设施逻辑。
智能计算研究中心
·
2025-04-09 14:40
其他
NVIDIA A100能效跃迁与架构精解
其核心创新围绕第三代
TensorCore
展开,通过引入细粒度结构化稀疏支持与增强型混合精度计算,使稀疏模型训练速度提升至传统架构的2.5倍。
智能计算研究中心
·
2025-04-01 18:51
其他
V100加速引擎与效能突破
其核心架构创新可归纳为三个维度:首先,
TensorCore
引入稀疏化计算与动态张量切片技术,显著提升矩阵运算密度;其次,混合精度计算通过FP16/FP32自适应精度调度算法,在模型收敛性与计算效率间达成平衡
智能计算研究中心
·
2025-03-27 02:23
其他
H100赋能生成式AI算力革新
其核心突破在于第四代
TensorCore
与Transformer引擎的协同设计,通过动态稀疏计算与混合精度支持,将大规模矩阵运算效率提升至新高度。
智能计算研究中心
·
2025-03-26 04:13
其他
V100架构深度优化指南
本指南聚焦架构层面的核心优化要素,系统梳理从
TensorCore
矩阵运算加速原理到NVLink多卡通信协议的底层工作机制,同时深入探讨CUDA任务调度模型与显存子系统的协同优化路径。
智能计算研究中心
·
2025-03-26 04:39
其他
H100解锁生成式AI算力新纪元
其创新性设计聚焦三大技术支柱:第三代
TensorCore
通过稀疏计算与混合精度支持,显著提升矩阵运算效率;显存带宽优化技术结合HBM3高带宽内存,将数据吞吐量提升至3.35TB/s,有效缓解大规模模型训练中的显存墙问题
智能计算研究中心
·
2025-03-14 22:43
其他
H100架构解析与性能优化策略
本文将从核心架构创新与典型场景调优两个维度展开:首先解析第三代
TensorCore
的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果;其次,针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解
智能计算研究中心
·
2025-03-11 21:36
其他
H100生成式AI效能跃升指南
本文将从芯片架构创新出发,首先解析第四代
TensorCore
如何通过FP8精度支持与动态指令调度机制,实现矩阵运算效率的指数级提升;继而探讨显存子系统在带宽扩容与智能缓存分配上的突破,揭示其突破生成式AI
智能计算研究中心
·
2025-02-28 02:14
其他
A100高效架构深度解析
在计算架构层面,第三代
TensorCore
通过引入细粒度结构化稀疏支持与新型数据格式,显著提升矩阵运算效率;多实例GPU(MIG)技术则通过物理级硬件隔离实现单卡多任务并行处理,为
智能计算研究中心
·
2025-02-28 02:14
其他
突破性能极限:DeepSeek开源FlashMLA解码内核技术解析
项目亮点速览GitHub仓库|性能测试核心优势硬件级优化:专为Hopper架构GPU设计,充分发挥
TensorCore
潜力内存黑科技:
Shockang
·
2025-02-25 22:09
DeepSeek
DeepSeek
技术前沿
RTX 4090图形架构性能突破实测
首先解析第三代RTCore与第四代
TensorCore
的结构升级,阐述其如何通过着色器执行重排序(SER)技术提升光线追踪效率;其次,基于4K分辨率下的《赛博朋克2077》《瘟疫传说:安魂曲》等光追游戏实测
智能计算研究中心
·
2025-02-25 03:55
其他
A100核心加速:高效计算方案解析
第三代
TensorCore
架构的突破性设计,不仅
智能计算研究中心
·
2025-02-25 03:25
其他
NVIDIA Hopper解说
NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息:NVIDIAHopper架构技术特点:第四代
TensorCore
:Hopper架构引入了第四代
TensorCore
白总Server
·
2025-01-18 17:24
redis
数据库
缓存
rust
mongodb
大数据
数据仓库
CES 2024:NVIDIA 通过新的笔记本电脑、GPU 和工具提供生成式 AI
这些GPU中的
TensorCore
可显著提高AI在要求最苛刻的工作和娱乐应用中的性能
少年黑客
·
2024-02-19 10:31
电脑
人工智能
GPU Microarch 学习笔记【3】Tensor Core
目录1.指令与架构2.Load3.计算MMA4.Set,Step与threadgroup5.OCTET6.
TensorCore
微架构7.FinalNvidia自从Volta/Turing(2018)架构开始
南方铁匠
·
2024-01-22 03:34
GPU
Microarchiture
GPU
NVIDIA GeForce RTX 3090 GPU系列
该系列产品搭载专用的第2代RTCore,第3代
TensorCore
、全新的SM多单元流处理器以及令人惊叹的24GBG6X显存,所有特性都旨在全力为游戏玩家和创作者提供震撼的体验。
运维FUN
·
2024-01-21 12:16
gpu算力
混合精度训练(MAP)
第三,数学运算在降低精度的情况下运行得更快,特别是在支持
TensorCore
的gpu上。混合精确训练实现了所有这些好处,同时确保与完全精确训练相比,没有任务特定的准确性损失。
Takoony
·
2023-12-23 04:46
深度学习
人工智能
周报4_YMK
片上SRAM比HBM快得多,但比HBM小得多,在计算方面,使用
TensorCore
的BFLOAT16的理论峰值吞吐量为312TFLOPS。
YMK_0
·
2023-12-03 14:07
学习
英伟达发布 Windows 版 TensorRT-LLM 库
GeForceRTX和NVIDIARTXGPU配备了名为
TensorCore
的专用AI处理器,正在为超过1亿台WindowsPC和工作站带来原生生成式AI的强大功能。
分享IT资源
·
2023-11-04 17:03
运维
服务器
cuDNN 的初始设计
硬件上引入了
TensorCore
,软件方面cuDNNV8中的GraphAPI相比之
图波列夫
·
2023-10-25 09:57
NVIDIA
GPU
DeepLearning
深度学习
人工智能
神经网络
flash attention 2论文学习
优化点主要如下:一、减少non-matmulFLOPsA00中由于
tensorcore
的存在,使得gpu对于浮点矩阵运算吞吐很高,如FP16/BF16可以达到312TFLOPs/s,而对于非矩阵乘的浮点运算吞吐较低
KIDGINBROOK
·
2023-10-22 13:13
cuda
gpu
cuda
30系显卡浅析(后)
【嵌牛鼻子】RTX3070RTX3080RTX3090【嵌牛正文】安培GPU架构详解之:第三代
TensorCore
、8K游戏成为可能
TensorCore
是伏特GPU引入的一种新核心,现在也是SM单元的三
生来渴酒v_v
·
2023-10-19 04:54
树莓派udev不能自动挂载_英伟达:抢占‘树莓派市场,发布基于云的自动驾驶仿真平台...
发布会上,CEO黄仁勋用2个多小时的时间,向外界公布了英伟达最新的产品进展,包括基于RTX显卡和平台打造的支持实时光线追踪的游戏进展、实时设计协作软件Omniverse、
TensorCore
weixin_39989688
·
2023-10-17 05:38
树莓派udev不能自动挂载
英伟达登录界面黑屏
tensor core int8矩阵乘法
最近在研究
tensorcore
加速,文档中提到在turing架构之后,
tensorcore
就支持了int8的矩阵运算,但是网上文档相对较少,收集了几个文档备查。
wangyuehy
·
2023-10-13 13:27
cuda
矩阵
深度学习
线性代数
简单的聊聊 NPU ,Tensor core
刚刚,有个前同事问我
tensorcore
到底是个啥在我接触过的项目和芯片里,
tensorcore
就是矩阵乘法器。
jinre2
·
2023-10-13 13:50
神经网络
矩阵
深度学习
Tensor Core编程
文章目录背景demo总结背景这里的
TensorCore
是指Nvidia的显卡中的计算单元。
s.feng
·
2023-10-13 13:20
CUDA编程
人工智能
Tensor Core的WMMA API编程入门
WMMA(Warp-levelMatrixMultiplyAccumulate)API 对于计算能力在7.0及以上的CUDA设备,可以使用CUDAC++API调用
TensorCore
,支持形如D=AB
遂古之初,谁传道之
·
2023-10-13 13:48
算法
人工智能
c++
CUDA 高性能计算面试问题总结
1.GPU的硬件架构以A100为例一个GPU又128个SM,每个SM中有64个FP32cudacore4个
tensorcore
,计算卡上还有8个FP16cudacore;被分为4个warp,每个warp
运气好到爆
·
2023-10-12 21:29
面试
java
职场和发展
AI图像渲染
DLSS的原理是通过在超级计算机上训练一个神经网络,来学习不同游戏和场景的图像特征,然后在GPU的
TensorCore
上运行这个网络,对输入的低分辨率图像进行重建和增强。DLS
大囚长
·
2023-09-25 02:38
科普天地
人工智能
[图像算法]-(yolov5.train)-torch.cuda.amp: 自动混合精度详解
Nvidia在Volta架构中引入
TensorCore
单元,来支持FP32和FP16混合精度计算。也在2018年提出一个PyTorch拓展apex,来支持模型参数自动混合精度训练。
蒸饺与白茶
·
2023-08-14 11:55
NVIDIA-边缘计算产品
JetsonAGXOrin模组JetsonAGXOrin开发者套件规格JetsonAGXOrin模组AI性能275TOPSGPU搭载2048个NVIDIA®CUDA®核心和64个
TensorCore
的NVIDIAAmpere
呆呆珝
·
2023-08-01 10:08
闲时写写画画
边缘计算
人工智能
深度学习
计算机视觉
图像处理
简单理解TensorFloat32
Pytorch2.1Pytorch对NVIDIATF32的支持2.2Pytorch自动混合精度AMP参考1.NVIDIATF32TensorFloat-32,是NVIDIA在Ampere架构的GPU上推出的专门运用于
TensorCore
友人小A
·
2023-04-17 17:27
Pytorch
深度学习
人工智能
计算机视觉
【分享NVIDIA GTC干货】CUDA 新特性和发展
NVIDIAGTC干货】CUDA新特性和发展引言一、摩尔定律二、Grace/HopperSuperchip三、CUDA是什么1.CUDA不止是CUDAC++2.CUDA的多层次抽象维度3.规模维度四、异型硬件架构1.
TensorCore
2
WidestD.
·
2023-03-31 17:57
人工智能
网络安全
可信计算技术
c++
pytorch 混合精度训练
混合精度需要
TensorCore
支持,P4卡不支持混合精度训练。
alex1801
·
2023-02-06 07:26
深度学习
pytorch
机器学习
python
显卡性能衡量指标
模型训练中各参数的影响下面以NvidiaT4为例首先是架构,Turing架构Tensor核心数,320个
TensorCore
。张量核支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。
彭祥.
·
2023-02-02 17:33
经验积累
服务器
人工智能
Pytorch混合精度训练
简介FP16(半精度浮点数)表示能够提升拥有
TensorCore
架构的GPU的计算速度(V100)。有很多相关介绍对其运作原理和使用方法进行了说明,本文就不再赘述。
whaosoft143
·
2023-02-01 12:06
人工智能
TensorCore
使用
目前有两个库使用了
TensorCore
技术:cuBLAS与cuDNN。
holyprince
·
2023-01-05 08:26
cuda编程
高性能计算
Tensor Core加速CUDA矩阵计算
在CUDA编程模型中利用
TensorCore
加速矩阵运算C++warp矩阵运算利用TensorCores来加速D=A*B+C形式的矩阵问题。
扫地的小何尚
·
2023-01-05 08:53
矩阵
线性代数
人工智能
c++
深度学习
在cuda中使用tensor core计算GEMM(上)
从CUDA9.0开始就已经支持代码中调用
tensorcore
进行计算,
tensorcore
是NVIDIA的volta架构中新处理单元,分布于各个流处理器(SM)中,其在物理层支持如下形式的运算:其中矩阵乘法中的
Willowwww
·
2023-01-05 08:22
CUDA
tensor
core
GEMM by CUDA WMMA
GEMMbyCUDAWMMA(
tensorcore
)本文章介绍的GEMM算法并非最优实现,只是为了介绍CUDA编程和WMMAGEMMGEMM又称为通用矩阵乘,一般为C=A∗BC=A*BC=A∗BWMMA
gtyinstinct
·
2023-01-05 08:21
计算机基础
算法
矩阵
线性代数
跑深度模型的显卡_人工智能研究者应该选择哪款显卡?
英伟达为优化深度学习的矩阵运算,在较新的微架构中,专门设计了
TensorCore
这样的混合精度核心,因此,人工智能训练最好选择带有
TensorCore
的GPU。
weixin_39742727
·
2023-01-03 09:23
跑深度模型的显卡
NVIDA GPU架构演进(2022年更新)
目录GPU发展时间表各代GPU的具体细节参数Fermi架构Kepler架构Maxwell架构Pascal架构Volta架构什么是
TensorCore
?
daijingxin
·
2023-01-03 09:41
GPU
架构
人工智能
深度学习
令人头秃的cudaTensorCoreGemm详解
Compute_gemm函数流程图如下图所示:CudawmmaAPI主要用于使用SM中WARP和
TensorCore
加速矩阵乘加运算,标准公式如下(大
周吉客的舍友
·
2022-12-26 08:41
cuda
cuda
gpu
c++
经验分享
深度学习常用显卡比较
它基于Turing架构搭建,具有4608个CUDA核心、576个用于加速AI的全速混合精度
TensorCore
核心和72个用于加速光线追踪的RT核心。
studyeboy
·
2022-12-16 08:28
深度学习
GPU
深度学习
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他