FP8

DeepSeek-V3混合精度推理（FP8/BF16）原理与实战全解析

目录摘要混合精度推理的背景与意义DeepSeek-V3混合精度架构设计FP8与BF16核心原理详解混合精度推理核心实现实践案例：FP8权重转BF16与推理部署常见问题与注意事项最佳实践与扩展建议总结参考资料附录

CarlowZJ·2025-06-28 06:25

一步步教你腾讯混元(HunYuanVideo)FP8量化版本地安装部署

HunyuanVideo是腾讯重磅开源的视频生成大模型，具有与领先的闭源模型相媲美甚至更优的视频生成表现，但由于推理时对显卡的门槛比较高，拥有低显卡的用户望而却步，最近大神Kijai发布了FP8量化版本模型

勤奋的小小鸟·2025-05-05 17:35

亚马逊云服务器性能深度优化方案（2025版）

亚马逊云服务器性能深度优化方案（2025版）一、计算架构全面升级1.新一代AI算力引擎•Trn2UltraServer实例：搭载64颗第二代Trainium芯片，单节点FP8算力达83.2PFlops，

国际云，接待·2025-05-03 19:37

DeepSeek-Prover-V2-671B

计算精度：支持BF16、FP8、F32等多种计算精度，可根据实际需求灵活选择，实现资源的有效利用。模型架构：核心架构：基于DeepSeek-V3架构，

AI方案2025·2025-05-01 09:36

大模型（LLMs）加速篇

算法层面：蒸馏、量化软件层面：计算图优化、模型编译硬件层面：FP8（NVIDIAH系列GPU开始支持FP8，兼有fp16的稳定性和int8的速度）推理加速框架有哪一些？都有什么特点？

AI Echoes·2025-04-29 17:59

万相WAN2.1-1.3B整合包

幸运的是，国外有技术大佬对其实施了优化，经实测，运用FP8量化技术，最低仅需6

a29589729·2025-04-20 06:37

DeepSeek开源库DeepGEMM 性能测评

1.背景DeepGEMM是一个为高效FP8通用矩阵乘法（GEMMs）设计的库，其特点如提出于DeepSeek--V3的精细粒度缩放，支持普通和专家混合（MoE）分组GEMMs。

ZVAyIVqt0UFji·2025-04-08 00:30

【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？

FP8低精度训练：DeepSeek采用了FP8

AI天才研究院·2025-03-21 22:40

程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析

该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。

AI创享派·2025-03-16 06:00

目前人工智能的发展，判断10年、20年后的人工智能发展的主要方向，或者带动的主要产业

中国通过DeepSeek等技术创新（如MLA注意力机制、FP8混合精度训练）突破算力瓶颈，实现与美国顶尖模型性能对标，成本降低至558万美元/项目。技术突破：量子

meisongqing·2025-03-14 09:23

H100架构解析与性能优化策略

本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解

智能计算研究中心·2025-03-11 21:36

英伟达常见产品使用场景对比说明

产品型号显存容量显存带宽价格（人民币）适用场景模型性能对比数据中心与AI计算H100(SXM)80GBHBM33TB/s未公开（企业级）超大规模AI训练（千亿参数）、HPC比A100性能提升3-6倍（BERT训练），FP8

放羊郎·2025-03-06 14:37

fp8、fp16和bp16的区别

文章目录1.FP8(8-bitFloatingPoint)2.FP16(16-bitFloatingPoint)3.BP16(BrainFloatingPoint)4.总结FP8、FP16和BP16是指不同精度的浮点数格式

SmallerFL·2025-03-02 16:10

科技快讯 | DeepSeek宣布开源DeepGEMM；多个团队开发AI论文反识别技术；OpenAI GPT 4.5现身Android测试版，即将发布

DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法（GEMM）设计的库，具有细粒度缩放功能，如DeepSeek-V3中所提出。它支持普通和混合专家（MoE）分组的GEMM。

最新科技快讯·2025-03-01 23:18

AI基建狂魔！DeepSeek五天开源5大杀器实测：训练成本砍半+推理速度起飞，算法圈已疯（附删库跑路教程）

FlashMLA让推理速度飙升40%，DeepEP根治MoE通信癌，FP8核弹库DeepGEMM暴力提效，DualPipe+EPLB把GPU榨到一滴不剩，3FS化身数据闪电侠！

AI仙人掌·2025-02-28 22:18

H100生成式AI效能跃升指南

本文将从芯片架构创新出发，首先解析第四代TensorCore如何通过FP8精度支持与动态指令调度机制，实现矩阵运算效率的指数级提升；继而探讨显存子系统在带宽扩容与智能缓存分配上的突破，揭示其突破生成式AI

智能计算研究中心·2025-02-28 02:14

DeepSeek开源周合集

算力利用效率翻倍；周二：DeepEP，一个高效的MOE架构专家并行通信库：支持高效且优化后的全对全通信使用NVlink和RDMA进行节点内和节点间通信用于训练和推理填充的高吞吐量内核用于推理解码的低延迟内核原生支持FP8

Vip.Gong·2025-02-27 14:03

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

DeepSeek近期开源项目详细分析1.FlashMLA：大模型推理效率革命技术特点：首个开源项目FlashMLA是针对英伟达Hopper架构GPU（如H800）优化的高效多头潜在注意力（MLA）解码内核，支持可变长度序列的动态处理，显著降低显存占用并提升推理速度。在H800上可实现每秒3000GB的数据吞吐和580万亿次浮点运算（TFLOPS），接近硬件性能极限。行业影响：通过压缩KV矩阵和优化

guzhoumingyue·2025-02-26 20:45

什么是FP8混合精度?

FP8混合精度是一种在深度学习训练中使用8位浮点数（FP8）格式的混合精度训练技术，旨在通过降低数据精度来提升计算效率、减少内存占用和降低训练成本，同时尽量保持模型的性能和准确性。

魔王阿卡纳兹·2025-02-09 01:11

深度学习模型部署TensorRT加速（十）：TensorRT部署分析与优化方案（一）

篇章十：TensorRT部署分析与优化方案目录前言：一、模型部署指标分析1.1FLOPS与TOPS1.2Rooflinemodel与计算密度1.3FP32/FP16/INT8/INT4/FP8参数二、模型部署的几大误区

咕哥·2024-01-11 19:58

视觉算法知识荟萃

文章目录视觉算法知识荟萃视觉算法八股模型压缩量化参数剪枝参数蒸馏可分离卷积在端侧部署时性能不足，如何在不改变网络结构的情况下优化性能FP32转FP8浮点数定点化的方式非对称量化高斯分布ToF相机和结构光相机原理测量原理常见相机针孔相机模型激光雷达投影到

howtoloveyou·2023-11-14 13:27

FP(代表浮点运算数据格式，包括双精度（FP64）、单精度（FP32）、半精度（FP16）以及FP8等

FP(代表浮点运算数据格式，包括双精度（FP64）、单精度（FP32）、半精度（FP16）以及FP8等，INT代表整数格式，包括INT8、INT4等。

愚昧之山绝望之谷开悟之坡·2023-10-11 15:20

使用Unit Scaling进行FP16 和 FP8 训练

UnitScaling是一种新的低精度机器学习方法，能够在没有损失缩放的情况下训练FP16和FP8中的语言模型。

·2023-08-15 16:41

英伟达发布Hopper架构的H100 GPU，承载可信执行环境生态新增一员

以下摘自黄仁勋在GTC大会上部分介绍内容：H100GPU：采用台积电4N工艺，拥有800亿个晶体管，实现了首个GPU机密计算，相比A100，FP8性能提升6倍，FP16、TF32、FP64性能各提升3

impulseonline·2023-07-21 14:38

FP64、FP32、FP16、FP8简介

目录1、单精度浮点数FP32的表示2、半精度浮点数FP16的表示3、双精度浮点数FP64的表示4、FP85、写在最后1、单精度浮点数FP32的表示浮点数由三部分组成：符号位、指数部分、尾数部分以单精度浮点数为例，如图所示，符号位为1bit、指数位8bit、尾数位23bit表达方式如下：−1×2−×1.其中bias决定了数的取值范围，默认值为127exponent-bias表示对1.小数点右移的位数

weixin_42330305·2023-04-14 08:43

使用Unit Scaling进行FP16 和 FP8 训练

UnitScaling是一种新的低精度机器学习方法，能够在没有损失缩放的情况下训练FP16和FP8中的语言模型。

deephub·2023-03-31 17:16

英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度，每瓦运算速度可达H100的十倍...

最新的英伟达核弹GPUH100，刚刚添加上对8位浮点数格式FP8的支持。

QbitAl·2022-12-12 10:26

flash as滤镜效果总结

nbsp; 　用as做滤镜效果，每种滤镜效果对应一个类，这些类都在Macromedia\Flash 8 Beta 2\zh_cn\First Run\Classes\FP8

·2015-11-11 00:33

iPhone开发技巧之私有API（7）--- 用UIWebView访问BASIC认证的页面

1 - (void)webView:(id)fp8 resource:(id)fp12 didReceiveAuthenticationChalle

isiqi·2011-05-17 21:00

推荐频道

FP8

DeepSeek-V3混合精度推理（FP8/BF16）原理与实战全解析

一步步教你腾讯混元(HunYuanVideo)FP8量化版本地安装部署

亚马逊云服务器性能深度优化方案（2025版）

DeepSeek-Prover-V2-671B

大模型（LLMs）加速篇

万相WAN2.1-1.3B整合包

DeepSeek开源库DeepGEMM 性能测评

【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？

程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析

目前人工智能的发展，判断10年、20年后的人工智能发展的主要方向，或者带动的主要产业

H100架构解析与性能优化策略

英伟达常见产品使用场景对比说明

fp8、fp16和bp16的区别

科技快讯 | DeepSeek宣布开源DeepGEMM；多个团队开发AI论文反识别技术；OpenAI GPT 4.5现身Android测试版，即将发布

AI基建狂魔！DeepSeek五天开源5大杀器实测：训练成本砍半+推理速度起飞，算法圈已疯（附删库跑路教程）

H100生成式AI效能跃升指南

DeepSeek开源周合集

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

什么是FP8混合精度?

深度学习模型部署TensorRT加速（十）：TensorRT部署分析与优化方案（一）

视觉算法知识荟萃

FP(代表浮点运算数据格式，包括双精度（FP64）、单精度（FP32）、半精度（FP16）以及FP8等

使用Unit Scaling进行FP16 和 FP8 训练

英伟达发布Hopper架构的H100 GPU，承载可信执行环境生态新增一员

FP64、FP32、FP16、FP8简介

使用Unit Scaling进行FP16 和 FP8 训练

英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度，每瓦运算速度可达H100的十倍...

flash as滤镜效果总结

iPhone开发技巧之私有API（7）--- 用UIWebView访问BASIC认证的页面