fp16

BERT轻量化探索—模型剪枝（BERT Pruning）—Rasa维度剪枝

在模型训练和推理中使用低精度（FP16甚至INT8、二值网络）表示取代原有精度（FP32）表示。模型裁剪和剪枝。减少模型层数和参数规模。模型蒸馏。

PaperAgent·2025-04-04 23:11

香橙派 AIPro开发板上手测评

一、硬件配置CPU：配备了4核64位ARM处理器，其中默认预留1个给AI处理器使用NPU：集成了华为昇腾310BAI处理器，拥有4TFOPS的FP16算力核8TOPS的INT8算力内存：标配LPDDR4X

洛克希德马丁·2025-04-01 14:00

H800加速引擎与能效突破

值得注意的是，其混合精度计算单元通过灵活配置FP16、INT8及BF16精度模式，显著降低了大规模模型训练中的资源开销，而分布式缓存设计则通过数据局部性优化，减少了跨节点通信带来的延迟与能

智能计算研究中心·2025-04-01 13:50

DeepSeek集成IT技术开发方向全景解读：重构智能开发新范式

DeepSeekMoE-32B）通过混合专家系统实现精准任务路由，在软件开发场景中展现出显著优势：代码生成场景：激活Java/Python/C++等语言专家模块，单元测试覆盖率提升至85%硬件资源优化：FP16

量子纠缠BUG·2025-03-29 00:33

Google开源机器学习框架TensorFlow SegFormer优化

1.TensorRT加速流程目标转换SegFormer为TensorRT格式优化FP16/INT8计算提升推理速度（FPS）主要步骤导出TensorFlow模型转换为ONNX格式使用TensorRT进行优化运行

深海水·2025-03-28 02:23

V100加速引擎与效能突破

其核心架构创新可归纳为三个维度：首先，TensorCore引入稀疏化计算与动态张量切片技术，显著提升矩阵运算密度；其次，混合精度计算通过FP16/FP32自适应精度调度算法，在模型收敛性与计算效率间达成平衡

智能计算研究中心·2025-03-27 02:23

深度学习模型性能全景评估与优化指南

深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16

niuTaylor·2025-03-22 02:49

深入解析 DeepSeek-R1 模型的显存与内存需求

模型参数与量化精度的关系模型的参数量决定了其基础大小，而量化精度（如FP16、INT8、INT4）则影响每个参数所占用的存储空间。

gs80140·2025-03-21 06:24

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型

量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。

源泉的小广场·2025-03-17 21:19

pytorch 天花板级别的知识点你可以不会用但是不能不知道

以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。

小赖同学啊·2025-03-17 21:17

模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)

其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（

（initial）·2025-03-15 13:24

Stable Diffusion模型Pony系列模型深度解析

训练策略：采用混合精度训练（fp16/bf16）和分层权重调整技术

Liudef06·2025-03-06 15:44

大模型训练内存预估计算方法

基础计算（以训练为例）假设使用FP16（16位浮点数）存储参数：每个参数占用2字节。671B参数总显存≈6710亿×2字节≈1,342GB实际训练时需额外存储梯度、优化器

junjunzai123·2025-03-05 13:29

fp8、fp16和bp16的区别

文章目录1.FP8(8-bitFloatingPoint)2.FP16(16-bitFloatingPoint)3.BP16(BrainFloatingPoint)4.总结FP8、FP16和BP16是指不同精度的浮点数格式

SmallerFL·2025-03-02 16:10

【大模型】fp32 和 fp16 的区别，混合精度的原理。

LLMs浮点数一、fp32和fp16的区别，混合精度的原理1.fp32与fp16的对比特性fp32（单精度）fp16（半精度）位数32位（4字节）16位（2字节）内存占用高低（仅为fp32的50%）数值范围约

深度求索者·2025-03-02 08:20

半精度单精度双精度概述

具体介绍精度类型位数符号位（S）指数位（E）尾数位（M）偏差值表示范围精度半精度（FP16）16位1位5位10位15大约到

石兴稳·2025-02-26 20:41

DeepSeek混合精度训练核心技术解析与实践指南

1.主题背景1.1Why混合精度训练（价值）混合精度训练通过结合FP16和FP32数据格式，在保证模型精度的前提下实现：40-60%显存占用降低（ResNet50案例：从7.8GB降至4.2GB）1.5

燃灯工作室·2025-02-24 15:33

国鑫DeepSeek 671B本地部署方案：以高精度、高性价比重塑AI推理新标杆

国鑫作为深耕AI领域的技术先锋，推出基于4台48GRTX4090或8台24GRTX4090服务器的2套DeepSeek“满血”版本地部署方案，以FP16高精度、高性价比、强扩展性三大优势，为企

Gooxi国鑫·2025-02-20 20:17

【nvidia】NCCL禁用P2P后果权衡

计算bound场景：模型参数量较小（如参数量未超出单卡显存容量，使用纯数据并行）或计算密度极高（如大batchsize下的矩阵运算）时，A100的计算能力（FP16/FP32算力）可能被充分利用，此时训练是计算

x66ccff·2025-02-19 18:28

国产GPU算力公司及产品

中国有多家从事国产算力GPU研发与生产的企业，以下是一些代表性的公司及其相关产品概述：景嘉微：近期，景嘉微宣布成功研发了“景宏系列”AI算力产品，该系列面向AI训练、AI推理、科学计算等领域，支持INT8、FP16

算力资源比较多·2025-02-17 10:22

tensorrt推理 onxx转engine代码（python），cyclegan网络推理（python、C++）

将onnx文件导出为engine，FP16格式importtensorrtastrtimportpycuda.driverascudaimportpycuda.autoinit#加载ONNX文件onnx_file_path

maobin_1·2025-02-14 10:04

什么是FP8混合精度?

以下是关于FP8混合精度的详细解析：1.FP8混合精度的基本概念FP8是一种8位浮点数格式，相较于传统的FP32（32位浮点数）和FP16（16位浮点数），其存储空间更小，计算速度更快，但精度较低。

魔王阿卡纳兹·2025-02-09 01:11

deepseek本地部署会遇到哪些坑

使用nvidia-smi监控显存，通过降低batch_size或模型量化（如FP16/INT8）优化资源。CPU模式下考虑模型轻量化（如使用ONN

skyksksksksks·2025-02-07 11:49

理解大模型：FP32、FP16、TF32、BF16、混合精度

介绍我们在模型开源模型平台下载模型的时候会经常看着这些参数FP32、FP16、TF32、BF16等参数。这个其实是指的GGUF模型的量化级别。

·2025-02-04 18:36

AI学习指南HuggingFace篇-高级优化技巧

二、混合精度训练（一）混合精度训练的原理混合精度训练利用自动混合精度（AMP）技术，高效管理FP16和FP32之间的转换。通过在前向传播中使用FP16加

俞兆鹏·2025-02-04 10:35

InternLM: LMDeploy 量化部署进阶实践

量化主要是为了节省存储空间，用int4,int8来重新表示fp16，将模型的显存占用控制在200G可接受的范围下。值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽

dilvx·2025-01-25 06:42

【深度学习】AMP（Automatic Mixed Precision，自动混合精度）

（AutomaticMixedPrecision，自动混合精度）AMP在深度学习中，AMP（AutomaticMixedPrecision，自动混合精度）是一种通过混合使用单精度（FP32）和半精度（FP16

shanks66·2025-01-19 04:38

算法学习-2024.8.16

一、Tensorrt学习补充TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用32位或16位数据。TensorRT则在网络的推理时选用不这么高的精度，达到加速推断的目的。

蓝纹绿茶·2024-09-04 01:42

昇腾910B与英伟达A100性能参数对比

核心数量与性能：昇腾910B：具有32个处理核心，支持FP16、INT8、INT4等

算力资源比较多·2024-09-01 10:04

yolov8 出现loss 为nan

原因：混合精度训练是一种通过同时使用FP16和FP32精度来加速深度学习训练的技术。它可以在不损失模型性能的情况下,显著减少训练时间和内存使用。

qq_wuqingdefeng·2024-08-22 12:38

加速 PyTorch 模型预测常见方法梳理

目录1.使用GPU加速2.批量推理3.使用半精度浮点数(FP16)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时，可以通过多种方法来加快推理速度

samoyan·2024-03-17 16:54

神经网络量化

最近在做神经网络的端侧部署，在做端侧部署的时候，为了减少内存压力和加快推理速度，会将单精度(fp32)模型量化成int8或者fp16。

掉毛学渣·2024-02-26 11:53

[图像算法]-(yolov5.train)-GPU架构中的半精度fp16与单精度fp32计算

GPU架构中的半精度与单精度计算由于项目原因，我们需要对darknet中卷积层进行优化，然而对于像caffe或者darknet这类深度学习框架来说，都已经将卷积运算转换成了矩阵乘法，从而可以方便调用cublas库函数和cudnn里tiling过的矩阵乘。 CUDA在推出7.5的时候提出了可以计算16位浮点数据的新特性。定义了两种新的数据类型half和half2.之前有师弟已经DEMO过半精度

蒸饺与白茶·2024-02-03 13:54

混合精度训练 | fp16 用于神经网络训练和预测

它使用FP16即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。

小伟db·2024-02-02 20:34

新手在消费级GPU上本地部署chatGLM-6B

一、硬件要求1、理论需求硬盘空间：可用空间不小于40G；显存要求：本人选用的ChatGLM-6B是FP16精度的，运行代码需要不少于1

韬小志·2024-02-02 20:34

(新手亲测有效)bug解决：在用显存24G的3090采用LoRA微调ChatGLM-6B（FP16）时报错torch.OutOfMemoryError:CUDA out of Memory.

理论上，ChatGLM-6B（FP16）模型部署运行时需要大约13G的显存空间即可。

韬小志·2024-02-02 20:34

引入本地PyTorch自动混合精度以在NVIDIA GPU上进行更快的训练

2017年，NVIDIA研究人员开发了一种用于混合精度训练的方法，该方法在训练网络时将单精度（FP32）与半精度（例如FP16）格式结合在一起，并使用相同的超参数实现了与FP32训练相同的精度，NVIDIAGPU

孙琪翔·2024-02-02 20:33

（新手亲测有效）bug解决：ValueError: Attempting to unscale FP16 gradients. 反复出现的问题。

在新手在消费级GPU上本地部署chatGLM-6B-CSDN博客完成chatGLM-6B（FP16）的部署后，尝试对模型进行loRA微调，期间遇到并解决了一些bug，分享给大家，希望大家少走弯路！

韬小志·2024-02-02 20:02

PaddleDetection学习3——使用Paddle-Lite在 Android 上部署PicoDet模型（fp16）

使用Paddle-Lite在Android上运行PicoDet模型（fp16）1.环境准备2.部署步骤2.1下载Paddle-Lite-Demo2.2打开picodet_detection_demo项目

waf13916·2024-02-02 08:15

ValueError Your setup doesn‘t support bf16gpu. You need torch=1.10, using Ampere GPU with cuda=11.0

只能切换回fp16

be_humble·2024-01-31 07:58

Model Compression and Acceleration Overview

模型压缩、模型加速模型压缩方法：能够有效降低参数冗余减少存储占用、通信带宽、计算复杂度利部署线性或非线性量化：1/2bits,int8和fp16等；结构或非结构剪枝：deepcompression,channelpruning

Ada's·2024-01-23 10:35

深度学习：混合精度训练

混合精度训练前言混合精度训练核心技术权重备份损失缩放梯度裁剪动态调整学习率优势与弊端代码示例参考文献前言浮点数据类型主要分为双精度Double（FP64）、单精度Float（FP32）和半精度Half（FP16

AI Player·2024-01-16 12:31

DETR tensorRT部署去除推理过程无用辅助头+fp16部署再次加速+解决转tensorrt 输出全为0问题的新方法

特别说明：参考官方开源的DETR代码、TensorRT官方文档，如有侵权告知删，谢谢。完整代码、测试脚本、测试图片、模型文件点击下载1、转tensorrt输出全为0老问题回顾在用TensorRT部署DETR检测模型时遇到：转tensorrt输出全为0的问题。多次想放弃这个模型部署，花了很多时间查阅，最终解决方法用了两步：第一步，修改onnx模型输出层Gather的参数；第二步，

山水无移·2024-01-15 15:51

用 Ollama 轻松玩转本地大模型

优雅不易根据经验，16位浮点精度（FP16）的模型，推理所需显存（以GB为单位）约为模型参数量（以10亿为单位）的两倍。

m0_54050778·2024-01-14 23:02

/usr/bin/ld: error: ../../lib/libnvinfer.so: file too short

一、背景在编译TensorRT官方的C++库时，库里是提供了命令行工具bin文件夹下的可执行程序trtexec，可以直接进行onnx的fp16以及int8量化，但我模型的输入是5维，模型里面全都是3D卷积

一位不愿暴露自己的小可爱·2024-01-11 21:36

深度学习模型部署TensorRT加速（十）：TensorRT部署分析与优化方案（一）

篇章十：TensorRT部署分析与优化方案目录前言：一、模型部署指标分析1.1FLOPS与TOPS1.2Rooflinemodel与计算密度1.3FP32/FP16/INT8/INT4/FP8参数二、模型部署的几大误区

咕哥·2024-01-11 19:58

解决TensorRT加速推理SDXL出现黑图问题

1.fp16将pipeline中的fp16修改为fp32。在使用稳定扩散（StableDiffusion）生成图片时，选择不同的数据类型可以影响生成的结果。

莫余·2024-01-09 23:19

本地部署多语言代码生成模型CodeGeeX2

Homepage｜GitHub｜ToolsVSCode,Jetbrains｜HFRepo｜PaperJoinourDiscord,Slack,Telegram,WeChatBF16/FP16版本｜BF16

Dr.sky_·2024-01-06 15:20

pytorch 基于 apex.amp 的混合精度训练：原理介绍与实现

1.3使用fp16带来的问题及解决方法2.apex介绍与安装3.apex.amp的使用3.1三行代码实现amp3.2参数配置3.3amp测试：MNIST手写数字识别4.参考资料推荐1.混合精度训练介绍所谓天下武功

ctrl A_ctrl C_ctrl V·2024-01-04 18:23

推荐频道