E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
fp16
BERT轻量化探索—模型剪枝(BERT Pruning)—Rasa维度剪枝
在模型训练和推理中使用低精度(
FP16
甚至INT8、二值网络)表示取代原有精度(FP32)表示。模型裁剪和剪枝。减少模型层数和参数规模。模型蒸馏。
PaperAgent
·
2025-04-04 23:11
9
NLP
bert
轻量化
pruning
rasa
剪枝
香橙派 AIPro开发板上手测评
一、硬件配置CPU:配备了4核64位ARM处理器,其中默认预留1个给AI处理器使用NPU:集成了华为昇腾310BAI处理器,拥有4TFOPS的
FP16
算力核8TOPS的INT8算力内存:标配LPDDR4X
洛克希德马丁
·
2025-04-01 14:00
linux
ubuntu
AI
ubuntu
linux
香橙派
香橙派
AiPro
OrangePi
AiPro
H800加速引擎与能效突破
值得注意的是,其混合精度计算单元通过灵活配置
FP16
、INT8及BF16精度模式,显著降低了大规模模型训练中的资源开销,而分布式缓存设计则通过数据局部性优化,减少了跨节点通信带来的延迟与能
智能计算研究中心
·
2025-04-01 13:50
其他
DeepSeek集成IT技术开发方向全景解读:重构智能开发新范式
DeepSeekMoE-32B)通过混合专家系统实现精准任务路由,在软件开发场景中展现出显著优势:代码生成场景:激活Java/Python/C++等语言专家模块,单元测试覆盖率提升至85%硬件资源优化:
FP16
量子纠缠BUG
·
2025-03-29 00:33
DeepSeek部署
DeepSeek
AI
重构
人工智能
机器学习
Google开源机器学习框架TensorFlow SegFormer优化
1.TensorRT加速流程目标转换SegFormer为TensorRT格式优化
FP16
/INT8计算提升推理速度(FPS)主要步骤导出TensorFlow模型转换为ONNX格式使用TensorRT进行优化运行
深海水
·
2025-03-28 02:23
人工智能
行业发展
IT应用探讨
tensorflow
人工智能
python
机器训练
机器学习
深度学习
ai
V100加速引擎与效能突破
其核心架构创新可归纳为三个维度:首先,TensorCore引入稀疏化计算与动态张量切片技术,显著提升矩阵运算密度;其次,混合精度计算通过
FP16
/FP32自适应精度调度算法,在模型收敛性与计算效率间达成平衡
智能计算研究中心
·
2025-03-27 02:23
其他
深度学习模型性能全景评估与优化指南
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持
FP16
niuTaylor
·
2025-03-22 02:49
深度学习
人工智能
深入解析 DeepSeek-R1 模型的显存与内存需求
模型参数与量化精度的关系模型的参数量决定了其基础大小,而量化精度(如
FP16
、INT8、INT4)则影响每个参数所占用的存储空间。
gs80140
·
2025-03-21 06:24
基础知识科谱
deepseek
最新NPU芯片详解及应用场景
技术亮点:支持混合精度计算(
FP16
/INT8),动态分配
美好的事情总会发生
·
2025-03-18 18:10
AI
嵌入式硬件
硬件工程
linux
人工智能
ai
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型
量化能将模型权重从高精度(如FP32)转换为低精度(如INT8/
FP16
),内存占用可减少50%~75%。低精度运算(如INT8)在GPU等硬件上计算效率更高,推理速度可提升2~4倍。
源泉的小广场
·
2025-03-17 21:19
大模型
大模型量化
推理模型量化
量化
qwq32b
gptq量化
大模型推理
性能调优
pytorch 天花板级别的知识点 你可以不会用 但是不能不知道
以下是PyTorch的高级知识点,详细且全面:1.模型优化与加速1.1混合精度训练定义:使用半精度(
FP16
)和单精度(FP32)混合训练,减少内存占用并加速计算。
小赖同学啊
·
2025-03-17 21:17
人工智能
pytorch
人工智能
python
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)
其核心思想是将模型中的浮点数(通常是FP32或
FP16
)表示的权重和激活值转换为低精度整数(
(initial)
·
2025-03-15 13:24
大模型科普
算法
人工智能
量化
Stable Diffusion模型Pony系列模型深度解析
训练策略:采用混合精度训练(
fp16
/bf16)和分层权重调整技术
Liudef06
·
2025-03-06 15:44
Stable
Diffusion
人工智能
人工智能作画
stable
diffusion
AI作画
大模型训练内存预估计算方法
基础计算(以训练为例)假设使用
FP16
(16位浮点数)存储参数:每个参数占用2字节。671B参数总显存≈6710亿×2字节≈1,342GB实际训练时需额外存储梯度、优化器
junjunzai123
·
2025-03-05 13:29
人工智能
深度学习
机器学习
fp8、
fp16
和bp16的区别
文章目录1.FP8(8-bitFloatingPoint)2.FP16(16-bitFloatingPoint)3.BP16(BrainFloatingPoint)4.总结FP8、
FP16
和BP16是指不同精度的浮点数格式
SmallerFL
·
2025-03-02 16:10
NLP&机器学习
fp8
fp16
bp16
深度学习
【大模型】fp32 和
fp16
的区别,混合精度的原理。
LLMs浮点数一、fp32和
fp16
的区别,混合精度的原理1.fp32与
fp16
的对比特性fp32(单精度)
fp16
(半精度)位数32位(4字节)16位(2字节)内存占用高低(仅为fp32的50%)数值范围约
深度求索者
·
2025-03-02 08:20
python
pytorch
半精度 单精度 双精度 概述
具体介绍精度类型位数符号位(S)指数位(E)尾数位(M)偏差值表示范围精度半精度(
FP16
)16位1位5位10位15大约到
石兴稳
·
2025-02-26 20:41
大数据
DeepSeek混合精度训练核心技术解析与实践指南
1.主题背景1.1Why混合精度训练(价值)混合精度训练通过结合
FP16
和FP32数据格式,在保证模型精度的前提下实现:40-60%显存占用降低(ResNet50案例:从7.8GB降至4.2GB)1.5
燃灯工作室
·
2025-02-24 15:33
Deepseek
数据挖掘
语音识别
计算机视觉
目标检测
机器学习
人工智能
国鑫DeepSeek 671B本地部署方案:以高精度、高性价比重塑AI推理新标杆
国鑫作为深耕AI领域的技术先锋,推出基于4台48GRTX4090或8台24GRTX4090服务器的2套DeepSeek“满血”版本地部署方案,以
FP16
高精度、高性价比、强扩展性三大优势,为企
Gooxi国鑫
·
2025-02-20 20:17
人工智能
服务器
【nvidia】NCCL禁用P2P后果权衡
计算bound场景:模型参数量较小(如参数量未超出单卡显存容量,使用纯数据并行)或计算密度极高(如大batchsize下的矩阵运算)时,A100的计算能力(
FP16
/FP32算力)可能被充分利用,此时训练是计算
x66ccff
·
2025-02-19 18:28
linux
p2p
服务器
网络协议
国产GPU算力公司及产品
中国有多家从事国产算力GPU研发与生产的企业,以下是一些代表性的公司及其相关产品概述:景嘉微:近期,景嘉微宣布成功研发了“景宏系列”AI算力产品,该系列面向AI训练、AI推理、科学计算等领域,支持INT8、
FP16
算力资源比较多
·
2025-02-17 10:22
智算
算力
昇腾910
gpu算力
语言模型
人工智能
大数据
推荐算法
tensorrt推理 onxx转engine代码(python),cyclegan网络推理(python、C++)
将onnx文件导出为engine,
FP16
格式importtensorrtastrtimportpycuda.driverascudaimportpycuda.autoinit#加载ONNX文件onnx_file_path
maobin_1
·
2025-02-14 10:04
python
c++
什么是FP8混合精度?
以下是关于FP8混合精度的详细解析:1.FP8混合精度的基本概念FP8是一种8位浮点数格式,相较于传统的FP32(32位浮点数)和
FP16
(16位浮点数),其存储空间更小,计算速度更快,但精度较低。
魔王阿卡纳兹
·
2025-02-09 01:11
大模型知识札记
FP8
训练
混合精度
DeepSeek
deepseek本地部署会遇到哪些坑
使用nvidia-smi监控显存,通过降低batch_size或模型量化(如
FP16
/INT8)优化资源。CPU模式下考虑模型轻量化(如使用ONN
skyksksksksks
·
2025-02-07 11:49
AI个人杂记
人工智能
深度学习
神经网络
自然语言处理
理解大模型:FP32、
FP16
、TF32、BF16、混合精度
介绍我们在模型开源模型平台下载模型的时候会经常看着这些参数FP32、
FP16
、TF32、BF16等参数。这个其实是指的GGUF模型的量化级别。
·
2025-02-04 18:36
大模型后端人工智能llm
AI学习指南HuggingFace篇-高级优化技巧
二、混合精度训练(一)混合精度训练的原理混合精度训练利用自动混合精度(AMP)技术,高效管理
FP16
和FP32之间的转换。通过在前向传播中使用
FP16
加
俞兆鹏
·
2025-02-04 10:35
AI学习指南
ai
InternLM: LMDeploy 量化部署进阶实践
量化主要是为了节省存储空间,用int4,int8来重新表示
fp16
,将模型的显存占用控制在200G可接受的范围下。值得注意的是,在transformer架构下,计算的瓶颈主要在显存带宽
dilvx
·
2025-01-25 06:42
机器学习
【深度学习】AMP(Automatic Mixed Precision,自动混合精度)
(AutomaticMixedPrecision,自动混合精度)AMP在深度学习中,AMP(AutomaticMixedPrecision,自动混合精度)是一种通过混合使用单精度(FP32)和半精度(
FP16
shanks66
·
2025-01-19 04:38
深度学习
人工智能
算法学习-2024.8.16
一、Tensorrt学习补充TensorRT支持INT8和
FP16
的计算。深度学习网络在训练时,通常使用32位或16位数据。TensorRT则在网络的推理时选用不这么高的精度,达到加速推断的目的。
蓝纹绿茶
·
2024-09-04 01:42
学习
昇腾910B与英伟达A100性能参数对比
核心数量与性能:昇腾910B:具有32个处理核心,支持
FP16
、INT8、INT4等
算力资源比较多
·
2024-09-01 10:04
算力
英伟达
昇腾910
gpu算力
人工智能
语言模型
大数据
推荐算法
yolov8 出现loss 为nan
原因:混合精度训练是一种通过同时使用
FP16
和FP32精度来加速深度学习训练的技术。它可以在不损失模型性能的情况下,显著减少训练时间和内存使用。
qq_wuqingdefeng
·
2024-08-22 12:38
YOLO
加速 PyTorch 模型预测常见方法梳理
目录1.使用GPU加速2.批量推理3.使用半精度浮点数(
FP16
)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时,可以通过多种方法来加快推理速度
samoyan
·
2024-03-17 16:54
pytorch
pytorch
人工智能
python
神经网络量化
最近在做神经网络的端侧部署,在做端侧部署的时候,为了减少内存压力和加快推理速度,会将单精度(fp32)模型量化成int8或者
fp16
。
掉毛学渣
·
2024-02-26 11:53
神经网络
[图像算法]-(yolov5.train)-GPU架构中的半精度
fp16
与单精度fp32计算
GPU架构中的半精度与单精度计算 由于项目原因,我们需要对darknet中卷积层进行优化,然而对于像caffe或者darknet这类深度学习框架来说,都已经将卷积运算转换成了矩阵乘法,从而可以方便调用cublas库函数和cudnn里tiling过的矩阵乘。 CUDA在推出7.5的时候提出了可以计算16位浮点数据的新特性。定义了两种新的数据类型half和half2.之前有师弟已经DEMO过半精度
蒸饺与白茶
·
2024-02-03 13:54
混合精度训练 |
fp16
用于神经网络训练和预测
它使用
FP16
即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。
小伟db
·
2024-02-02 20:34
新手在消费级GPU上本地部署chatGLM-6B
一、硬件要求1、理论需求硬盘空间:可用空间不小于40G;显存要求:本人选用的ChatGLM-6B是
FP16
精度的,运行代码需要不少于1
韬小志
·
2024-02-02 20:34
大模型
语言模型
pytorch
持续部署
(新手亲测有效)bug解决:在用显存24G的3090采用LoRA微调ChatGLM-6B(
FP16
)时报错torch.OutOfMemoryError:CUDA out of Memory.
理论上,ChatGLM-6B(
FP16
)模型部署运行时需要大约13G的显存空间即可。
韬小志
·
2024-02-02 20:34
bug
人工智能
语言模型
引入本地PyTorch自动混合精度以在NVIDIA GPU上进行更快的训练
2017年,NVIDIA研究人员开发了一种用于混合精度训练的方法,该方法在训练网络时将单精度(FP32)与半精度(例如
FP16
)格式结合在一起,并使用相同的超参数实现了与FP32训练相同的精度,NVIDIAGPU
孙琪翔
·
2024-02-02 20:33
(新手亲测有效)bug解决:ValueError: Attempting to unscale
FP16
gradients. 反复出现的问题。
在新手在消费级GPU上本地部署chatGLM-6B-CSDN博客完成chatGLM-6B(
FP16
)的部署后,尝试对模型进行loRA微调,期间遇到并解决了一些bug,分享给大家,希望大家少走弯路!
韬小志
·
2024-02-02 20:02
bug
语言模型
python
人工智能
PaddleDetection学习3——使用Paddle-Lite在 Android 上部署PicoDet模型(
fp16
)
使用Paddle-Lite在Android上运行PicoDet模型(
fp16
)1.环境准备2.部署步骤2.1下载Paddle-Lite-Demo2.2打开picodet_detection_demo项目
waf13916
·
2024-02-02 08:15
paddle
android
目标检测
ValueError Your setup doesn‘t support bf16gpu. You need torch=1.10, using Ampere GPU with cuda=11.0
只能切换回
fp16
be_humble
·
2024-01-31 07:58
深度学习
pytorch
人工智能
Model Compression and Acceleration Overview
模型压缩、模型加速模型压缩方法:能够有效降低参数冗余减少存储占用、通信带宽、计算复杂度利部署线性或非线性量化:1/2bits,int8和
fp16
等;结构或非结构剪枝:deepcompression,channelpruning
Ada's
·
2024-01-23 10:35
认知智能
认知计算
片上互联
边缘计算
系统科学
神经科学
认知科学
专题《智能芯片》
深度学习:混合精度训练
混合精度训练前言混合精度训练核心技术权重备份损失缩放梯度裁剪动态调整学习率优势与弊端代码示例参考文献前言浮点数据类型主要分为双精度Double(FP64)、单精度Float(FP32)和半精度Half(
FP16
AI Player
·
2024-01-16 12:31
Deep
Learning
人工智能
深度学习
DETR tensorRT部署去除推理过程无用辅助头+
fp16
部署再次加速+解决转tensorrt 输出全为0问题的新方法
特别说明:参考官方开源的DETR代码、TensorRT官方文档,如有侵权告知删,谢谢。 完整代码、测试脚本、测试图片、模型文件点击下载1、转tensorrt输出全为0老问题回顾 在用TensorRT部署DETR检测模型时遇到:转tensorrt输出全为0的问题。多次想放弃这个模型部署,花了很多时间查阅,最终解决方法用了两步: 第一步,修改onnx模型输出层Gather的参数; 第二步,
山水无移
·
2024-01-15 15:51
transformer
python
目标检测
用 Ollama 轻松玩转本地大模型
优雅不易根据经验,16位浮点精度(
FP16
)的模型,推理所需显存(以GB为单位)约为模型参数量(以10亿为单位)的两倍。
m0_54050778
·
2024-01-14 23:02
python
/usr/bin/ld: error: ../../lib/libnvinfer.so: file too short
一、背景在编译TensorRT官方的C++库时,库里是提供了命令行工具bin文件夹下的可执行程序trtexec,可以直接进行onnx的
fp16
以及int8量化,但我模型的输入是5维,模型里面全都是3D卷积
一位不愿暴露自己的小可爱
·
2024-01-11 21:36
c++
深度学习模型部署TensorRT加速(十):TensorRT部署分析与优化方案(一)
篇章十:TensorRT部署分析与优化方案目录前言:一、模型部署指标分析1.1FLOPS与TOPS1.2Rooflinemodel与计算密度1.3FP32/
FP16
/INT8/INT4/FP8参数二、模型部署的几大误区
咕哥
·
2024-01-11 19:58
深度学习模型部署优化
深度学习
人工智能
解决TensorRT加速推理SDXL出现黑图问题
1.fp16将pipeline中的
fp16
修改为fp32。在使用稳定扩散(StableDiffusion)生成图片时,选择不同的数据类型可以影响生成的结果。
莫余
·
2024-01-09 23:19
多模态
SDXL
黑图
TensorRT
本地部署多语言代码生成模型CodeGeeX2
Homepage|GitHub|ToolsVSCode,Jetbrains|HFRepo|PaperJoinourDiscord,Slack,Telegram,WeChatBF16/
FP16
版本|BF16
Dr.sky_
·
2024-01-06 15:20
python
chatgpt
人工智能
pytorch 基于 apex.amp 的混合精度训练:原理介绍与实现
1.3使用
fp16
带来的问题及解决方法2.apex介绍与安装3.apex.amp的使用3.1三行代码实现amp3.2参数配置3.3amp测试:MNIST手写数字识别4.参考资料推荐1.混合精度训练介绍所谓天下武功
ctrl A_ctrl C_ctrl V
·
2024-01-04 18:23
#
混合精度计算
python
pytorch
神经网络
深度学习
人工智能
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他