mxsurui

卷积神经网络的参数量和计算量

《卷积神经网络的参数量和计算量》

对于在端部署的模型来说，模型的参数量以及计算量是锱铢必较的，使用什么样的激活函数，会有多大的计算成本。对于模型的压缩量化等都是模型的参数量和计算量的准确计量为基础的，所以本文简单记录一下常见神经网络的参数量和计算量。

Key Words：Parameters count、FLOPS、FLOPs

Beijing, 2020

作者：RaySue

Agile Pioneer

文章目录

- 模型的参数量
- - 全连接参数量
  - 池化层
  - Vanilla Conv Parameters
  - Group Convolution
  - Depthwise Separable Convolution
- 模型的计算量
- - 卷积运算量（FLOPs）
  - - Vanilla Conv
  - 全连接层
  - 池化层
  - - 最大池化
    - 平均池化
  - 激活层
  - - ReLU/PReLU/ELU
    - Sigmoid
- 设备FLOPS参考
- 以ResNet18为例计算FLOPs
- 参考

FLOPS (Floating point of per Second) 的缩写，意指每秒浮点运算次数。用来衡量硬件的性能。
FLOPs (Floating point of operations) 的缩写，是浮点运算次数，可以用来衡量算法/模型复杂度。

模型的参数量

$K_h$ 卷积核的高度
$K_w$ 卷积核的宽度
$C_{in}$ 输入featureMap的channel数
$C_{out}$ 输出featureMap的channel数

全连接参数量

全连接层的参数量是很大的，和输入的隐藏层的数据大小相关，如VGG-16最后一次卷积得到的feature map的维度为：7x7x512，将feature map展开后输出为4096个隐藏层单元，那么相当于用4096个1x1的卷积对7x7x512展平的结果去做卷积。
参数量：

$\times 7 \times 512 \times 4096 = 102760448$

一个亿的参数量，所以全连接层参数是冗余的。

池化层

对于池化层而言，常用的Max-pooling，Avg-pooling等是不存在参数量的。

Vanilla Conv Parameters

对于某一个卷积层，它的parameters个数为：

$K_h * K_w * C_{in}) * C_{out} + C_{out}$

Group Convolution

分组卷积的输出特征图的每个通道，只和输入特征图的一部分通道有关，而这部分通道，就是一个分组(Group)。依旧假设输入特征图的尺寸为 $C_{in} * H * W$ ，分为 $g$ 组进行分组卷积，那么，对于每一组，输出特征图的通道数都是 $\frac{C_{out}}{g}$ ，每组的卷积核参数变为:

$\frac{C_{in}}{g} * K_h * K_w * \frac{C_{out}}{g}$

最后只需要将各个分组的计算结果按照通道进行连接(Cat)即可，每组的参数量和普通卷积一样，一共g组则总体的参数量为：

$\frac{C_{in}}{g} * K_h * K_w * \frac{C_{out}}{g} * g$

参数量减少为普通卷积的 $1 / g$

Depthwise Separable Convolution

对于深度可分离卷积，包含两个部分，Depthwise和Point_wise。

Depthwise:

$K_h * K_w * C_{in}$

Pointwise:

$1 * 1 * C_{in} * C_{out}$

final:

$K_h * K_w * C_{in} + 1 * 1 * C_{in} * C_{out}$

深度可分离卷积比普通卷积：

$\frac{K_h * K_w * C_{in} + C_{in} * C_{out}}{(K_h * K_w * C_{in}) * C_{out} + C_{out}} = \frac{1}{C_{out}} +\frac{1}{K_h * K_w}$

为了便于理解、便于和分组卷积类比，假设 $C_{in} = C_{out}$ 。深度卷积其实就是$g = C_{in} = C_{out} $的分组卷积，只不过没有直接将 $g$ 组结果拼接，所以Depthwise卷积参数量是标准卷积的 $\frac{1}{C_{out}}$ ，而Pointwise卷积的参数量是标注卷积的 $\frac{1}{K_h * K_w}$ 。

模型的计算量

FLOPS 注意全部大写是floating point of per Second 的缩写，意指每秒浮点运算次数。用来衡量硬件的性能。
FLOPs 是floating point of operations的缩写，是浮点运算次数，可以用来衡量算法/模型复杂度。
MAC或MACC或MADD(Multiply And Accumulate)乘累加单元
1 MAC = 2 FLOPs 2 * (卷积乘法 + 卷积乘法自后所有数相加 - 1)（n个数相加只需要n-1次相加，所以无bias -1，有bias +1抵消）细节
运算量乘以的图像feature map的维度是 Output feature map的维度
加、减、乘、除、指数运算、平方根、最大值…都是一个FLOP

卷积运算量（FLOPs）

Vanilla Conv

不考虑bias：

$FLOPs =[（K_h * K_w * C_{in}) + (K_h * K_w * C_{in} - 1）]* H_{out} * W_{out} * C_{out}$

上式中，把卷积计算分为两个部分，一部分表示乘法，一部分表示加法，加法只需n-1次

考虑bias:

$FLOPs =（2 * K_h * K_w * C_{in}）* H_{out} * W_{out} * C_{out}$

公式：

参数量 x 输出的特征映射图的 H，W，其他卷积一样可以这样运算

全连接层

不考虑bias：

$\times I - 1) \times O$

which $I$ = input neuron numbers, $O$ = output neuron numbers
同样的 $I$ 表示乘法 $I - 1$ 表示加法

池化层

ps: 自己的理解

最大池化

最大池化，只有一个单个操作，取最大值，所以FLOPs如下：

$H_{out} * W_{out}$

平均池化

平均池化，对池化步长 $S$ 区域内的所有隐藏节点进行相加，再做一次除法，FLOPs如下：

$S_h * S_w - 1 + 1) * H_{out} * W_{out}$

激活层

神经网络中是一定存在非线性的激活函数的，比如ReLU或Sigmoid等，当然这些激活函数也是需要时间来计算的，但是由于激活函数一般没有乘法，所以不计算MAC只计算FLOPs

ReLU/PReLU/ELU

只有一个单个操作，取最大值，所以FLOPs如下：

$H_{out} \times W_{out} \times C_{out}$

Sigmoid

在计算FLOPS的时候，我们通常计算加、减、乘、除、指数、平方根等等，作为一个单个的FLOP。因此在Sigmoid中有4个明显的操作，0-x, exp(x), 1 + x, 1 / x

$\frac{1}{1 + exp(-x)}$

FLOPs:

$H_{out} \times W_{out} \times C_{out} \times 4$

实际上不会计算激活函数的计算量的，因为和神经网络的大量乘加运算相比，它占的比例微不足道。所以 we’ll simply assume that the activation function is free.

设备FLOPS参考

卷积神经网络的参数量和计算量_第1张图片

卷积神经网络的参数量和计算量_第2张图片

卷积神经网络的参数量和计算量_第3张图片

以ResNet18为例计算FLOPs

卷积神经网络的参数量和计算量_第4张图片

公式： $H_{out} * W_{out} * K_w * K_h * C_{in} * C_{out}$ (注意：不要忘了resnet的shortcut的add操作)
$c o n v 1 ： 112 * 112 * 7 * 7 * 3 * 64$
$c o n v 2 x ： 56 * 56 * 64 * 64 * 9 + 56 * 56 * 64 * 64 * 9 + 56 * 56 * 64 * 64$
$c o n v 3 x ： 28 * 28 * 64 * 128 * 9 + 28 * 28 * 128 * 128 * 9 + 28 * 28 * 64 * 128$
$c o n v 4 x ： 14 * 14 * 128 * 256 * 9 + 14 * 14 * 256 * 256 * 9 + 14 * 14 * 128 * 256$
$c o n v 5 x ： 7 * 7 * 256 * 512 * 9 + 7 * 7 * 512 * 512 * 9 + 7 * 7 * 256 * 512$
$f c ： 512 * 1000$

总共加起来乘以2，为1.8G flops

参考

https://www.pianshen.com/article/5383315087/
https://zhuanlan.zhihu.com/p/65377955
https://zhuanlan.zhihu.com/p/77471991?utm_source=wechat_timeline
https://www.zhihu.com/question/65305385
https://blog.csdn.net/zjucor/article/details/85239860
https://www.zhihu.com/question/65305385

你可能感兴趣的:(模型压缩)

医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
YOLOv11模型轻量化挑战技术文章大纲程序猿全栈の董（董翔） github YOLOv11
模型轻量化的背景与意义目标检测模型YOLOv11的性能与应用场景轻量化的必要性：边缘设备部署、实时性需求、计算资源限制轻量化面临的挑战：精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化：深度可分离卷积、分组卷积、瓶颈设计模型剪枝：结构化剪枝与非结构化剪枝策略知识蒸馏：教师-学生模型框架与特征匹配方法量化与低比特压缩：FP16/INT8量化与二值化网络轻量化实现的具体方
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
Transformer模型压缩：结构化剪枝与混合精度量化研究 pk_xz123456 仿真模型机器学习深度学习 transformer 剪枝深度学习
Transformer模型压缩：结构化剪枝与混合精度量化研究摘要本文针对Transformer模型在实际部署中面临的计算资源消耗大、内存占用高和推理延迟等问题，提出了一种结合结构化剪枝与混合精度量化的综合压缩方案。我们首先分析了Transformer模型的结构特点及其在计算效率方面的瓶颈，然后系统地研究了结构化剪枝和混合精度量化的理论基础与实现方法。通过实验验证，我们的方法在保持模型性能的同时显著
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
嵌入式AI模型压缩技术：让大模型变小 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
嵌入式AI模型压缩技术：让大模型变小关键词：嵌入式AI、模型压缩、剪枝、量化、知识蒸馏、轻量化网络、端侧部署摘要：当我们用手机拍照时，AI能瞬间识别出“这是一只猫”；智能摄像头能在0.1秒内检测到“有人闯入”。这些“快如闪电”的AI功能背后，藏着一项关键技术——嵌入式AI模型压缩。本文将用“给盆栽修剪枝叶”“用简笔画代替油画”等生活类比，带您一步步理解模型压缩的核心技术（剪枝、量化、知识蒸馏、轻量
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
深度学习学习指南努力的Lorre 深度学习人工智能
本帖子将以本书的逻辑和顺序做一个梳理：CS基础->AI算法->模型压缩->异构计算->AI框架->AI编译器《DeepLearningSystems》(https://deeplearningsystems.ai/)CS基础推荐书单所需的编程语言(C/C++、Python)就不多讲了，数据结构算法也是大学基础课程，不多赘述。对于操作系统需要多了解，推荐多看一看《深入理解计算机系统》(传说中的面试圣
大模型·知识蒸馏·学习笔记小先生00101 笔记人工智能神经网络机器学习自然语言处理深度学习语言模型
第一部分：核心概念入门1.1什么是知识蒸馏？核心问题:深度学习模型（如大型神经网络）虽然性能强大，但其巨大的参数量和计算需求使其难以部署到手机、嵌入式设备等资源受限的平台。核心思想:知识蒸馏是一种模型压缩和优化的技术，其灵感来源于“教师-学生”范式。我们先训练一个复杂但性能强大的“教师模型”，然后利用这个教师模型来指导一个轻量级的“学生模型”进行学习。生动的比喻(Hinton,2015):这个过程
大模型分布式训练deepspeed环境搭建 transformer变压器分布式人工智能
1.deepspeed介绍1.1简介DeepSpeed是一个由微软开发的开源深度学习优化库，旨在提高大规模模型训练的效率和可扩展性。它通过多种技术手段来加速训练，包括模型并行化、梯度累积、动态精度缩放、本地模式混合精度等。DeepSpeed还提供了一些辅助工具，如分布式训练管理、内存优化和模型压缩等，以帮助开发者更好地管理和优化大规模深度学习训练任务。此外，deepspeed基于pytorch构建
教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践观熵人工智能 DeepSeek 私有化部署
教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践关键词：私有化部署、知识蒸馏、教师模型、学生模型、协同蒸馏、蒸馏训练、边缘部署、模型压缩、国产大模型、自监督微调摘要：随着国产大模型在企业私有化环境中的广泛部署，模型的压缩与推理性能优化成为核心挑战之一。本文聚焦“教师-学生协同知识蒸馏机制”在私有化系统中的实际融合路径，系统分析从教师模型选择、蒸馏数据构建、协同训练框
AI原生应用性能优化：LLM模型压缩与加速方案 AI原生应用开发 AI-native ai
AI原生应用性能优化：LLM模型压缩与加速方案关键词：AI原生应用、性能优化、LLM模型、模型压缩、加速方案摘要：本文聚焦于AI原生应用的性能优化，重点探讨了LLM（大语言模型）的模型压缩与加速方案。通过通俗易懂的语言，从背景知识入手，深入解释核心概念，阐述算法原理，给出实际代码案例，介绍应用场景、工具资源，分析未来趋势与挑战等，旨在让读者全面了解如何对LLM模型进行压缩与加速，以提升AI原生应用
YOLO 在无人机视频流中的部署实践：从低延迟推理到边缘智能协同
YOLO在无人机视频流中的部署实践：从低延迟推理到边缘智能协同关键词：YOLOv8、无人机视频流、边缘部署、RTSP、低延迟推理、实时检测、JetsonOrin、RK3588、模型压缩摘要：随着无人机在巡检、安防、农业、物流等场景的广泛应用，如何将高效的目标检测模型部署在无人机或其边缘计算模块上，成为一项关键挑战。YOLO系列模型以其高性能、低延迟特性，已被广泛应用于实时视频流的智能感知任务。本文
AI+法律，能不能帮我打官司？——聊聊自动化法律分析那些事儿 Echo_Wish Python 进阶人工智能自动化运维
AI+法律，能不能帮我打官司？——聊聊自动化法律分析那些事儿朋友们大家好，我是你们熟悉的Echo_Wish。今天咱们不讲图像识别、不聊大模型压缩，也不搞无人机降落——今天咱搞点“法理情”的结合，聊聊人工智能在法律分析中的自动化落地实践。这几年，“AI改变行业”是老生常谈了，但你知道吗？有一个行业，既复杂、规则化强、文本数据多、人才极度紧缺，又一直被认为是“最不可能被AI替代的职业”之一——那就是法
深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1） king of code porter 深度学习深度学习剪枝人工智能
一、背景：为什么需要模型剪枝？随着深度学习的发展，模型参数量和计算量呈指数级增长。以ResNet18为例，其在ImageNet上的参数量约为1100万，虽然在服务器端运行流畅，但在移动端或嵌入式设备上部署时，内存和计算资源的限制使得直接使用大模型变得困难。模型剪枝（ModelPruning）作为模型压缩的核心技术之一，通过删除冗余的神经元或通道，在保持模型性能的前提下显著降低模型大小和计算量，是解
深度学习之模型压缩三驾马车：模型剪枝、模型量化、知识蒸馏 king of code porter 深度学习深度学习剪枝人工智能
一、引言在深度学习中，我们训练出的神经网络往往非常庞大（比如像ResNet、YOLOv8、VisionTransformer），虽然精度很高，但“太重”了，运行起来很慢，占用内存大，不适合部署到手机、摄像头、机器人等资源受限的设备上。于是我们就想出了一个办法：给模型“瘦身”，让它又快又轻，还能保持不错的准确率。这就是——模型压缩！模型压缩有三种最常用的方法：模型剪枝模型量化知识蒸馏下面我们分别来通
AI人工智能领域DALL·E 2的技术优化方向 AI大模型应用工坊人工智能 DALL·E 2 ai
AI人工智能领域DALL·E2的技术优化方向关键词：DALL·E2、文本到图像生成、扩散模型、计算效率、图像质量、多模态学习、模型压缩摘要：本文深入探讨了OpenAI的DALL·E2模型在人工智能领域的技术优化方向。我们将从模型架构、训练方法、计算效率、图像质量提升等多个维度进行分析，提出具体的优化策略和技术路线。文章不仅涵盖了理论基础，还提供了实际的代码实现和数学推导，帮助读者全面理解如何提升文
FP16 混合精度在移动端 NPU 上的支持与性能压榨路径：架构差异 × 模型兼容 × 工程落地全解析观熵国产 NPU ×Android 推理优化架构 neo4j 人工智能
FP16混合精度在移动端NPU上的支持与性能压榨路径：架构差异×模型兼容×工程落地全解析关键词FP16、混合精度、移动端NPU、国产芯片、TensorFlowLite、NNAPI、模型压缩、图优化、精度漂移、硬件加速、算子支持、高效推理摘要随着国产NPU芯片在手机、边缘端等设备的广泛部署，FP16（HalfPrecisionFloatingPoint）因其在计算效率、内存带宽、功耗方面的综合优势，
深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（3）
引言前面的文章《深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1）》和《深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）》有做了相应的裁剪说明和实践，但是只是对其中的一个层进行采集的，这篇文章是记录对ResNet18中所有的残差层进行采集的一个过程。当然，前面也提到第一层是没有进行裁剪的，原因可以自己翻看前面的原因，后面也会有提到。一、ResNet18模型结构
机器学习小白必看：从零开始的模型压缩与优化人工智能教程机器学习人工智能自然语言处理 cnn 分类深度学习线性回归
在机器学习和深度学习领域，模型压缩与优化是一个非常重要且实用的话题。随着模型规模的不断增大，如何在保持模型性能的同时减少模型的存储和计算开销，成为了一个亟待解决的问题。本文将从零开始，带你了解模型压缩与优化的基本概念、常用方法以及如何在实际项目中应用这些技术。一、模型压缩与优化的背景在实际应用中，深度学习模型往往需要大量的计算资源和存储空间。例如，一个典型的卷积神经网络（CNN）可能包含数百万甚至
大模型解密之---模型蒸馏 forever0827 人工智能深度学习语言模型自然语言处理文心一言 gpt-3 机器学习
模型蒸馏：知识的传承艺术想象一下，你有一位学识渊博、经验丰富但年事已高、行动缓慢的“老教授”，也有一位年轻、敏捷、学习能力强的“研究生”。我们希望这位研究生能快速掌握老教授的毕生所学，但不是通过死记硬背教授的所有著作，而是通过聆听教授的“思维过程”来学习。这就是模型蒸馏的核心思想。描述(Description):模型蒸馏是一种模型压缩和知识迁移的技术。其目标是将一个大型、复杂、强大的“教师模型(T
算法在嵌入式端的部署与优化早日退休！！！硬件算法嵌入式硬件
算法在嵌入式端的部署与优化前言理论1.参考资源2.其他1.将深度学习模型移植到嵌入式端时，提高推理速度的方法2.深度学习模型移植到嵌入式端的主要流程3.假设将已经训练好的目标检测模型（比如YOLOv3)移植到树莓派4B这样一款嵌入式设备上，并且需要保证推理速度达到实时。具体流程如下4.在树莓派上使用ncnn推理引擎，可以采取以下措施提高推理速度5.先进行模型压缩再用推理模型部署是一种常见的深度学习
AI算力网络与通信中量化技术的挑战与机遇 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 AI人工智能与大数据技术人工智能网络 ai
AI算力网络与通信中量化技术的挑战与机遇关键词：AI算力网络、量化技术、通信优化、模型压缩、分布式计算摘要：随着AI应用的爆发式增长，算力需求与网络通信压力同步激增。量化技术作为连接AI算力网络与通信效率的关键桥梁，通过降低数据精度压缩模型规模、减少传输开销，成为解决“算力-通信”矛盾的核心技术。本文将从生活场景出发，用“快递网络”“语言翻译”等通俗比喻，拆解AI算力网络与量化技术的底层逻辑，结合
什么是知识蒸馏？如何做模型蒸馏？结合案例说明
一、什么是蒸馏？核心概念：在机器学习中，“蒸馏”指的是知识蒸馏。这是一种模型压缩技术，其核心思想是将一个大型、复杂、性能优越但计算成本高的模型（称为“教师模型”）所蕴含的“知识”或“智慧”，转移给一个小型、简单、计算效率高的模型（称为“学生模型”）。类比：就像化学中的蒸馏过程，通过加热和冷凝分离混合物中的组分，知识蒸馏试图从复杂教师模型的“知识混合物”中，提取出最精华、最核心的模式和关系，并将其“
RAG模型效果优化全攻略：多维度策略优化RAG模型性能的关键技术与方法（RAG优化）汀、人工智能 LLM工业级落地实践 LLM技术汇总人工智能 RAG 智能体知识库 self-rag rerank
：RAG在大模型实际落地的时候，存在一些问题，主要集中在以下方面：缺少垂直领域知识：虽然大模型压缩了大量的人类知识，但在垂直场景上明显存在短板，需要专业化的服务去解决特定问题。存在幻觉、应用有一定门槛：在大模型使用上有一些幻觉、合规问题，没有办法很好地落地，配套工作不足，缺乏现成的方案来管理非结构化文本、进行测试、运营和管理等。存在重复建设：各业务孤立摸索，资产无法沉淀，存在低水平重复建设，对公司
AI持续学习模型压缩与加速方法大全 AI智能探索者人工智能学习 ai
AI持续学习模型压缩与加速方法大全关键词：模型压缩、模型加速、持续学习、知识蒸馏、模型剪枝、量化、轻量化架构摘要：本文全面解析AI持续学习场景下的模型压缩与加速技术。从核心概念到具体方法，结合生活案例、代码示例与实战场景，系统讲解剪枝、量化、知识蒸馏等主流技术的原理与应用，帮助读者理解如何在持续学习中平衡模型性能与资源消耗，最终实现高效、可扩展的AI系统。背景介绍目的和范围随着AI技术普及，模型规
【深度学习新浪潮】什么是混合精度分解？小米玄戒Andrew 深度学习新浪潮深度学习人工智能算法大模型语言模型 LLMs
混合精度分解是大模型压缩领域的一项核心技术，通过将模型参数或计算过程分解为不同精度的子单元，在保持性能的同时显著降低存储和计算成本。其核心思想是对模型中敏感度高、信息量大的部分采用高精度表示，而对冗余度高、敏感度低的部分采用低精度表示，从而在精度损失与压缩效率之间取得最优平衡。以下从技术原理、实现方法和典型案例三个维度展开分析：一、技术原理与核心机制1.混合精度的理论基础精度-冗余权衡：大模型中不
压缩感知解析 DuHz 算法机器学习信号处理开发语言人工智能数学建模线性代数
压缩感知解析理论基础与数学框架压缩感知理论由EmmanuelCandès、TerenceTao、DavidDonoho等数学家在2004年前后建立，该理论证明：对于在某种变换域中具有稀疏性的信号，可以通过远少于奈奎斯特采样率的随机测量实现完美重构。压缩感知的数学框架基本数学模型压缩感知的核心数学模型为：y=Φx+n\mathbf{y}=\boldsymbol{\Phi}\mathbf{x}+\ma
华为鸿蒙模型轻量化进阶：从「能用」到「好用」的生态进化之路 harmonyos
哈喽！我是小L，那个在鸿蒙端侧「用模型压缩技术撬动千亿设备」的女程序员~你知道吗？当轻量化模型遇见鸿蒙分布式能力，能让智能手表的健康监测精度提升20%，同时功耗降低30%！今天就来聊聊模型轻量化在鸿蒙生态中的「终极形态」——全场景协同、自进化模型、隐私增强，看看未来的端侧AI如何「聪明又贴心」！一、全场景协同：让模型「随需而变」（一）跨设备模型调度架构graphTDA[用户请求]-->B{设备类型
第39节：模型压缩技术：剪枝与量化点我头像干啥 pytorch 人工智能 python
引言在人工智能和深度学习领域，模型规模的快速增长已成为一个显著趋势。从早期的简单神经网络到如今拥有数十亿参数的巨型模型（如GPT-3、BERT等），模型的复杂性不断提高，带来了更强大的性能，但同时也带来了计算资源消耗大、存储需求高、推理延迟长等一系列挑战。这些挑战严重限制了深度学习模型在资源受限环境（如移动设备、嵌入式系统和边缘计算场景）中的部署和应用。为了解决这些问题，模型压缩技术应运而生。模型
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他