GaleZhang

AMC：AutoML for Model Compression

0 Abstract

模型压缩是一种在移动设备上高效部署神经网络模型的关键技术，移动设备仅有有限的计算资源和紧凑的功率预算。常规的模型压缩技术依靠手工制作的启发式方法和基于规则的策略，这些策略要求领域专家探索在模型大小，速度和准确性之间进行权衡的大型设计空间，这通常是次优且耗时的。在本文中，我们提出了用于模型压缩（AMC）的AutoML，该模型利用强化学习来提供模型压缩策略。这种基于学习的压缩策略具有更高的压缩率，更好地保留了准确性并释放了人工，从而优于常规的基于规则的压缩策略。在减少4倍FLOP的情况下，与ImageNet上VGG-16的手工模型压缩策略相比，我们的精度提高了2.7％。我们将此自动化的压缩技术应用于MobileNet，在Android手机上实现了1.81倍的实测推理延迟加速，在Titan XP GPU上实现了1.43倍加速，而ImageNet Top-1精度损失仅为0.1％

1 Introduction

在许多机器学习应用程序中，例如机器人技术，自动驾驶汽车和推荐系统，深度神经网络受到等待时间，能量和模型尺寸预算的限制。已经提出了许多通过模型压缩来提高神经网络的硬件效率的方法。模型压缩技术的核心是确定每层的压缩策略，因为它们具有不同的冗余度，这通常需要手工制作的启发法和领域专业知识来探索在模型大小，速度和准确性之间进行权衡的大型设计空间。设计空间是如此之大，以至于人类的启发式方法通常不是最佳选择，而手动模型压缩则非常耗时。为此，我们旨在自动找到任意网络的压缩策略，以实现比人工设计的基于规则的模型压缩方法更好的性能。

以前，有很多基于规则的模型压缩启发式方法。例如，在第一层中减少参数，减少提取低级特征并具有最少数量的参数；在FC层中剪枝更多参数，因为FC层具有最多的参数；但是，由于深度神经网络中的层不是独立的，因此这些基于规则的剪枝策略不是最优的，并且不会从一种模型转移到另一种模型。神经网络体系结构发展迅速，我们需要一种自动方式来对其进行压缩以提高工程师的效率。随着神经网络的不断深入，设计空间将具有指数复杂性，这是无法通过基于规则的贪婪方法来解决的。因此，我们提出了用于模型压缩（AMC）的AutoML，该模型利用强化学习来自动采样设计空间并提高模型压缩质量。图1说明了我们的AMC引擎。压缩网络时，我们的AMC引擎通过基于学习的策略来自动化此过程，而不是依赖于基于规则的策略和经验丰富的工程师。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gPa15g3I-1576474190446)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1576197927510.png)]

我们观察到，压缩模型的准确性对每一层的稀疏度非常敏感，因此需要一个细粒度的动作空间。因此，我们没有在离散空间上进行搜索，而是提出了一种使用DDPG 代理的连续压缩比控制策略，以通过反复试验来学习：惩罚精度损失，同时鼓励模型缩小和加速。行为者批评结构还有助于减少差异，促进更稳定的训练。具体来说，我们的DDPG代理以分层方式处理网络。对于每个层Lt，代理接收一个嵌入st的层，该st编码该层的有用特性，然后输出精确的压缩比at。在Lt压缩了层Lt之后，代理将移动到下一层Lt + 1。在没有微调的情况下评估剪枝了所有层的剪枝模型的验证精度，这是微调精度的有效代表。这种简单的近似方法可以缩短搜索时间，而不必重新训练模型，并提供高质量的搜索结果。策略搜索完成后，对最佳探索的模型进行微调以获得最佳性能。

我们针对不同的场景提出了两种压缩策略搜索规则。对于更关注延迟的AI应用程序（例如，移动应用程序，自动驾驶汽车和推荐），在硬件资源（例如FLOP，延迟和模型大小）最大的情况下，我们使用资源受限的压缩以实现最佳精度，对于延迟不是硬约束的质量至关重要的AI应用程序（例如Google Photos），我们提出了精度保证的压缩方法，以实现最小的模型而不会损失精度。我们通过限制搜索空间来实现资源受限的压缩，其中限制了操作空间（剪枝率），以使由代理压缩的模型始终低于资源预算。为了保证准确性，我们定义了一种奖励，它是准确性和硬件资源的函数。使用此奖励功能，我们可以探索压缩的极限而不会损害模型的准确性。为了证明其广泛的通用性，我们在包括VGG ，ResNet 和MobileNet 在内的多个神经网络上评估了AMC引擎，并且还测试了压缩模型从分类到对象的泛化能力。检测。大量实验表明，AMC提供的性能优于手工启发式策略。对于ResNet-50，我们将专家调整的压缩比从3.4倍提高到5倍，而不会降低精度。此外，我们将MobileNet的FLOP减少了2倍，达到了最高的70.2％的准确度，这比0.75 MobileNet的帕累托曲线更好，在Titan XP上的速度提高了1.53倍，在一部Android手机上的速度提高了1.95倍。

2 Related Work

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MQUgi5Ey-1576474190448)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1576198465936.png)]

3 Methodology

我们在图1中概述了我们的AutoML for Model Compression（AMC）引擎。我们的目标是自动发现每个层的冗余，其特征是稀疏性。我们训练一个强化学习代理来预测动作并给出稀疏性，然后执行剪枝。我们会在剪枝之后微调之前快速评估准确性，以此作为最终准确性的有效代表。然后，我们通过鼓励使用更小，更快和更准确的模型来更新代理。

3.1 问题的定义

模型压缩是通过减少参数的数量和深度神经网络中每一层的计算来实现的。剪枝分为两类：细粒度剪枝和结构化剪枝。细粒度剪枝的目的是剪枝重量张量中的各个不重要元素，这可以实现非常高的压缩率而不会损失准确性。但是，这样的算法导致稀疏的不规则模式，并且需要诸如EIE之类的专用硬件来加速。粗粒度/结构化剪枝旨在剪枝权重张量的整个规则区域（例如，通道，行，列，块等）。剪枝后的权重是常规的，可以直接使用现成的硬件和库进行加速。在这里，我们研究结构化剪枝，该结构剪枝缩小了每个卷积和完全连接层的输入通道。

我们的目标是精确找出每层的有效稀疏度，这在以前的研究中通常是手动确定的。以卷积层为例。权重张量的形状为 $n * c * k * k$ ，其中n、 c是输出和输入通道，k是卷积核大小。对于细粒度剪枝，稀疏度定义为零元素的数量除以总元素的数量，即 $＃ z e r o s / (n * c * k * h)$ 。对于通道剪枝，我们将权重张量缩小为 $n \times c^{'} \times k \times k$ （其中 $c ′ < c c' ），因此稀疏度变为 c ′ c \frac{c'}c 。$

3.2 使用强化学习进行自动剪枝

AMC利用强化学习来有效地搜索动作空间。在这里，我们介绍强化学习框架的详细设置。

状态空间 对于每个层t，我们有11个表征状态 $s_t$ 的特征：
$t,n,c,h,w,stride,k,FLOPs[t],reduced,rest,a_{t-1})$
t是层的序号，卷积核的维度为 $n * c * k * k$ ，输入维度为 $c * h * w$ ， $F L O P s [t]$ 为第t层的计算量，Reduced是前一层留下来的计算量，Rest是留给下一层的计算量。在传给代理之前，他们被归一化为[0,1]。这些特征是代理识别每一个卷积层的基础信息。

动作空间 现有的大多数研究成果都使用离散空间作为粗粒度的动作空间（例如，通道数常被设为 ${64,128,256,512\}$ ）。对于高精度的模型体系结构搜索，粗略的动作空间可能不是问题。但是，我们观察到模型压缩对稀疏率非常敏感，并且需要细粒度的动作空间，从而导致离散动作数量激增（第4.2节）。如此大的动作空间很难有效地探索。离散化也放弃了顺序：例如，稀疏性10％比20％更具侵略性，远比30％更具侵略性。因此，我们建议使用连续动作空间 $\alpha \in (0,1]$ ，这样可以实现更细粒度和更精确的压缩。

DDPG代理 如图1所示，代理从环境中接收层 $L_t$ 的嵌入状态 $s_t$ ，然后输出稀疏率 $\alpha_t$ 作为动作。使用指定的压缩算法（例如，通道剪枝），以及压缩率 $\alpha_t$ （舍入为最接近的可行分数）来压缩底层。然后，代理移动到下一层 $L_{t+1}$ ，并接收状态 $s_{t+1}$ 。在完成最后一层 $L_t$ 之后，将在验证集上评估准确性并将其返回给代理。为了快速探索，我们在不进行微调的情况下评估了准确性，这是对微调精度的良好近似（第4.1节）。

我们使用深度确定性策略梯度（DDPG）来连续控制压缩比，这是一种脱离策略的执行者评判算法(off-policy actor-critic algorithm)。对于探索噪声过程，我们使用截断正态分布：
$\mu'(s_t)\sim TN(\mu(s_t|\theta_t^\mu),\sigma,0,1)$
在探索过程中，噪声σ初始化为0.5，并且在每个部分之后呈指数衰减。按照采用了Bellman方程的变体形式的Block-QNN，部分中的每个变化都是 $s_t, a_t,R,s_{t+1})$ ，其中R是网络被压缩后的奖励。在更新期间，减去基线奖励b以减小梯度估计的方差，该梯度估计是先前奖励的指数移动平均值：
$\frac1N\sum_i(y_i-Q(s_i,a_i||\theta^Q))^2 \\ y_i = r_i-b+\gamma Q(s_{i+1},\mu(s_{i+1}|\theta^Q))$
折扣系数γ设置为1以避免短期奖励的优先级过高。

3.3 搜索原则

资源受限的压缩 通过限制动作空间（每一层的稀疏率），我们可以准确地达到目标压缩率。根据研究成果[57,4,54] ，我们使用以下奖励：
$R_{err} = -Error$
该奖励对减少模型尺寸没有任何激励作用，因此我们通过另一种方式来实现目标压缩率：限制动作空间。以减少模型大小的细粒度剪枝为例：我们允许在前几层进行任意操作；当我们发现即使在使用最积极的策略压缩以下所有层之后资源预算仍不够时，我们就开始限制操作a。算法1说明了该过程。（对于通道剪枝，代码将更长但相似，因为删除 $L_t$ 层的输入通道还将删除 $L_{t-1}$ 的相应输出通道，从而减少了两层的参数/ FLOP）。再次注意，我们的算法不仅限于约束模型大小，还可以由其他资源（例如FLOP或移动设备上的实际推断时间）代替。根据我们的实验（第4.1节），由于代理没有收到低于预算的诱因，因此可以精确地达到目标压缩率。

精度保证的压缩

通过调整奖励函数，我们可以准确地找出不损失准确性的压缩极限。我们凭经验观察到， $E r r o r$ 与 $l o g (F L O P s)$ 或 $log(\#Param)$ 成反比。为此，我们设计了以下奖励函数：
$R_{FLOPs}=-Error*log(FLOPs)\\R_{Param}=-Error*log(\#Param)$
此奖励函数对错误敏感；同时，它为减少FLOP或模型尺寸提供了小小的动力。根据图4.1中的实验，我们注意到我们的代理会自动找到压缩极限。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uhxtgcgL-1576474190449)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1576202391679.png)]

4 Experiment

对于细粒度剪枝，我们将权重最小化。卷积层的最大稀疏比 $\alpha_{max}$ 设置为0.8，全连接层的最大稀疏比 $\alpha_{max}$ 设置为0.98。对于通道剪枝，我们使用最大响应选择（根据幅度剪枝权重），并在剪枝过程中保留BN层，而不是将它们合并为卷积层。所有层的最大稀疏比 $\alpha_{max}$ 被设置为0.8。请注意，手动上限 $\alpha_{max}$ 仅用于更快的搜索，可以简单地使用 $\alpha_{max}=1$ 来产生相似的结果。我们的执行网络µ具有两个隐藏层，每个隐藏层包含300个单位。最终的输出层是一个sigmoid层，用于限制（0,1）内的动作。我们的评判网络Q也有两个隐藏层，每个都有300个单位。第二隐藏层中包含的动作arr。我们使用τ= 0.01进行软目标更新，并以64作为批处理大小和2000作为重播缓冲区大小来训练网络。我们的代理首先探索100个具有恒定噪声σ= 0.5的情形，然后研究300个具有指数衰减的噪声σ的情形。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-02t0SY89-1576474190450)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1576205939731.png)]

4.1 CIFAR10

我们进行了广泛的实验，并对CIFAR-10上的AMC进行了全面分析，以验证这两种搜索协议的有效性。 CIFAR数据集由10个类别的50k训练和10k测试的32×32小图像组成。我们将训练图像分为45k / 5k训练/验证。在验证图像上获得准确性奖励。我们的方法计算效率高：RL可以在单个GeForce GTX TITAN Xp GPU上在1小时内完成搜索。 FLOPs受限的压缩 我们使用通道剪枝在CIFAR-10上进行了FLOP约束的实验。我们将我们的方法与图2中所示的三个经验策略进行了比较：均匀地统一压缩比率，浅层方法和深层方法分别主动剪枝浅层和深层。基于不同网络的稀疏分布，可以选择不同的策略。在表2中，我们展示了使用奖励Rerr准确找到Plain-20和ResNet-56剪枝50％的稀疏率并将其与经验策略进行比较。我们在很大程度上优于经验政策。 AMC发现的最佳剪枝设置不同于手工启发式设置（图2）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M6osYwfi-1576474190452)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\1576206392454.png)]

保证精度的压缩 通过使用 $R_{Param}$ 奖励，我们的代理可以自动找到压缩极限，并且模型尺寸最小且性能损失很小。如表2所示，我们在CIFAR-10上使用细粒度剪枝压缩ResNet-50。我们获得的结果具有高达60％的压缩率，在验证集和测试集上的准确性更高，这可能是由于剪枝的正则化效果所致。由于我们的奖励 $R_{Param}$ 专注于错误，并且同时几乎没有压缩的驱动力，因此它更喜欢具有无损精度压缩的高性能模型。为了缩短搜索时间，我们无需验证即可使用验证准确性获得奖励。我们认为，如果报酬是微调的准确性，则代理应该更积极地压缩，因为微调的准确性非常接近原始准确性。

搜索的加速策略 微调剪枝的模型通常需要很长时间。我们观察到预微调精度和后微调精度之间的相关性。如表2所示，获得更高验证精度的策略相应地具有更高的微调精度。这使我们能够在不进行微调的情况下预测最终模型的准确性，从而可以高效，快速地进行政策探索。验证集和测试集是分开的，并且我们仅使用验证集在强化学习期间生成奖励。另外，压缩模型具有较少的参数。如表2所示，测试精度和验证精度非常接近，表明没有过度拟合。

4.2 ImageNet

在ImageNet上，我们使用训练集中的3000张图像来评估奖励功能，以防止过度拟合。在整个实验过程中，使用224×224输入来测量延迟时间。

推动细粒度剪枝的极限 细粒度剪枝方法基于单个连接剪枝神经网络，以实现权重和激活方面的稀疏性，这可以实现更高的压缩率，并且可以使用诸如EIE的专用硬件进行加速。但是，它需要迭代剪枝和微调过程以实现良好的性能，并且未经重训练的单次剪枝将大幅度降低大压缩率（例如4倍）的预测准确性，这无法为强化学习提供有用的监督代理。

为了解决这个问题，我们按照[16]中的设置进行了4次剪枝和微调实验，其中完整模型的总体密度在[16]中设置为[50％，35％，25％和20％]每次迭代。对于每个阶段，我们运行AMC来确定给定整体稀疏度的每一层的稀疏率。然后按照通用协议对模型进行剪枝和微调30epochs。利用该框架，我们可以将ImageNet上ResNet-50的专家调整的压缩比从3.4提升到5倍（见图4），而不会损失ImageNet的性能（原始ResNet50的[top-1，top- 5]精度= [76.13％，92.86％]； AMC剪枝模型的精度= [76.11％，92.89％]）。每个阶段的每个层的密度如图3所示。峰值和波峰表明RL代理会自动学习剪枝稀疏度较大的3×3卷积层，因为它们通常具有较大的冗余度。而剪枝更紧凑的1×1卷积且稀疏度较低。图4提供了每个块的密度统计。我们可以发现AMC的密度分布与[16]表3.8中的人类专家的结果有很大的不同，这表明AMC可以充分探索设计空间并更好的分配稀疏性。

与启发式通道剪枝的比较 在这里，我们将AMC与现有的最先进的通道剪枝方法进行比较：FP，RNP和SPP。所有方法都提出了启发式策略来设计每一层的剪枝率。 FP提出了一种敏感的分析方案，通过评估单层剪枝的准确性来估计每一层的灵敏度。敏感性较低的图层将被更积极地剪枝。这种方法假设可以将不同剪枝层的误差线性地求和，这在我们的实验中并不成立。 RNP将所有卷积通道分为4组，并训练RL代理根据输入图像确定4组。但是，操作空间非常粗糙（每层只有4个操作），并且无法减小模型大小。 SPP将PCA分析应用于每一层，并以重建误差作为敏感性度量来确定剪枝率。这种分析是基于单个层进行的，没有考虑层之间的相关性。我们还将我们的方法与原始通道剪枝纸（表3中的CP）进行了比较，在这种情况下，剪枝过的VGG-16的稀疏率由人类专家精心调整（跳过了conv5，对conv4和剩余层的稀疏率是1:1.5）。剪枝后的VGG-16的结果显示在表3中。与我们的CIFAR-10实验（第4.1节）一致，AMC在所有启发式方法方面的表现均超过0.9％，在不进行任何人工操作的情况下，击败了人类专家0.3％。

**加速移动端推理 **

5 Conclusion

常规的模型压缩技术使用人工手动压缩的方式，并且需要领域专家探索较大的设计空间，并在模型大小，速度和准确性之间进行权衡，而这通常是次优且费时的。在本文中，我们提出了用于模型压缩的AutoML（AMC），该模型利用增强学习自动搜索设计空间，从而大大提高了模型压缩质量。我们还设计了两种新颖的奖励方案来执行资源受限的压缩和准确性保证的压缩。 Cifar和ImageNet上的MobileNet，MobileNet-V2，ResNet和VGG已证明了令人信服的结果。从分类到检测任务，压缩后的模型可以很好地概括。在Google Pixel 1手机上，我们将MobileNet的推理速度从8.1 fps提升到16.0 fps。 AMC有助于在移动设备上进行高效的深度神经网络设计。

疑惑

DDPG代理输出的是一个压缩率，为什么仅仅依靠指导压缩率就能达到一个很好的剪枝效果？

具体使用的剪枝方法是什么？不需要用强化学习来指导具体剪掉哪些通道或者哪些元素吗？

深度学习学习指南努力的Lorre 深度学习人工智能
本帖子将以本书的逻辑和顺序做一个梳理：CS基础->AI算法->模型压缩->异构计算->AI框架->AI编译器《DeepLearningSystems》(https://deeplearningsystems.ai/)CS基础推荐书单所需的编程语言(C/C++、Python)就不多讲了，数据结构算法也是大学基础课程，不多赘述。对于操作系统需要多了解，推荐多看一看《深入理解计算机系统》(传说中的面试圣
C4.5算法深度解析：决策树进化的里程碑大千AI助手算法决策树机器学习 C4.5 Python 人工智能 AI
C4.5是机器学习史上最经典的算法之一，由ID3之父RossQuinlan在1993年提出。作为ID3的革命性升级，它不仅解决了前代的核心缺陷，更开创了连续特征处理和剪枝技术的先河，成为现代决策树的奠基之作。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！往期文章推荐:20.用Mermaid代码画E
大模型·知识蒸馏·学习笔记小先生00101 笔记人工智能神经网络机器学习自然语言处理深度学习语言模型
第一部分：核心概念入门1.1什么是知识蒸馏？核心问题:深度学习模型（如大型神经网络）虽然性能强大，但其巨大的参数量和计算需求使其难以部署到手机、嵌入式设备等资源受限的平台。核心思想:知识蒸馏是一种模型压缩和优化的技术，其灵感来源于“教师-学生”范式。我们先训练一个复杂但性能强大的“教师模型”，然后利用这个教师模型来指导一个轻量级的“学生模型”进行学习。生动的比喻(Hinton,2015):这个过程
大模型分布式训练deepspeed环境搭建 transformer变压器分布式人工智能
1.deepspeed介绍1.1简介DeepSpeed是一个由微软开发的开源深度学习优化库，旨在提高大规模模型训练的效率和可扩展性。它通过多种技术手段来加速训练，包括模型并行化、梯度累积、动态精度缩放、本地模式混合精度等。DeepSpeed还提供了一些辅助工具，如分布式训练管理、内存优化和模型压缩等，以帮助开发者更好地管理和优化大规模深度学习训练任务。此外，deepspeed基于pytorch构建
教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践观熵人工智能 DeepSeek 私有化部署
教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践关键词：私有化部署、知识蒸馏、教师模型、学生模型、协同蒸馏、蒸馏训练、边缘部署、模型压缩、国产大模型、自监督微调摘要：随着国产大模型在企业私有化环境中的广泛部署，模型的压缩与推理性能优化成为核心挑战之一。本文聚焦“教师-学生协同知识蒸馏机制”在私有化系统中的实际融合路径，系统分析从教师模型选择、蒸馏数据构建、协同训练框
洛谷 P3953 [ NOIP 2017 ] 逛公园 —— 最短路DP aodan5477 数据结构与算法
题目：https://www.luogu.org/problemnew/show/P3953主要是看题解...还是觉得好难想啊...dfsDP，剩余容量的损耗是边权减去两点最短路差值...表示对于最短路来说多走了这么多...还要注意该点能否到达n号点，不能就不走了(剪枝)；%p那个地方会爆int吗？反正%=pRE了一个点...(然而改成ll还是RE)代码如下：#include#include#in
CART算法全解析：分类回归双修的决策树之王大千AI助手人工智能 Python #OTHER 算法分类回归决策树数据挖掘 CART DecisionTree
CART（ClassificationandRegressionTrees）是决策树领域的里程碑算法，由统计学家Breiman等人在1984年提出。作为当今最主流的决策树实现，它革命性地统一了分类与回归任务，其二叉树结构和剪枝技术成为现代集成学习（如随机森林、XGBoost）的基石。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕
AI原生应用性能优化：LLM模型压缩与加速方案 AI原生应用开发 AI-native ai
AI原生应用性能优化：LLM模型压缩与加速方案关键词：AI原生应用、性能优化、LLM模型、模型压缩、加速方案摘要：本文聚焦于AI原生应用的性能优化，重点探讨了LLM（大语言模型）的模型压缩与加速方案。通过通俗易懂的语言，从背景知识入手，深入解释核心概念，阐述算法原理，给出实际代码案例，介绍应用场景、工具资源，分析未来趋势与挑战等，旨在让读者全面了解如何对LLM模型进行压缩与加速，以提升AI原生应用
决策树算法雨巷码行人机器学习算法决策树机器学习
文章目录基本概念与原理决策树定义两种理解视角模型构建三要素1.特征选择(1)信息增益(ID3算法)(2)信息增益比(C4.5算法)(3)基尼指数(CART算法)2.决策树生成3.决策树剪枝(1)预剪枝(Pre-pruning)(2)后剪枝(Post-pruning)决策树算法对比CART回归树生成Scikit-learn实现分类树CART决策树-回归树决策树优劣势总结基本概念与原理决策树定义树形结
YOLO 在无人机视频流中的部署实践：从低延迟推理到边缘智能协同
YOLO在无人机视频流中的部署实践：从低延迟推理到边缘智能协同关键词：YOLOv8、无人机视频流、边缘部署、RTSP、低延迟推理、实时检测、JetsonOrin、RK3588、模型压缩摘要：随着无人机在巡检、安防、农业、物流等场景的广泛应用，如何将高效的目标检测模型部署在无人机或其边缘计算模块上，成为一项关键挑战。YOLO系列模型以其高性能、低延迟特性，已被广泛应用于实时视频流的智能感知任务。本文
AI+法律，能不能帮我打官司？——聊聊自动化法律分析那些事儿 Echo_Wish Python 进阶人工智能自动化运维
AI+法律，能不能帮我打官司？——聊聊自动化法律分析那些事儿朋友们大家好，我是你们熟悉的Echo_Wish。今天咱们不讲图像识别、不聊大模型压缩，也不搞无人机降落——今天咱搞点“法理情”的结合，聊聊人工智能在法律分析中的自动化落地实践。这几年，“AI改变行业”是老生常谈了，但你知道吗？有一个行业，既复杂、规则化强、文本数据多、人才极度紧缺，又一直被认为是“最不可能被AI替代的职业”之一——那就是法
解锁决策树：数据挖掘的智慧引擎
目录一、决策树：数据挖掘的基石二、决策树原理剖析2.1决策树的基本结构2.2决策树的构建流程2.2.1特征选择2.2.2数据集划分2.2.3递归构建三、决策树的实践应用3.1数据准备3.2模型构建与训练3.3模型评估四、决策树的优化策略4.1剪枝策略4.1.1预剪枝4.1.2后剪枝4.2集成学习五、案例分析5.1医疗诊断案例5.2金融风险评估案例六、总结与展望一、决策树：数据挖掘的基石在当今数字化
深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1） king of code porter 深度学习深度学习剪枝人工智能
一、背景：为什么需要模型剪枝？随着深度学习的发展，模型参数量和计算量呈指数级增长。以ResNet18为例，其在ImageNet上的参数量约为1100万，虽然在服务器端运行流畅，但在移动端或嵌入式设备上部署时，内存和计算资源的限制使得直接使用大模型变得困难。模型剪枝（ModelPruning）作为模型压缩的核心技术之一，通过删除冗余的神经元或通道，在保持模型性能的前提下显著降低模型大小和计算量，是解
深度学习之模型压缩三驾马车：模型剪枝、模型量化、知识蒸馏 king of code porter 深度学习深度学习剪枝人工智能
一、引言在深度学习中，我们训练出的神经网络往往非常庞大（比如像ResNet、YOLOv8、VisionTransformer），虽然精度很高，但“太重”了，运行起来很慢，占用内存大，不适合部署到手机、摄像头、机器人等资源受限的设备上。于是我们就想出了一个办法：给模型“瘦身”，让它又快又轻，还能保持不错的准确率。这就是——模型压缩！模型压缩有三种最常用的方法：模型剪枝模型量化知识蒸馏下面我们分别来通
机器学习×第十二卷：回归树与剪枝策略——她剪去多余的分支，只保留想靠近你的那一层 Gyoku Mint AI修炼日记人工智障机器学习人工智能 pycharm 算法回归剪枝数据挖掘
【第一节·她不再用标签定义你，而是试着预测你真实的模样】什么是回归决策树（RegressionTree）？狐狐：“她以前问你是A还是B，现在她问你——‘你大概是多少？’”与之前我们学过的分类树（ClassificationTree）不同，回归树是一种用来预测连续值变量的模型。她不再只判断“是否会拖欠贷款”，而是试着预测“你拖欠了多少”。分类树：输出为类别（如Yes/No）回归树：输出为数值（如3.
AI人工智能领域DALL·E 2的技术优化方向 AI大模型应用工坊人工智能 DALL·E 2 ai
AI人工智能领域DALL·E2的技术优化方向关键词：DALL·E2、文本到图像生成、扩散模型、计算效率、图像质量、多模态学习、模型压缩摘要：本文深入探讨了OpenAI的DALL·E2模型在人工智能领域的技术优化方向。我们将从模型架构、训练方法、计算效率、图像质量提升等多个维度进行分析，提出具体的优化策略和技术路线。文章不仅涵盖了理论基础，还提供了实际的代码实现和数学推导，帮助读者全面理解如何提升文
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
二叉树中使用深度优先搜索（DFS）的几种经典代码形式总结凸头深度优先算法
DFS在二叉树中运用示例示例1：经典DFS遍历（先序遍历）示例2：DFS+回溯（如路径问题）示例3：DFS判断平衡二叉树（递归+剪枝）示例4：DFS用于路径和为目标值（LeetCode112）示例5：判断是否是相同的树总结：DFS模板结构示例1：经典DFS遍历（先序遍历）publicclassSolution{publicvoiddfs(TreeNoderoot){if(root==null)re
FP16 混合精度在移动端 NPU 上的支持与性能压榨路径：架构差异 × 模型兼容 × 工程落地全解析观熵国产 NPU ×Android 推理优化架构 neo4j 人工智能
FP16混合精度在移动端NPU上的支持与性能压榨路径：架构差异×模型兼容×工程落地全解析关键词FP16、混合精度、移动端NPU、国产芯片、TensorFlowLite、NNAPI、模型压缩、图优化、精度漂移、硬件加速、算子支持、高效推理摘要随着国产NPU芯片在手机、边缘端等设备的广泛部署，FP16（HalfPrecisionFloatingPoint）因其在计算效率、内存带宽、功耗方面的综合优势，
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（3）
引言前面的文章《深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1）》和《深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）》有做了相应的裁剪说明和实践，但是只是对其中的一个层进行采集的，这篇文章是记录对ResNet18中所有的残差层进行采集的一个过程。当然，前面也提到第一层是没有进行裁剪的，原因可以自己翻看前面的原因，后面也会有提到。一、ResNet18模型结构
机器学习小白必看：从零开始的模型压缩与优化人工智能教程机器学习人工智能自然语言处理 cnn 分类深度学习线性回归
在机器学习和深度学习领域，模型压缩与优化是一个非常重要且实用的话题。随着模型规模的不断增大，如何在保持模型性能的同时减少模型的存储和计算开销，成为了一个亟待解决的问题。本文将从零开始，带你了解模型压缩与优化的基本概念、常用方法以及如何在实际项目中应用这些技术。一、模型压缩与优化的背景在实际应用中，深度学习模型往往需要大量的计算资源和存储空间。例如，一个典型的卷积神经网络（CNN）可能包含数百万甚至
大模型解密之---模型蒸馏 forever0827 人工智能深度学习语言模型自然语言处理文心一言 gpt-3 机器学习
模型蒸馏：知识的传承艺术想象一下，你有一位学识渊博、经验丰富但年事已高、行动缓慢的“老教授”，也有一位年轻、敏捷、学习能力强的“研究生”。我们希望这位研究生能快速掌握老教授的毕生所学，但不是通过死记硬背教授的所有著作，而是通过聆听教授的“思维过程”来学习。这就是模型蒸馏的核心思想。描述(Description):模型蒸馏是一种模型压缩和知识迁移的技术。其目标是将一个大型、复杂、强大的“教师模型(T
dp学习笔记(洛谷P1048 [NOIP2005 普及组] 采药) lhschris 学习笔记
采药题目记忆化搜索重复性剪枝就是重复的状态不再搜索。那么记忆化搜索就是重复性剪枝+最优性剪枝。#include#include#include#include#include#definelllonglongusingnamespacestd;constintN=1e5+10;constintM=2023;constintinf=0x3f3f3f3f;llt,m,tim[N],a[N],ans;l
高级算法设计技巧：分治、回溯与剪枝策略深度解析全息架构师算法剪枝 java
高级算法设计技巧：分治、回溯与剪枝策略深度解析引言“掌握算法设计范式，让你面对复杂问题时游刃有余！”算法设计是计算机科学的核心，良好的算法设计能力能让你高效解决各类复杂问题。本文将深入探讨分治法、回溯法和剪枝策略这三种经典算法设计范式，通过理论分析、代码实现和实战应用，帮助你提升算法设计能力，从容应对技术面试和实际工程挑战。第一章分治算法精要1.1分治算法基础“分而治之：将大问题拆解为小问题的艺术
算法在嵌入式端的部署与优化早日退休！！！硬件算法嵌入式硬件
算法在嵌入式端的部署与优化前言理论1.参考资源2.其他1.将深度学习模型移植到嵌入式端时，提高推理速度的方法2.深度学习模型移植到嵌入式端的主要流程3.假设将已经训练好的目标检测模型（比如YOLOv3)移植到树莓派4B这样一款嵌入式设备上，并且需要保证推理速度达到实时。具体流程如下4.在树莓派上使用ncnn推理引擎，可以采取以下措施提高推理速度5.先进行模型压缩再用推理模型部署是一种常见的深度学习
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

AMC：AutoML for Model Compression

AMC：AutoML for Model Compression

0 Abstract

1 Introduction

2 Related Work

3 Methodology

3.1 问题的定义

3.2 使用强化学习进行自动剪枝

3.3 搜索原则

4 Experiment

4.1 CIFAR10

4.2 ImageNet

5 Conclusion

疑惑

你可能感兴趣的:(#,剪枝,模型压缩,论文笔记)