amulet0703

基于全局误差重构的深度卷积神经网络压缩方法

最近在看这篇文章，翻译出来略作整理，本人能力有限，翻译不足之处还请谅解

摘要

近年来，在图像分类、目标检测、目标分析和人脸校正等诸多领域，卷积神经网络（CNNs）都取得了巨大的成功。通过百万级甚至十亿级的参数，CNN模型在处理数量巨大的训练数据时显示出强大的能力。然而，由于模型存储方面的巨大代价，这些模型严重不足，这也限制了此类模型在一些内存有限的平台上的应用，如手机、嵌入式设备等。在本文中，我们的目标是在不损失分辨率的前提下尽可能地压缩CNN模型。主要想法是对输出重构误差进行明确地建模，然后最小化误差找到一个令人满意的率失真，该误差是原始数据与压缩的CNN之间的误差。于是，我们提出了全局重构误差算法（简称GER），首次以分层的方式改进了基于奇异值分解的低秩逼近算法，此算法对全连接层进行了粗糙的压缩。接下来，这种分层初始化的压缩值通过后向传播的方法从全局的角度进行优化。本文提出的GER算法针对两个广泛采用的卷积神经网络AlexNet和VGGNet-19，在ILSVRC2012图像分类数据集上进行了评估。与目前效果最好的其他几个CNN压缩算法相比，本文提出的算法在以上两个网络上均取得了最好的率失真。
1.引言
近年来，卷积神经网络在计算机视觉领域已经展现了引人注目的成绩。例如，图像分类[A. Krizhevsky and Hinton, 2012; Y. Lecun and Haffner, 1998; Simonyan and Zisserman, 2014; C. Szegedy and Rabinovich, 2015; Zeiler and Fergus, 2014; Y. Jia and Darrell, 2014; K. He and Sun, 2015]，目标检测[R. Girshick and Malik, 2014; K. He and Sun, 2014]，以及图像重建[Y. Gong and Lazebnik, 2014]. 虽然神经网络的研究在学术界已经有着很长一段历史[Fukushima,1980]，CNNs的巨大成功还是主要取决于当下先进的计算资源。例如，训练一个像AlexNet[A. Krizhevsky and Hinton, 2012]或VGGNet[Simonyan and Zisserman, 2014] 一样的判别式CNN模型，一般都需要上亿个参数，然后通过大量的带标签或者没有标签的数据利用近似优化算法（如随机梯度下降算法）进行微调，这主要是在GPU或分布式环境[J. Deng and Li, 2009]下进行的。类似的，CNNs的多种营养杯引入到学术界，像AlexNet [A. Krizhevsky and Hinton, 2012], VGGNet[Simonyan and Zisserman, 2014], GoogleNet [C. Szegedy and Rabinovich, 2015]等。即使是在像ImageNet ILSVRC[J. Deng and Li, 2009]类似的挑战任务中，所提交的性能最好的结果，其CNNs的存储代价也是很大的，也是要求很大数量的参数（大约10^8），[A. Krizhevsky and Hinton, 2012;Zeiler and Fergus, 2014; P. Sermanet and LeCun, 2013]。举个例子，一个8层的AlexNet网络包含600,000个节点，需要240MB的存储空间，然而一个19层的VGGNet则包含1.5M个节点，需要548MB的内存。在这种环境下，现存在CNNs不能直接应用在要求紧凑内存的手机或嵌入式设备上。与此相反的，有研究表示拥有百万级别参数的CNNs易于出现严重的过参数化[M. Denil and Freitas, 2013]。因此，在训练一个判别式CNN时并不是所有的参数和结构都是必须的，另一方面，在[Ba and Caruana, 2014]的研究中表明，浅层的或者简化的CNNs所产生的效果与拥有百万级别参数的深度CNNs根本没法相比。因此，一个自然的想法是在不降低分类精确度的情况下发现并且抛弃深度CNNs中多余的参数。
CNNs的压缩最近已经吸引了一部分研究者的注意，这些研究者又可以进一步分为3类：参数共享、参数修剪和矩阵分解。关于参数分享，Gong等人[Y. Gong and Bourdev, 2014]通过在参数上进行矢量量化来减少参数空间的冗余。Chen等人[W. Chen and Chen, 2015]提出了HashenNet模型，该模型使用一个低消耗的hash函数将相连接的两层的权重聚集到一个hash buckets中达到共享参数的目的。Cheng等人 [Y. Chengand Chang, 2015]提出在全连接层使用循环行列式预测代替原来的线性卷积预测，这减少了存储消耗并且可以利用快速傅里叶变换（FFT）来加速计算。关于参数修剪，Srinivas和Babu [Srinivas and Babu, 2015]探索减少了减少神经元的个数，并且提出了一种“数据自由”的修剪算法来移除多余的神经元。Han等人[S. Han and Dally, 2015]旨在减少整个网络参数和操作的总数。以上两种修剪算法从参数数量和计算量两方面进行了很大的削减。关于矩阵分解，Denil等人[M. Denil and Freitas, 2013]采用低秩分解方法以逐层的方式来压缩全连接层的权重。Novikov等人[A. Novikov and Vetrov, 2015]将稠密的全连接层权重矩阵转化为Tensor Train形式，以便于很大程度上减少参数的数目，同时保留层的表达能力。
然而，目前最好的方法[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014; Srinivas and Babu,2015]仍旧依赖于分层的参数压缩，这无法提供一个明确的模型来衡量分类精度整体的损失。换句话说，这些工作可以看成对CNNs的分层、内隐、局部的压缩。从“内隐”压缩的角度，现有的工作都是只考虑通过最小化欧氏距离

来逼近全连接层的参数W以求得W ̃。这种设置确实还存在很多问题，无法直接恢复用于分类的CNNs的输出（即学习到的特征）。从“局部”压缩的角度，一个更好的解决方案是以全局的方式保留分类精度，对整个全连接层压缩所有的参数。同时，内部层权重的相关性被忽略[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014;Srinivas and Babu, 2015]。特别地，由于非线性激活函数（如sigmoid.tahn[Y. LeCun and Muller, 2012],或者线性校正单元（ReLU）[Nair and Hinton, 2010]），网络中每一层W和W ̃小的量化误差可能被放大和传播，导致大的产生式误差，这一点在我们的实验中有所体现。

本文中，我们提出了一个新的“确定的”、“全局的”压缩CNNs框架，结构如图1所示：

我们核心的创新点在于引入了全局误差重构算法，该算法可以对原始输入的输出与压缩CNNs的输出之间的重构误差进行建模。以这种方式，隐含层和交互层之间的权重参数也被联合压缩。同时，我们没有对原始数据与层间近似参数的重构误差进行最小化，GER直接建立一个目标函数来恢复CNNs的输出，也包括全连接层的非线性激活函数的影响。

在实际应用中，我们通过基于SVD的低秩分解来对全连接层的权重进行初始化压缩，从可跟踪的角度这样能够放宽约束条件。接下来，像分层及粗压缩会通过后向传播最小化全局误差来进一步在层间联合优化，该优化方法使用随机梯度下降算法很好地解决了非凸优化问题。

本文提出的算法采用AlexNet和VGGNet-19两个被广泛采用的CNNs在ILSVRC2012图像分类库上进行评估。试验证明与其他目前最好的CNN压缩方法[M. Denil and Freitas,
2013; Y. Gong and Bourdev, 2014; X. Zhang and Sun, 2015].相比，本文提出的GER压缩方案在率失真方面表现最好。本文的主要贡献主要在一下三方面：

l 引入明确的目标函数来直接最小化网络压缩前后的重构误差，而现存的其他方法都没有直接最小化原始数据和压缩参数的差值。

l 在网络压缩的过程中我们对隐含层之间的链接进行全局建模，能够解决分层计算存在压缩误差的问题。

l 引入一种有效的优化方法解决相应的非凸优化问题，第一次使用基于SVD的低秩分解放宽约束条件，使用随机梯度下降学习最优化参数。.

2.基于低秩分解的CNN初始化压缩

2.1预备知识

我们定义一个特征矩阵作为输入来压缩一个全连接CNN，这里d是特征向量的维数，n是特征向量的个数（在初始的CNN网络AlexNet中可以是上一个卷基层的输出），压缩的全连接CNN前向传播的第l层可以表示为：

此处是权重矩阵的元素，向量代表传输函数f(`)前后的激活单元。一般地，f(.)是非线性变换，例如，线性校正单元（ReLU）、sigmoid、tanh等。

2.2 线性响应的分层低秩近似

首先考虑l层和l+1 层之间初始权重的低秩近似。为了找到一个近似的低秩子空间，我们最小化神经元响应的重构误差：

此处，，对于同一个输入信号X，两个线性变换的误差可以改写为

通过SVD求解公式3，，其中、是对应于U和V前k个奇异向量的子矩阵，的对角元素是相应的S的k个最大奇异值，通过在W上运行SVD，S是一个对角矩阵。接下来，我们得到的分解值，此处，，。

2.3 拓展至非线性响应
对于CNN中更常出现的非线性传输，近似矩阵的结果不等于原来的值。因此，在设计参数矩阵W的低秩近似时，非线性传输应该被考虑在内。以ReLU为例，ReLU定义为f(.)=max(.,0)，为了最小化ReLU响应的重构误差，我们有：

此处，第一项是第l层的非近似输入（l-1层的输出），第二项是近似的l层输入。公式4的求解能够通过一个交互的求解程序来逐层优化。为了更清楚地说明，我们反向考虑这种逐层优化：以公式4为例，在优化中我们将固定为常数，记为，用代替。然后公式4中每一层的优化可以改写为：

不幸的是，由于非线性参数的存在及低秩的限制，公式5也难以求解。为了得到一个可行的解决方法，我们将公式5放宽到：

此处，λ是惩罚参数，是与相同尺寸的一系列附加值。如果λ--->∞，公式6的结果将收敛于公式5的结果。为了求解公式6 ，我们进一步应用交互的求解程序，该程序固定，求解近似值，反之亦然。优化的具体细节如下：
交互步骤I：固定更新

我们将公式7改写为秩回归问题

此处，是Frobenius范数。令，公式8可以通过GSVD求解。
1.GSVD将分解为
2.公式8中可以由给出，此处、是U、V的前k列，是S的前k个奇异值
3.得到分解值，这里，

交互步骤 II：固定更新
向量中的每一个元素都是彼此独立。我们将公式6 重写为 1-D 优化过程：

此处，是的第j个输入。由于ReLU的限制，我们分别考虑和两种情况，然后我们得到公式9的结果。

注意：公式9中，如果，，其他。我们采用梯度下降解决上述1-D、非线性最小方差问题。
上述的交互式优化在Algorithm I 中进一步说明。

此处，是的第j个输入。由于ReLU的限制，我们分别考虑和两种情况，然后我们得到公式9的结果。

注意：公式9中，如果 < ，，其他。我们采用梯度下降解决上述1-D、非线性最小方差问题。
上述的交互式优化在Algorithm I 中进一步说明。

的初始值根据公式3的现象情况给出，理论上讲，λ应逐步增大到无穷，然而，如果λ太大，交互求解程序很难有效。为了执行更多的交互次数，折中方案是我们首先增加λ至1，接下来在得到收敛之后的结果，此值作为所有全连接层压缩的初始值。
3.通过全局误差重构进行层间压缩
以自下而上的方式，使用低秩分解得到的CNN初始压缩粗略近似于每一层的。正如上述讨论的，压缩误差会逐层累加，导致输出层产生大的总误差。为了解决这个问题，本文提出的全局误差重构（GER）旨在在各层间进行联合优化，如图2所示

特别地，如果原始的CNN模型有m个全连接层，我们最小化非线性响应的全局结构误差的方法如下：

这里，是输出的非近似，包含隐含层的m-1个权重，如下：

为了找到可能的几等，我们使用公式 4 的结果来放宽公式 12 的约束条件，令作为的相应矩阵。公式 12 可以被改写为

这里， l = 0,1，···m-1，可以写为：

公式 15 中，和是通过求解公式 4 得到的 W 的近似分解。为了学习参数和，在后向传播中采用了随机梯度下降算法，这需要计算目标函数与所有权重的梯度。因此，公式 14 中代价函数的误差信号通过下式得到

此处，，得到之后，我们计算目标函数与参数之间的两个梯度：

此处， l = m-1,m-2,···， 0·。注意：随机梯度下降算法能降低计算误差。 Algorithm 2 GER 优化算法的具体细节。

4.实验结果

为了评估GER 的性能，我们在ILSVRC2012图像分类数据集上进行了综合实验。我，将GER应用在两个被广泛应用的CNNs网络AlexNet和VGGNet-19，将其结果与最近提出的效果最好的算法[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014; X. Zhangand Sun, 2015]相比较。

4.1 实验设置

数据集。

我们在ILSVRC图像分类数据集上基于CNN压缩对GER进行测试。数据集包含来自1000类的超过1,000,000训练数据，还包含50,000张验证图像，其中每一类包含50张图像，我们从训练样本中随机选取100,000张图像（每一类100张）用于训练，并且在验证样本上进行测试。

实施细节

我们在AlexNet和VGGNet-19网络上应用GER。VGGNet-19包含16个卷基层和3个全连接层，AlexNet包含5个卷基层和3个全连接层。压缩网络使用Caffee训练，电脑配置为NVIDIAGTX TITAN X、12G显卡。学习率初始值0.01，每训练10次减半；权重衰减设为0.0005，动量设置为0.9。

基准

我们将GER与最近提出的4中效果最好的方法进行比较，包括基于PQ的压缩（PQ）[Y. Gong and Bourdev,2014]，低秩分解（LRD）[M. Denil andFreitas,2013]，通过交互求解程序的分层优化（AS）[X. Zhang and Sun, 2015]，二值压缩（BIN）[Y. Gong andBourdev, 2014]。至于可替代方法，我们比较了GER与GER-IC，两者的不同在于在第二部分（仅仅是在该部分，其他部分相同）后者是基于SVD来初始化压缩的。

评估报告

验证样本的分类误差被用作评估报告。我们使用top-1分类误差和top-5分类误差来评估不同的压缩方法，然后我们从率失真的角度评价压缩性能，这反应了压缩率和分类误差平衡。

率失真比较

我们采用2^5~2^10之间不同的阶次k来实现不同的压缩率。对PQ，我们固定中心的数目为256（8位），然后变化分割的维度s=1,2,4,8. 对于LRD和通过交互求解程序的分层优化这两种方法，我们采用与GER相同的压缩标准，k的变化范围是2^5~2^10. 对于BIN，由于没有参数可以调节，压缩率固定为32.

top-1和top-5分类错误如图3所示，该图表明了在率失真上一致的趋势。

在内部层近似方面，GER-IC实现了与LRD相似的分类误差。然而，通过以全局的方式明确地建模重构误差，在压缩全连接层时，GER的表现要好于LRD和AS。进一步解释，GER得益于它的“确定的”压缩，这有效地组合了初始的分层压缩和层间全局压缩，然而，LRD和AS是不确定的压缩，它只考虑了局部的内部层关系。注意，PQ取得了比LRD和AS更好的性能。然而，据图3所示，PQ难以取得高的压缩率，这可能是由于有限的编码字典尺寸。相反的，与其他基准相比，GER取得了最好的率失真。最后，正如Gong等人发现的[Y. Gong and Bourdev, 2014]，再将压缩率固定为32时，最简单的二值压缩取得了良好的效果。当对数据进行剧烈压缩时，基本的二值量化也是一个很好的选择。然而，当我们想控制压缩率时，这种方法就很难被采用，反过来这也是我们方法的关键优势。表1中固定压缩率时的分类误差表明，与其他基准相比，GER仍取得了最佳效果，特别是对于VGGNet-19。

单层误差

我们固定初始的未压缩版本的其它层来分析压缩每一层的分类误差。结果如图4所示

我们发现，使用所有的基准压缩前两层卷基层（FC6和FC7）都不会降低准确率。相反，对所有基准除了GER，压缩最后一个卷基层时都会导致巨大的分类误差。这种优势是因为GER能对所有层间通过调节和微调自动调整内部层误差。

5.总结

本文中，我们提出通过一个新的全局误差重构方法压缩卷积神经网络来减少模型的存储，这使得在手机、嵌入式等内存有限的设备中应用卷积神经网络成为可能。GER首先使用基于SVD的低秩分解近似类来粗略压缩全连接层的参数。这种分层初始化压缩在后向传播中以全局的方式被在层间进一步联合优化。之前的方法只是考虑恢复内部权重参数，与此不同，GER还对原始输出与压缩CNNs输出之间的重构误差进行明确建模，这极大地减少了由非线性激活造成的累积误差。通过与最近的CNN压缩方法相比，已经证明本文提出的GER方法能取得最好的率失真效果。接下来的工作，我们应该将该方法从全连接层扩展至卷基层，同时，进一步加速卷基层的计算。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
python——struct模块稚与 Python python 数据分析
文章目录structmodule简介常用函数常见format解析MINSTstructmodule最近在学CNN，想找一个合适的数据集，就想到了MINST。但是官网中挂出的文件是train-images-idx3-ubyte.gz等解压后为idx3-ubyte后缀文件。后缀名中idx3表示3维的数据。简介struct模块用于二进制和常用数据类型之间的互相转化，此模块中大部分函数接受一个实现了Buf
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
中药细粒度图像分类小lo想吃棒棒糖分类数据挖掘人工智能
在细粒度图像分类（FGVC）领域，BilinearCNN（BCNN）模型因其能够捕捉图像中的局部特征交互而受到广泛关注。该模型通过双线性池化操作将两个不同CNN提取的特征进行外积运算，从而获得更加丰富的特征表示，这对于区分外观相似但属于不同子类别的物体尤其有效。然而，BCNN通常计算成本较高，限制了其在移动设备或资源受限环境下的应用。为了实现轻量化并保持高精度的细粒度分类，可以考虑将MobileN
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
大模型卷积神经网络（CNN）的架构原理 hao_wujing cnn 架构人工智能
大家读完觉得有帮助记得关注和点赞！！！一、卷积神经网络（CNN）的核心原理与架构CNN是一种专为结构化数据（如图像、文本）设计的深度学习模型，其核心在于层次化特征提取与参数高效共享，使其成为大模型中视觉和多模态任务的基础组件。1.核心结构分层解析输入层接收预处理后的数据（如图像去均值、归一化），为后续卷积操作提供标准化输入39。卷积层（核心）局部感知：每个卷积核（如3×3）仅处理输入数据的局部区域
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型人工智能自然语言处理算法均值算法 prompt
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？核心技术原理1.跨模态对齐：让图像与文本说同一种语言向量空间统一：图像通过CNN或ViT编码为特征向量（如512维），文本通过Transformer编码为语义向量（如768维）。CLIP等模型通过对比学习优化编码
PyTorch+CNN进行猫狗识别项目
任务介绍数据结构为：big_data├──train│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog│└──XXX.jpg（每个文件夹含若干张图像）├──val│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog└─────└──XXX.jpg（每个文件夹含若干张图像）需要对train数据集进行训练，达到给定val数据集中的一张猫/狗的图片，识别
MATLAB 实现 SRCNN 图像超分辨率重建 leo__520 matlab 超分辨率重建开发语言
SRCNN代码实现。该代码使用三层卷积神经网络，进行图像的超分辨率重建，效果比双三次插值好很多SRCNN/Readme.txt,1494SRCNN/SRCNN.m,1267SRCNN/Set14/baboon.bmp,720054SRCNN/Set14/barbara.bmp,1244214SRCNN/Set14/bridge.bmp,263222SRCNN/Set14/coastguard.bm
视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用
原文链接：https://tecdat.cn/?p=42891原文出处：拓端数据部落公众号分析师：ZiqiYe视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用作为数据科学领域的从业者，我们常面临这样的挑战：如何让机器真正“看懂”图像中的信息？在为客户完成服装零售行业的图像识别时，这一问题尤为突出。追溯图像识别技术的发展，早期依赖人工设计特征，如边缘检测、纹理分析等，效率低下且适
Python实现基于POA-CNN-LSTM-Attention鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行多变量回归预测的详细项目实例 nantangyuxi Python 算法神经网络 python 人工智能深度学习目标检测机器学习
目录Python实她基她POA-CNN-LSTM-Attentikon鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行她变量回归预测她详细项目实例...1项目背景介绍...1项目目标她意义...1提升她变量回归预测精度...2优化模型训练效率...2python复制ikmpoxtos#操作系统接口，用她环境管理和文件操作ikmpoxtqaxnikngs#警告管理模块，控制运行时警
Python训练打卡Day46 编程有点难 Python学习笔记 python 开发语言
通道注意力(SE注意力)知识点回顾：不同CNN层的特征图：不同通道的特征图什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。通道注意力：模型的定义和插入的位置通道注意力后的特征图和热力图注意力机制：一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
文末含资料链接！YOLOv11性能飞跃：深度融合iRMB注意力机制，实战教程助你突破检测极限！博导ai君深度学习教学-附源码 YOLO
文章目录1.介绍：揭秘iRMB——轻量化与高性能的完美融合1.1摘要：洞察iRMB的设计哲学与卓越表现1.2简单描述：深入剖析iRMB的构造与工作原理核心灵感：CNN与Transformer的珠联璧合iRMB的核心结构：短距离与长距离的协同设计理念：实用、统一、有效、高效1.3模块结构：iRMB的内部构造图（概念描述）2.代码解析：逐行揭秘iRMB的魔法2.1`LayerNorm2d`：为2D数据
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
典型的几种神经网络 Victor Zhong AI 框架神经网络人工智能深度学习
骨干网络CNN(卷积神经网络)RNN(循环神经网络)三级目录CNN(卷积神经网络)包括输入层、隐藏层、输出层：输入层一般为一张图片（w,h,d）,输入层数据一般要做归一化处理;隐藏层包含特有的卷积层（卷积核有权重系数）、池化层（没有权重系数）、全连接层，还有残差块？和Inception模块？。；输出层：RNN(循环神经网络)单向的RNN示意图：三级目录
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

基于全局误差重构的深度卷积神经网络压缩方法

你可能感兴趣的:(CNN)