樱花的浪漫

论文精读：SPPnet:Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition

1.提出背景

现有的深度卷积神经网络(CNN)需要一个固定大小的（例如，224×224）的输入图像。这一要求是“人工的”，可能会降低对任意大小/尺度的图像或子图像的识别精度。

2.做了什么

作者为网络配备了另一种池化策略，“空间金字塔池化”，以消除上述需求。新的网络结构，称为SPP-net，可以生成一个固定长度的表示，而不管图像的大小/规模。金字塔池对对象变形也具有鲁棒性。有了这些优点，SPP-net一般应该改进所有基于cnn的图像分类方法。

3.主要内容

3.1 Abstract

现有的深度卷积神经网络(CNNs)需要一个固定大小的（例如，224×224）的输入图像。这一要求是“人工的”，可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中，我们为网络配备了另一种池策略，“空间金字塔池”，以消除上述需求。新的网络结构，称为SPP-net，可以生成一个固定长度的表示，而不管图像的大小/规模。金字塔池对对象变形也具有鲁棒性。有了这些优点，SPP-net一般应该改进所有基于cnn的图像分类方法。在ImageNet2012数据集上，我们证明了SPP-net提高了各种CNN架构的准确性，尽管它们的设计不同。在PascalVOC2007和Caltech101 数据集上，SPP-net使用单一的全图像表示和不进行微调，实现了最先进的分类结果。

SPP-net的能力在目标检测中也很重要。使用SPP-net，我们只从整个图像中计算一次特征映射，然后将特征集中在任意区域（子图像）中，生成固定长度的表示来训练检测器。该方法避免了重复计算卷积特征。在处理测试图像时，我们的方法比R-CNN方法快24-102倍，同时在PascalVOC2007上获得了更好或相当的精度。在2014年ImageNet大规模视觉识别挑战(ILSVRC)中，我们的方法在所有38个团队中在目标检测中排名2，在图像分类中排名3。本文还介绍了对这次比赛的改进。

1 INTRODUCTION

我们正在目睹我们的视觉社区的一个快速的、革命性的变化，主要是由深度卷积神经网络(CNN)[1]和大规模训练数据[2]的可用性引起的。基于深度网络的方法最近大大改进了图像分类目标检测，的许多其他识别任务，甚至非识别任务。然而，在cnn的训练和测试中存在一个技术问题：普遍的cnn需要一个固定的输入图像大小（例如，224×224），这限制了高宽比和输入图像的比例。当应用于任意大小的图像时，当前的方法大多将输入的图像匹配到固定的大小，要么通过裁剪，要么通过扭曲，如图1（上）所示。但是，裁剪后的区域可能不包含整个对象，而扭曲的内容可能会导致不必要的几何失真。由于内容丢失或失真，可能会影响识别精度。此外，当对象尺度变化时，预定义的尺度可能不合适。固定输入大小忽略了涉及比例的问题。

那么，为什么cnn需要一个固定的输入大小呢？CNN主要由两部分组成：卷积层和后面的全连接层。卷积层以滑动窗口的方式运行，输出的特征映射表示激活的空间排列（图2）。事实上，卷积层并不需要固定的图像大小，并且可以生成任何大小的特征映射。另一方面，完全连接的层需要根据其定义有固定的大小/长度的输入。因此，固定大小的约束只来自于全连接的层，它们存在于网络的更深的阶段。

在本文中，我们引入了一个空间金字塔池化(SPP)[14]，[15]层来消除网络的固定大小约束。具体来说，我们在最后一个卷积层的顶部添加了一个SPP层。SPP层将特征池化并生成固定长度的输出，然后将这些输出输入到完全连接的层（或其他分类器）中。换句话说，我们在网络层次结构的更深层次阶段（在卷积层和全连接层之间）执行一些信息“聚合”，以避免在开始时进行裁剪或扭曲的需要。图1（底部）显示了通过引入SPP层而实现的网络体系结构的变化。我们称新的网络结构为SPP-net。

空间金字塔池(俗称空间金字塔匹配或SPM[15])，作为Bag-of-Words(BoW)模型[16]的扩展，是计算机视觉中最成功的方法之一。它将图像划分为从更精细到更粗的级别，并在其中聚合局部特征。在最近cnn流行之前，SPP一直是分类（如[17]、[18]、[19]）和检测（如[20]）的领先和竞争获胜系统的关键组成部分。然而，SPP尚未在cnn中被考虑。我们注意到，SPP对于深度cnn有几个显著的特性：1)SPP能够无论输入大小如何输出固定长度，而之前的深度网络中使用的滑动窗口池[3]不能；2)SPP使用多级空间箱，而滑动窗口池只使用单一窗口大小。多层池化已被证明对对象变形具有鲁棒性[15]；3)由于输入尺度的灵活性，SPP可以汇集在可变尺度上提取的特征。实验结果表明，所有这些因素都提高了深度网络的识别精度。

SPP-net不仅可以从任意大小的图像/窗口中生成表示以用于测试，而且还允许我们在训练过程中提供不同大小或比例的图像。使用可变大小的图像进行训练，增加了尺度不变性，减少了过拟合。我们开发了一种简单的多尺寸训练方法。对于单个网络接受可变的输入大小，我们通过使用共享所有参数的多个网络来近似它，而每个网络都使用固定的输入大小进行训练。在每个epoch，我们用给定的输入大小训练网络，并在下一个epoch切换到另一个输入大小。实验表明，这种多尺寸训练与传统的单尺寸训练一样收敛，具有更好的测试精度。

SPP的优点是与特定的CNN设计相正交的。在ImageNet2012数据集上的一系列控制实验中，我们证明了SPP在现有出版物[3]、[4]、[5]（或它们的修改）中改进了四种不同的CNN架构，而不是非SPP。这些架构具有不同的过滤器数/大小、步幅、深度或其他设计。因此，我们有理由推测SPP应该改进更复杂的（更深的和更大的）卷积架构。SPP-net还显示了Caltech101和PascalVOC2007[22]的最先进的分类结果，只使用一个全图像表示，没有微调。

SPP-net在目标检测方面也表现出了很大的强度。在领先的目标检测方法R-CNN[7]中，通过深度卷积网络从候选窗口中提取特征。该方法在VOC和ImageNet数据集上均具有显著的检测精度。但是RCNN中的特征计算是耗时的，因为它反复地将深度卷积网络应用于每幅图像的数千个扭曲区域的原始像素。在本文中，我们证明了我们只能在整个图像上运行一次卷积层（不管窗口数是多少），然后通过SPP-net在特征映射上提取特征。这种方法比R-CNN加速了100多倍。请注意，在特征地图（而不是图像区域）上训练/运行一个检测器实际上是一个更流行的想法，[23]，[24]，[20]，[5]。但SPP-net继承了深度CNN特征图的力量，也继承了SPP对任意窗口大小的灵活性，从而产生了突出的精度和效率。在我们的实验中，基于spp-net的系统(建立在R-CNN管道上)比R-CNN快24-102×，同时具有更好或相当的精度。使用最近的edgeboxes[25]的快速建议方法，我们的系统处理一个图像需要0.5秒（包括所有步骤）。这使得我们的方法适合于实际应用。

本手稿的初步版本已在ECCV2014年版上发表。基于这项工作，我们参加了ILSVRC2014[26]的比赛，在所有38个团队中，在目标检测中排名2，在图像分类中排名3（都只提供数据轨迹）。对ILSVRC2014做了一些修改。我们证明了spp网可以促进各种更深、更大的网络(秒。3.1.2-3.1.4)超过非spp同行。此外，在我们的检测框架的驱动下，我们发现在具有灵活定位/大小的窗口的特征图上的多视图测试(秒。3.1.5)可以提高分类精度。本手稿还提供了这些修改的细节。我们已经发布了该代码，以促进未来的研究，(http://research.microsoft.com/en-us/um/people/kahe/).

2 DEEP NETWORKS WITH SPATIAL PYRAMID POOLING

2.1 Convolutional Layers and Feature Maps

考虑一下流行的七层架构[3]，[4]。前五层是卷积的，其中一些之后是池化层。这些池化层也可以被认为是“卷积”，因为它们使用的是滑动窗口。最后两层是完全连接，以一个N-way softmax作为输出，其中N为类别数。

上述的深度网络需要一个固定的图像大小。然而，我们注意到，对固定大小的要求只是由于完全连接的层需要固定长度的向量作为输入。另一方面，卷积层接受任意大小的输入。卷积层使用滑动滤波器，其输出与输入值的高宽比大致相同。这些输出被称为特征图[1]——它们不仅涉及响应的强度，而且还涉及它们的空间位置。

在图2中，我们可视化了一些特征映射。它们是由conv5层的一些过滤器生成的。图2(c)显示了ImageNet数据集中这些过滤器的最强激活图像。我们看到一个过滤器可以被一些语义内容激活。例如，第55个过滤器（图2，左下角）被圆形激活最多；第66个过滤器（图2，右上角）被∧形激活最多；而第118个过滤器（图2，右下角）最容易被∨形激活。输入图像中的这些形状(图2(a))激活了相应位置的特征图（图2中的箭头）。

值得注意的是，我们在图2中生成了特征图，而没有固定输入大小。这些由深度卷积层生成的特征映射类似于传统方法[27]，[28]中的特征映射。在这些方法中，密集提取SIFT向量[29]或图像patch[28]，然后进行编码，如通过向量量化[16]、[15]、[30]、稀疏编码[17]、[18]或Fisher核[19]进行编码。这些编码的特征由特征地图组成，然后由Bag-of-Words(BoW)[16]或空间金字塔[14]，[15]合并。类似地，深度卷积特征也可以以类似的方式进行合并

2.2 The Spatial Pyramid Pooling Layer

卷积层接受任意的输入大小，但它们产生可变大小的输出。类标识符(SVM/softmax)或全连接层需要固定长度的向量。这样的向量可以由Bag-of-Words(BoW)方法[16]生成，该方法将这些特征组合在一起。空间金字塔池化[14]，[15]改进了BoW，因为它可以通过在局部box中池化来维护空间信息。这些box的大小与图像大小成正比，所以无论图像大小如何，box的数量都是固定的。这与之前的深度网络[3]的滑动窗口池相反，其中滑动窗口的数量取决于输入的大小。

为了对任意大小的图像采用深度网络，我们将最后一个池化层（如池化层5，在最后一个卷积层之后）替换为空间金字塔池化层。图3说明了我们的方法。在每个box中，我们汇集了每个过滤器的响应（在本文中，我们使用最大池化）。空间金字塔池的输出为kMviamed向量，box数表示为M(k为最后一个卷积层的滤波器数)。固定维向量是全连通层的输入。

使用空间金字塔池化，输入图像可以是任何大小的。这不仅允许任意的高宽比，而且还允许任意的比例。我们可以将输入图像的大小调整到任何尺度(例如，最小值(w，h)=180,224，……)，并应用相同的深度网络。当输入图像处于不同的尺度时，网络（具有相同的过滤器大小）将提取不同尺度的特征。尺度在传统方法中起着重要的作用，例如，SIFT向量通常在多个尺度[29]、[27]（由斑块和高斯滤波器的大小决定）。我们将证明，这些尺度对深度网络的准确性也很重要。

有趣的是，最粗的金字塔层有一个覆盖整个图像的box。这实际上是一个“全局池化”操作，它也在几个并发工作中进行了研究。在[31]中，[32]使用全局平均化池来减小模型大小，也减少过拟合；在[33]中，在所有fc层后的测试阶段使用全局平均池来提高精度；在[34]中，全局最大池化用于弱监督对象识别。全局池化操作对应于传统的词包方法。

2.3 Training the Network

理论上，无论输入图像的大小如何，都可以采用标准的反传播[1]来训练上述网络结构。但在实践中，GPU实现(如cuda-convnet [3]和Caffe[35])最好是在固定的输入图像上运行。接下来，我们描述我们的训练解决方案，它利用这些GPU实现，同时仍然保留空间金字塔池行为。

Single-size training ：与之前的工作一样，我们首先考虑一个从图像中裁剪出的固定大小的输入（224×224）的网络。进行裁剪的目的是为了增加数据。对于具有给定大小的图像，我们可以预先计算空间金字塔池所需的box大小。考虑conv5之后的a×a大小的特征映射（例如，13×13）。使用n×n个box的金字塔级别，我们将这个池级别实现为滑动窗口池，其中窗口大小为= $\left \lceil a/n \right \rceil$ ，步幅= $\left \lfloor a/n \right \rfloor$ ， $\left \lfloor \right \rfloor$ 和 $\left \lceil \right \rceil$ 表示向上取整和向下取整操作。对于一个l级的金字塔，我们实现了l个这样的层。下一个完全连接的图层(fc6)将连接到l个输出。图4显示了在[3]中的3级金字塔池（3×3,2×2,1×1）的一个示例配置。我们的单规模训练的主要目的是启用多级池化行为。实验表明，这是提高精度的原因之一

Multi-size training： 我们的SPP网络有望应用于任何大小的图像。为了解决训练中不同图像大小的问题，我们考虑了一组预定义的大小。我们考虑两种尺寸：180×180和224×224。我们没有种植一个较小的180×180区域，而是将上述224×224区域调整为180×180。所以在两个尺度上的区域只在分辨率上不同，而在内容/布局上没有不同。为了使网络接受180×180个输入，我们实现了另一个固定大小的输入（180×180）个网络。在这种情况下，conv5之后的特征图大小是一个a×a=10×10。然后我们仍然使用win= $\left \lceil a/n \right \rceil$ 和str= $\left \lfloor a/n \right \rfloor$ 来实现每个金字塔池级别。该180-网络的空间金字塔池化层的输出与224-网络的固定长度相同。因此，这个180-网络在每层中与224-网络具有完全相同的参数。换句话说，在训练过程中，我们通过两个共享参数的固定大小的网络来实现不同输入大小的spp网。

为了减少从一个网络（例如，224）切换到另一个网络（例如，180）的开销，我们在一个网络上训练每个完整的历元，然后在下一个完整的历元上切换到另一个网络（保持所有权值）。这是迭代。在实验中，我们发现这种多尺寸训练的收敛速度与上述单尺寸训练相似..

我们的多尺寸训练的主要目的是模拟不同的输入大小，同时仍然利用现有的良好优化的固定大小实现。除了上述的两尺度实现之外，我们还测试了一个使用s×s作为输入的变体，其中s是在每个时期从[180,224]中随机和均匀地采样的。我们在实验部分报告了这两种变体的结果。请注意，上述单尺寸/多尺寸的解决方案仅用于培训。在测试阶段，对任何大小的图像应用SPP-net。

3 SPP-NET FOR IMAGE CLASSIFICATION

3.1 Experiments on ImageNet 2012 Classifification

我们在ImageNet2012的1000类训练集上训练网络。我们的训练算法遵循了[3]，[4]，[36]之前的工作实践。调整图像的大小，使较小的尺寸为256，并从整个图像1的中心或四个角中选择224×224裁剪。这些数据通过水平翻转和颜色改变的[3]来增强。Dropout[3]用于这两个完全连接的层。学习率从0.01开始，当误差趋于稳定时除以10（两次）。我们的实现是基于公开的[3][3]和Caffe[35]代码。本文中的所有网络都可以在2到四周内在一个GeForceGTXTitanGPU(6GB内存)上进行训练。

3.1.1 Baseline Network Architectures

SPP的优点与所使用的卷积网络架构无关。我们在现有的出版物[3]、[4]、[5]（或它们的修改）中研究了四种不同的网络架构，我们发现SPP提高了所有这些架构的准确性。这些基线架构如表1所示，下面简要介绍：

ZF-5：该架构是基于Zeiler和Fergus’s (ZF)的(ZF)“fast”（small）模型[4]。这个数字表示五个卷积层。
Convnet*-5：这是对Krizhevsky等人的修改。网络[3]。我们将这两个池化层放在conv2和conv3之后(而不是放在conv1和conv2之后)。因此，每一层之后的特征图的大小与ZF-5相同。
Overfeat-5/7:：该架构基于•论文[5]，并对[6]进行了一些修改。与ZF-5/Convnet*-5相比，这种架构在最后一个池化层之前生成了一个更大的特征图（18×18，而不是13×13）。在conv3和以下的卷积层中使用了一个更大的滤波器数（512）。我们还研究了一个具有7个卷积层的更深层次的结构，其中conv3到conv7具有相同的结构。

在基线模型中，最后一个卷积层之后的池化层生成6×6个特征映射，其中有两个4096-dfc层和一个1000路的softmax层。我们对这些基线网络的复制情况见表2(a).我们为ZF-5训练了70个epoch，为其他训练了90个。我们对ZF-5的复制比在[4]中报道的更好。这是因为角落作物来自整个图像，正如[36]中也报道的那样。

3.1.2 Multi-level Pooling Improves Accuracy

在表2(b)中，我们展示了使用单次训练的结果。培训和测试规模均为224×224。在这些网络中，卷积层与相应的基线模型具有相同的结构，而最终卷积层之后的池化层被SPP层所取代。对于表2中的结果，我们使用了一个4级的金字塔。金字塔是{6×6,3×3,2×2,1×1}（总共50个box）。为了公平比较，我们仍然使用标准的10视图预测，每个视图为224×224。我们在表2(b)中的结果显示，比表2(a).中的无spp基线有相当大的改善有趣的是，前1个误差的最大增益（1.65%）是由最精确的架构给出的。由于我们仍然使用与(a)中相同的10个裁剪视图，这些收益仅仅是因为多级池。

值得注意的是，多级池化的增益并不仅仅是由于更多的参数；相反，这是因为多层次的池化对对象变形和空间布局[15]的方差具有鲁棒性。为了证明这一点，我们训练了另一个具有不同的4级金字塔的ZF-5网络：{4×4,3×3,2×2,1×1}（总共30个box）。这个网络的参数比无spp对应的网络少，因为它的fc6层有30×256-d输入，而不是36×256-d。该网络的top-1/top-5个错误是35.06/14.04。这个结果与上面的50 box金字塔（34.98/14.14）相似，但比无spp对应的金字塔（35.99/14.76）要好得多。

3.1.3 Multi-size Training Improves Accuracy

表2(c)显示了我们使用多尺寸训练的结果。培训规模分别是224和180，而测试规模仍然是224。我们仍然使用标准的10个视图预测。所有架构的top-1/top-5个错误进一步下降。SPP-net（Overfeat-7）下降到29.68%，比无SPP高2.33%，比单尺寸训练的高0.68%。

除了使用180和224的两个离散大小外，我们还使用从[180,224]中均匀抽样的随机大小进行了评估。SPP-net的top-1/top-5个误差是30.06%/10.96%。top-1的错误比两尺寸版本略差，可能是因为224（用于测试）的访问更少。但结果仍然比单一尺寸的版本更好。

以前有CNN解决方案[5]，[36]处理不同的规模/大小，但它们大多是基于测试。在Overfeat [5]和Howard的方法[36]中，在测试阶段在多个尺度上应用单一网络，并取分数的平均值。Howard进一步在低/高分辨率图像区域上训练两个不同的网络，并平均分数。据我们所知，我们的方法是第一个用多个大小的输入图像来训练单个网络的方法。

3.1.4 Full-image Representations Improve Accuracy

接下来，我们研究了全图像视图的准确性。我们调整图像的大小，使最小(w，h)=256，同时保持其高宽比。SPP-net应用于这个完整的图像来计算完整视图的分数。为了进行公平的比较，我们还评估了中心224×224作物（在上述评价中使用的）的单个视图的准确性。单视图测试精度的比较见表3。这里我们评估ZF-5/超过7。top1个错误率都通过全视图表示来降低。这显示了维护完整内容的重要性。尽管我们的网络只使用正方形图像进行训练，但它可以很好地推广到其他高宽比。

比较表2和表3，我们发现多个视图的组合明显优于单一的全图像视图。然而，极限表示仍然有良好的优点。首先，我们通过经验发现（在下一个小节中讨论），即使是几十个视图的组合，额外的两个完整图像视图（带有翻转）仍然可以提高约0.2%的精度。其次，全图像视图在方法上与传统的[15]、[17]、[19]方法一致，即将整个图像的编码SIFT向量合并在一起。第三，在其他应用中，如图像检索[37]，相似度排序需要图像表示，而不是分类评分。全图像表示。

3.1.5 Multi-view Testing on Feature Maps

受我们的检测算法（下一节描述）的启发，我们进一步提出了一种特征图的多视图测试方法。由于SPP的灵活性，我们可以很容易地从卷积特征图中提取任意大小的窗口（视图）中提取特征。

在测试阶段，我们调整一个图像的大小，使其为min(w，h)=s，其中s代表一个预定义的比例（如256）。然后，我们从整个图像中计算出卷积特征映射。对于翻转视图的使用，我们还计算了翻转图像的特征映射。给定图像中的任何视图（窗口），我们将这个窗口映射到特征映射（映射的方式在附录中），然后使用SPP将这个窗口中的特征池化（参见图5）。然后，将合并后的特性输入fc层，以计算该窗口的softmax分数。这些分数是最终预测的平均值。对于标准的10个视图，我们使用s=256，并且视图是在角落或中心上的224×224窗口。实验表明，特征图上10个视图预测的前5个误差在图像作物上原始10个视图预测的0.1%以内。

我们进一步应用该方法从多个尺度中提取多个视图。我们将图像的大小调整为6个尺度的s∈{224、256、300、360、448、560}，并计算每个尺度的整个图像上的特征图。我们使用224×224作为任何比例的视图大小，所以这些视图在不同比例的原始图像上有不同的相对大小。我们为每个比例使用18个视图：一个在中心，4个在角，4个在每一边的中间，有/没有翻转（当s=224有6个不同的视图）。这96个视图的组合将前5名的误差从10.95%减少到9.36%。结合两个富限视图（与翻转）进一步将前5名的误差降低到9.14%。

在[5]的论文中，视图也从卷积特征映射中提取，而不是图像作物。然而，它们的视图不能有任意大小；相反，窗口是那些合并特性与所需维度匹配的窗口。根据经验，这些受限制的窗口不如我们灵活定位/大小的窗口有益。

3.1.6 Summary and Results for ILSVRC 2014

在表4中，我们与以前最先进的方法进行了比较。Krizhevsky等人。他的[3]是2012年ILSVRC的获胜方法；Overfeat [5]，Howard[36]，Zeiler和Fergus[4]是2013年ILSVRC的领先方法。我们只考虑单个网络的性能来进行可管理的比较。

我们最好的单个网络在验证集上达到了9.14%的前5名错误。这正是我们提交给ILSVRC2014[26]的单模型条目。在测试集上的前5名错误为9.08%(ILSVRC2014与ILSVRC2012具有相同的训练/验证/测试数据)。在结合了11个模型后，我们团队的结果（8.06%）在参加2014年ILSVRC的所有38支团队中排名第三（表5）。由于SPPnet的优势通常应该独立于体系结构，我们期望它将进一步改进更深层次、更大的卷积体系结构[33]，[32]。

3.2 Experiments on VOC 2007 Classifification

我们的方法可以生成一个全视图的图像表示。利用上述网络在ImageNet上进行预训练，我们从目标数据集中的图像中提取这些表示形式，并重新训练SVM分类器[38]。在SVM训练中，我们有意不使用任何数据增强（翻转/多视图）。我们将其标准化为SVM训练的特征.PascalVOC2007[22]中的分类任务涉及20个类别中的9,963张图像。5011张图片用于训练，其余的则用于测试。通过平均精度(mAP)评估性能。表6总结了这些结果。

我们从表6(a).中的基线开始该模型为ZF-5，没有SPP。为了应用这个模型，我们调整了图像的大小，使其更小的维度为224，并裁剪了中心224×224区域。SVM是通过一个层的特征来训练的。在这个数据集上，图层越深，结果就越好。在表6(b)中，我们用SPP-net替换了无SPP网。作为第一步的比较，我们仍然将SPP-net应用于中心224×224作物。fc层的处理结果有所改善。这种收益主要是由于多级池化。

表6(c)显示了我们在完整图像上的结果，其中图像被调整大小，使较短的边为224。我们发现，结果有了显著的改善(78.39%vs.76.45%)。这是由于维护完整内容的完整图像表示。因为我们的网络的使用不依赖于规模，所以我们调整了图像的大小，使更小的维度为s，并使用相同的网络来提取特征。我们发现s=392基于验证集给出了最好的结果(表6(d))。这主要是因为在VOC2007中，对象占据的区域较小，而在ImageNet中占据的区域较大，所以两组对象的相对尺度不同。这些结果表明在分类任务中存在尺度问题，SPP-net可以部分解决这个“尺度不匹配”的问题。

在表6(e)中，网络架构被我们的最佳模型(Overfeat-7，多尺寸训练)所取代，mAP增加到82.44%。表8总结了我们的结果和与最先进的方法的比较。在这些方法中，VQ[15]、LCC[18]和FK[19]均基于空间金字塔匹配，[13]、[4]、[34]、[6]均基于深度网络。在这些结果中，Oquab等人（77.7%）和Chatfiell等人（82.42%）是通过网络微调和多视图测试得到的。我们的结果与先进的状态相比较，只使用单一的全图像表示，没有微调。

3.3 Experiments on Caltech101

Caltech101数据集[21]包含了102个类别中的9144张图像（一个背景）。我们对每个类别随机抽取30张图像进行训练，对每个类别随机抽取多达50张图像进行测试。我们重复10次随机分割，并平均精度。表7总结了我们的结果。

在PascalVOC2007和 Caltech101的结果中有一些常见的观察结果：SPP-net优于无-SPP净值(表7(b)vs.(a))，full表现优于crop((c)vs.(b))。但是Caltech101的结果与PascalVOC有一些不同。全连接层的精度较低，而SPP层则更好。这可能是因为Caltech101中的对象类别与ImageNet中的对象类别相关性较小，而更深的层次对类别更为专门化。此外，我们发现在该数据集上测试的224量表具有最好的性能。这主要是因为Caltech101中的物体也占据了图像的大部分区域，正如ImageNet的情况一样。

除了裁剪之外，我们还评估了扭曲的图像，以适应224×224的大小。这个解决方案保持了完整的内容，但也引入了失真。在SPP(ZF-5)模型上，使用SPP层作为特征的准确率为89.91%，低于在未失真的全图像上使用相同模型的91.44%。

4 SPP-NET FOR OBJECT DETECTION

深度网络已被用于目标检测。我们简要回顾了最近最先进的R-CNN方法[7]。R-CNN首先通过选择性搜索[20]从每张图像中提取大约2000个候选窗口。然后将每个窗口中的图像区域扭曲到一个固定的大小（227×227）。利用预先训练好的深度网络来提取每个窗口的特征。然后根据这些特征训练一个二进制SVM分类器进行检测。R-CNN产生的结果质量惊人，并且大大优于以前的方法。然而，由于R-CNN反复地将深度卷积网络应用于每幅图像约2000个窗口，因此这是非常耗时的。特征提取是测试中主要的时间瓶颈。

我们的spp-net也可以用于目标检测。我们只从整个图像中提取一次特征映射（可能是在多个尺度上）。然后，我们在特征映射的每个候选窗口上应用空间金字塔池，以池化该窗口的一个固定长度的表示（见图5）。因为耗时的卷积只应用一次，我们的方法可以运行得更快的数量级。

我们的方法从特征图的区域中提取窗口级特征，而R-CNN直接从图像区域中提取。在之前的工作中，可变形部分模型(DPM)[23]从HOG[24]特征图的窗口中提取特征，而选择性搜索(SS)方法[20]从编码的SIFT特征图的窗口中提取特征。过度壮举检测方法[5]也从深度卷积特征映射的窗口中提取，但需要预定义窗口的大小。相反，我们的方法可以从深度卷积特征映射的任意窗口中提取特征。

4.1 Detection Algorithm

我们使用选择性搜索[20]的“快速”模式，为每张图像生成大约2000个候选窗口。然后我们调整图像的大小，使min(w，h)=s，并从整个图像中提取特征映射。我们暂时使用ZF-5的SPP-net模型（单尺寸训练）。在每个候选窗口中，我们使用一个4级的空间金字塔（1×1,2×2,3×3,6×6，总共50个box）来汇集特征。这将为每个窗口生成12800d（256×50）表示。这些表示形式被提供给网络的全连接层。然后，我们针对这些特征训练一个二值线性SVM分类器。

我们实施的SVM培训遵循了[20]，[7]。我们使用地面真实窗口来生成正样本。负样本是那些与正窗口重叠最多30%的样本（通过交叉过联合(IoU)比率测量）。如果任何阴性样本与另一个阴性样本重叠超过70%，则被删除。我们应用标准的硬负向挖掘[23]来训练SVM。此步骤将被迭代一次。训练所有20个类别的支持向量机只需要不到1个小时。在测试中，分类器用于对候选窗口进行评分。然后，我们在得分窗口上使用非最大抑制[23]（阈值为30%）。

我们的方法可以通过多尺度的特征提取来改进。我们调整图像的大小，使min(w，h)∈S={480、576、688、864,1200}，并计算每个尺度的conv5的特征图。结合这些尺度的特性的一种策略是将它们汇集起来。但我们根据经验发现，另一种策略可以提供更好的结果。对于每个候选窗口，我们选择一个单一的尺度s∈S，这样比例的候选窗口有一个最接近224×224的像素数。然后我们只使用从这个尺度中提取的特征映射来计算这个窗口的特征。如果预定义的尺度足够密集，并且窗口近似为正方形，那么我们的方法大致相当于将窗口的大小调整为224×224，然后从其中提取特征。然而，我们的方法只需要从整个图像中计算一次特征映射（在每个尺度上），而不管候选窗口的数量是多少。

我们还按照[7]的标准对预先训练过的网络进行了微调。由于我们的特性是从任何大小的窗口的conv5特性图中汇集出来的，所以为了简单起见，我们只对全连接的层进行了微调。在这种情况下，数据层接受conv5之后的固定长度的合并特性，然后是fc6、7层和一个新的21路（一个额外的负类别）fc8层。fc8的权值用σ=0.01的高斯分布进行初始化。我们将所有的学习速率固定为1e-4，然后对所有三层调整到1e-5。在微调过程中，正样本与地面真实窗口重叠[0.5,1]，负样本重叠[0.1,0.5)。.在每个小批次中，25%的样本呈阳性。我们使用学习率1e-4训练250k个小批量，然后使用1e-5训练50k个小批量。因为我们只微调了fc层，所以训练非常快，在GPU上大约需要2个小时（不包括预缓存特性映射，这大约需要1个小时）。同样，在[7]之后，我们使用边界框回归来对预测窗口进行后处理。用于回归的特性是来自conv5的合并特性（作为[7]中使用的池5特性的对应物）。用于回归训练的窗口是那些与地面-真实窗口重叠至少50%的窗口。

4.2 Detection Results

我们在PascalVOC2007数据集的检测任务上评估了我们的方法。表9显示了我们在不同层上的结果，通过使用1尺度(s=688)或5尺度。这里的R-CNN结果是在[7]中使用的具有5个转换层的AlexNet[3]。使用pool5层（在我们的例子中是合并的特征），我们的结果（44.9%）与R-CNN的结果（44.2%）相当。但是使用非微调的fc6层，我们的结果较差。一种解释是，我们的fc层是使用图像区域预先训练的，而在检测情况下，它们被用于特征地图区域。特征图区域可以在窗口边界附近有很强的激活，而图像区域可能没有。这种用法上的差异可以通过微调来解决。使用微调后的fc层(ftfc6,7)，我们的结果可以与R-CNN的微调结果相比较或略好。经过边界盒回归，我们的5尺度结果（59.2%）比R-CNN（58.5%）好0.7%，我们的1尺度结果（58.0%）差0.5%。

在表10中，我们进一步使用相同的SPPnet预训练模型(ZF-5)，与R-CNN进行了比较。在这种情况下，我们的方法和R-CNN具有可比性的平均分数。这个预先训练过的模型提高了R-CNN的结果。这是因为ZF-5的架构比AlexNet更好，也因为SPPnet的多级池化(如果使用noSPPZF-5，R-CNN的结果就会下降)。表11显示了每个类别的结果。表11还包括了其他方法。选择性搜索(SS)[20]对SIFT特征图应用空间金字塔匹配。DPM[23]和区域[39]是基于HOG特性[24]。通过结合包括conv5在内的各种特性，区域集方法将[8]提高到46.1%。检测网[40]训练一个深度网络，输出像素级的对象掩码。这种方法只需要对整个图像应用深度网络一次，就像我们的方法一样。但该方法的mAP值较低（30.5%）。

4.3 Complexity and Running Time

尽管具有相当的准确性，但我们的方法比R-CNN要快得多。R-CNN中卷积特征计算的复杂度为O(n·227**2)，窗口数为n（∼2000）。我们的方法的复杂性在s尺度上是O(r·s**2)，其中r是长宽比。假设r大约是4/3。在s=688的单尺度版本中，这个复杂度大约是R-CNN的1/160；在5尺度版本中，这个复杂度大约是R-CNN的1/24。在表10中，我们使用相同的SPP(ZF-5)模型对特征计算的运行时间进行了公平的比较。RCNN的实现来自于作者在Caffe[35]中发布的代码。我们还在Caffe中实现了我们的特征计算。在表10中，我们使用GPU评估了100张随机VOC图像的平均时间。R-CNN每张图像需要14.37秒的卷积，而我们的1尺度版本每张图像只需要0.053秒。所以我们的传输速度比R-CNN快270×。我们的5尺度版本每张图像需要0.293s的卷积，所以比R-CNN快49×。我们的卷积特征计算速度非常快，因此fc层的计算时间占了相当大的一部分。表10显示，计算4096-dfc7特征的GPU时间为0.089s。考虑到卷积和全连接特性，我们的1尺度版本比R-CNN快102×，低1.2%；我们的5尺度版本快38×，有可比的结果。

我们还比较了表9中R-CNN使用AlexNet[3]的运行时间，如原始论文[7]。我们的方法要快24×到64×。请注意，AlexNet[3]在每个conv层上与我们的ZF-5有相同数量的过滤器。AlexNet速度更快，因为它在某些层上使用分裂，这是为[3]中的两个gpu设计的。利用最近的窗口建议方法[25]，我们进一步实现了一个有效的全系统。选择性搜索(SS)方案[20]在CPU上的每幅图像大约需要1-2秒。边框[25]的方法只需要∼0.2秒。请注意，仅在测试期间使用一种快速的建议方法就足够了。使用与上面训练的相同的模型(使用SS)，我们仅测试由边框生成的建议。mAP为52.8，没有边界盒回归。考虑到边框没有用于训练，这是合理的。然后在训练阶段使用SS和EdgeBox作为建议，在测试阶段只采用EdgeBox。没有边界盒回归的mAP为56.3，由于额外的训练样本，它优于55.2（表10）。在这种情况下，总体测试时间是每张图像∼0.5s，包括所有步骤（建议和识别）。这使得我们的方法适合于实际应用。

4.4 Model Combination for Detection

模型组合是提高基于cnn的分类精度[3]的重要策略。我们提出了一种简单的组合检测方法。我们在ImageNet中预先训练另一个网络，使用相同的结构，但使用不同的随机初始化。然后我们重复上述检测算法。表12(SPP-net（2）)显示了该网络的结果。它的mAP与第一个网络相当(59.1%vs.59.2%)，并且在11个类别中优于第一个网络。

给定这两个模型，我们首先使用任何一个模型来对测试图像上的所有候选窗口进行评分。然后，我们对两组候选窗口的联合（以及它们的分数）进行非最大抑制。一种方法给出的更自信的窗口可以抑制另一种方法给出的不那么自信的窗口。组合后，mAP提高到60.9%（表12）。在所有20个类别中，有17个组合的表现优于任何一个单独的模型。这表明这两种模型是互补的。我们进一步发现，互补性主要是由于卷积层。我们试图合并同一卷积模型的两个随机初始化的微调结果，但没有发现增益。

4.5 ILSVRC 2014 Detection

ILSVRC2014检测[26]任务涉及200个类别。在训练/验证/测试集中有∼450k/20k/40k的图像。我们专注于仅提供数据的跟踪器的任务(不允许使用1000类CLS训练数据)。在检测(DET)和分类(CLS)训练数据集之间有三个主要的差异，这极大地影响了训练前的质量。首先，DET训练数据仅是CLS训练数据的1/3。这似乎是仅提供数据的DET任务的一个基本挑战。第二，DET的类别数是CLS的1/5。为了克服这个问题，我们利用所提供的子类别标签2来进行预训练。总共有499个不重叠的子类别（即所提供的类别层次结构中的叶节点）。所以我们在DET训练集上对一个499类的网络进行了预训练。第三，DET/CLS训练集之间的对象尺度分布有所不同。CLS中的主要物体比例约为图像长度的0.8，而DET中约为0.5。为了解决尺度差异，我们将每个训练图像的大小调整为最小(w，h)=400（而不是256），并随机裁剪224×224个视图进行训练。只有当作物与地面真实对象重叠至少50%时，才使用。

我们验证了预训练对PascalVOC2007的影响。对于CLS-训练前的基线，我们考虑了池中的5个特征(表9中的mAP为43.0%)。由DET预训练的200类网络取代，mAP显著下降到32.7%。一个499个类别的预训练网络将结果提高到35.9%。有趣的是，即使训练数据的数量没有增加，训练一个更多类别的网络也能提高特征质量。最后，用min(w，h)=400而不是256进行训练，进一步将mAP提高到37.8%。即便如此，我们还是看到，与CLS-训练前的结果仍然有相当大的差距。这表明了大数据对深度学习的重要性。

对于ILSVRC2014，我们训练了一个499个类别的超越-7SPP-net。其余的步骤类似于VOC2007年的情况。在[7]之后，我们使用验证集生成正/负样本，由选择性搜索快速搜索模式提出窗口。训练集只使用地面真实窗口提供正样本。我们对fc层进行微调，然后使用验证集和训练集中的样本来训练支持向量机。在验证集上训练。

我们的单一模型导致ILSVRC2014测试集[26]的mAP为31.84%。我们使用本文中介绍的策略结合了6个相似的模型。在测试集[26]中的mAP为35.11%。这个结果在ILSVRC2014（表13）[26]的仅提供数据的跟踪中排名第2。来自使用上下文信息的新加坡国立大学的获胜结果为37.21%。我们的系统在这个数据集的速度上仍然有很大的优势。在GPU上从所有5个尺度中提取卷积特征，我们的单个模型需要0.6秒(conv0.5秒，fc0.1秒，不包括建议)。使用相同的模型，每张图像需要32秒。对于40k的测试图像，我们的方法需要8个GPU·小时来计算卷积特征，而RCNN则需要15个GPU·天。

5 CONCLUSION

SPP是一种用于处理不同规模、大小和长径比的灵活解决方案。这些问题在视觉识别中很重要，但在深度网络中却很少得到考虑。我们提出了一种用空间金字塔池化层训练深度网络的解决方案。所得到的SPP-net在分类/检测任务中显示出突出的准确性，并大大加快了基于DNN的检测。我们的研究还表明，许多经过时间验证的计算机视觉技术/见解仍然可以在基于深度网络的识别中发挥重要作用。

A PPENDIX A

在附录中，我们描述了一些实现细节：

Mean Subtraction.

224×224裁剪的训练/测试图像通常通过减去每像素的平均[3]来进行预处理。当输入图像在任何大小时，固定大小的平均图像并不直接适用。在ImageNet数据集中，我们将224×224的平均图像扭曲到所需的大小，然后减去它。在PascalVOC2007和 Caltech101中，我们在所有实验中都使用了常数平均（128）。

Implementation of Pooling Bins.

在应用网络时，我们使用以下实现来处理所有的box。将conv5特征图（可以是完整的图像，也可以是一个窗口）的宽度和高度表示为w和h。对于有n个box的金字塔层，第（i,j）个box在

的范围内。如果需要舍入，我们采用左/顶边界的向下取整操作，右/下边界的向上取整操作

Mapping a Window to Feature Maps.

在检测算法（以及特征图上的多视图测试）中，在图像域中给出了一个窗口，我们使用它对已下采样多次的卷积特征图(如conv5)进行裁剪。所以我们需要对齐特征映射上的窗口。在我们的实现中，我们将窗口的角点投影到特征映射中的一个像素上，这样图像域中的这个角点就最接近该特征映射像素的接受域的中心。由于所有卷积层和池化层的填充，映射变得复杂。为了简化实现，在部署过程中，我们为过滤器大小为p的层填充 $\left \lfloor p/2 \right \rfloor$ 像素。因此，对于以 $(x^{'},y^{'})$ 为中心的响应，它在图像域中的有效接受域以(x，y)=(Sx'，Sy')为中心，其中S是之前所有步幅的乘积。在我们的模型中，S=16表示ZF-5的conv5，S=12表示Overfeat-5/7的conv5/7。给定图像域中的一个窗口，我们投影左（上）边界为：x0=bx/Sc+1和右（下）边界x0=dx/Se−1。如果填充物不是bp/2c，我们需要向x添加一个适当的偏移量。

你可能感兴趣的:(目标检测,深度学习,cnn,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &