To_1_oT

论文翻译之Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

摘要

目前最先进的物体检测网络依靠区域提议（proposal）算法来假设物体的位置。 SPPnet [1]和Fast R-CNN [2]之类的进步减少了这些检测网络的运行时间，但也揭示了区域提议计算存在瓶颈。在这项工作中，我们引入了一个区域提议网络（RPN），该区域提议网络与检测网络共享全图像卷积特征，从而实现几乎免费（计算）的区域提议。RPN是一个全卷积的网络，可以同时预测每个位置的目标边界和目标得分。对RPN进行了端到端的训练，以生成高质量的区域建议，Fast R-CNN将这些区域提议用于检测。通过共享RPN和Fast R-CNN的卷积特征，我们将RPN和Fast R-CNN进一步合并为一个网络-使用最近流行的神经网络术语：“注意力”机制，RPN组件告诉统一网络要看（注重）的地方。对于非常深的VGG-16模型[3]，我们的检测系统在GPU上具有5fps（包括所有步骤）的帧频，同时在PASCAL VOC 2007、2012和MS COCO数据集上达到了最优（SOTA）的目标检测精度。每个图像仅包含300个建议。在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是多个比赛中第一名获胜作品的基础。代码已公开提供。
索引词-目标检测，区域提议，卷积神经网络

1. 引言（Introdution）

区域提议方法（例如[4]）和基于区域的卷积神经网络（RCNN）[5]的成功推动了目标检测的最新进展。尽管基于区域的CNN在计算上很昂贵，如最初在[5]中发展的，但由于[1]，[2]在提议之间共享卷积，因此其计算成本已大大降低。最新的改进，Fast R-CNN [2]，在忽略区域建议花费的时间时，使用非常深的网络[3]实现了接近实时的速度。现在，建议是最先进的检测系统中的测试时间计算瓶颈。
区域提议方法通常依赖于低质量（inexpensive）的特征和经济的推理方案。选择性搜索[4]是最流行的方法之一，它根据工程化的底层特征贪婪地合并超像素。然而，与高效的检测网络相比[2]，选择性搜索的速度要慢一个数量级，运行在CPU中每张图像花费2秒。 EdgeBoxes [6]当前提供建议质量和速度之间的最佳权衡，每张图像0.2秒。尽管如此，区域提议步骤仍然消耗与检测网络一样多的运行时间。
可能会注意到，基于区域的快速CNN充分利用了GPU的优势，而研究中使用的区域提议方法则是在CPU上实现的，因此这种运行时比较是不公平的。加速提议计算的一种明显方法是为GPU重新实现。这可能是一种有效的工程解决方案，但是重新实现会忽略下游检测网络，因此会错过共享计算的重要机会。
在本文中，我们证明了算法的变化（使用深度卷积神经网络计算建议）导致了一种优雅而有效的解决方案，考虑到检测网络的计算，建议计算几乎是免费的。为此，我们引入了与最先进的目标检测网络[1]，[2]共享卷积层的新颖的区域提议网络（RPN）。通过在测试时共享卷积，计算建议的边际成本很小（例如，每张图片10毫秒）。
我们的观察结果是，基于区域的检测器（如Fast RCNN）使用的卷积特征图也可用于生成区域建议。在这些卷积特征之上，我们通过添加一些其他卷积层来构建RPN，这些卷积层同时回归规则网格上每个位置的区域边界和物体性得分。因此，RPN是一种全卷积网络（FCN）[7]，可以专门针对生成检测建议的任务进行端到端训练。
RPN旨在以各种尺度（比例）和宽高比有效预测区域提议。与使用图像金字塔（图1，a）或过滤器金字塔（pyramids of filters）（图1，b）的流行方法[8]，[9]，[1]，[2]相比，我们介绍了新颖的“锚”盒作为多种比例和宽高比的参考。我们的方案可以看作是回归参考（regression references）的金字塔（图1，c），它避免了枚举（enumerating）具有多个比例或宽高比的图像或过滤器。当使用单尺度图像进行训练和测试时，该模型表现良好，从而提高了运行速度。
在这里插入图片描述
**图1：**解决图像多种尺度和大小的不同方案。（a）建立图像和特征图的金字塔，并在所有比例下运行分类器。（b）具有多个比例/大小的过滤器金字塔在特征图上运行。（c）我们在回归函数中使用参考boxes的金字塔。

为了将RPN与Fast R-CNN [2]目标检测网络统一起来，我们提出了一种训练方案，该方案在对区域建议任务进行微调与对目标检测进行微调之间交替，同时保持建议不变。该方案快速收敛，并产生具有两个任务之间共享的卷积特征的统一网络。
我们在PASCAL VOC检测基准[11]上全面评估了我们的方法，其中使用RPN的Fast R-CNN产生的检测精度要优于使用选择性搜索的Fast R-CNN。同时，我们的方法在测试时几乎免除了“选择性搜索”的所有计算负担-proposal的有效运行时间仅为10毫秒。使用优质（expensive）的非常深的模型[3]，我们的检测方法在GPU上的帧速率仍然为5fps（包括所有步骤），因此这是一个在速度和准确性方面都很实用的目标检测系统。我们还报告了MS COCO数据集的结果[12]，并使用COCO数据研究了PASCAL VOC的改进。代码已在https://github.com/shaoqingren/faster_ rcnn（MATLAB代码）和https://github.com/rbgirshick/py-faster-rcnn（Python代码）中公开提供。
该手稿的初步版本先前已发布[10]。从那时起，RPN和Faster R-CNN的框架已被采用并推广到其他方法，例如3D目标检测[13]，基于零件的检测（part-based）[14]，实例分割[15]和图像字幕(captioning)[16]。我们的快速有效的目标检测系统也已建立在商业系统中，例如Pinterests [17]，据报道用户参与度有所提高。
在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是ImageNet检测，ImageNet定位（localization），COCO检测和COCO分割中几个第一名的基础[18]。RPN完全学会了根据数据提议区域，因此可以轻松地从更深，更具表现力的特征（例如[18]中采用的101层残差网络）中受益。在这些比赛中，其他一些领先的参赛者也使用了Faster R-CNN和RPN。这些结果表明，我们的方法不仅是一种实用的高性价比解决方案，而且还是提高目标检测精度的有效途径。

2. 相关工作

目标建议（Object Proposals）
关于目标建议方法的文献很多。可以在[19]，[20]，[21]中找到目标建议方法的综合研究和比较。广泛使用的目标建议方法包括基于超像素分组的方法（例如，选择性搜索[4]，CPMC [22]，MCG [23]）和基于滑动窗口的方法（例如，窗口中的物体[24]，EdgeBoxes [ 6]）。目标建议方法用于作为独立于检测器的外部模块（例如，选择性搜索[4]目标检测器，RCNN [5]和Fast R-CNN [2]）。
用于目标检测的深度网络
R-CNN方法[5]端到端训练CNN将提议区域分类为物体类别或背景。R-CNN主要充当分类器，并且不预测目标边界（通过边界框回归进行精炼除外）。它的准确性取决于区域提议模块的性能（请参见[20]中的比较）。几篇论文提出了使用深度网络预测目标边界框的方法[25]，[9]，[26]，[27]。
在OverFeat方法[9]中，训练了一个全连接层来预测假设单个目标的定位任务的框坐标。然后将全连接层转换为卷积层，以检测多个类特定的物体。MultiBox方法[26]，[27]从网络中生成区域提议，该网络的最后一个全连接层同时预测多个与类无关的boxes，从而概括（generalizing）了OverFeat的“single-box”方式。这些与类无关的boxes用作R-CNN的建议[5]。与我们的全卷积方案相比，MultiBox建议网络适用于单个图片裁剪（crop）或多个大图片裁剪（crop）（例如224* 224）。MultiBox在提议和检测网络之间不共享特征。我们稍后将在我们的方法中更深入地讨论OverFeat和MultiBox。与我们的工作同时开发的DeepMask方法[28]，用于学习分割建议。
卷积的共享计算[9]，[1]，[29]，[7]，[2]已吸引了越来越多的关注，以进行有效而准确的视觉识别。 OverFeat论文[9]从图像金字塔计算卷积特征，以进行分类，定位和检测。共享卷积特征图上的自适应大小池化（SPP）[1]被开发用于有效的基于区域的目标检测[1]，[30]和语义分割[29]。Fast R-CNN [2]可以对共享卷积特征进行端到端检测器训练，并显示出令人信服的准确性和速度。

3. Faster R-CNN

我们的目标检测系统称为Faster R-CNN，它由两个模块组成。第一个模块是提出区域的深层全卷积网络，第二个模块是使用提出的区域的Fast R-CNN检测器[2]。整个系统是用于目标检测的单个统一网络（图2）。RPN模块使用最近流行的神经网络术语：带有“注意力” [31]机制，RPN模块可以告诉Fast R-CNN模块在哪里查看（注重哪部分）。在第3.1节中，我们介绍了用于区域提议的网络的设计和属性。在3.2节中，我们开发了用于训练具有共享特征的两个模块的算法。
在这里插入图片描述
**图2：**Faster R-CNN是一个单个的统一的目标检测网络。RPN模块相当于这个统一网络的‘注意力’。

3.1 区域提议网络

区域提提议网络（RPN）接收（任意大小的）图像作为输入，并输出一组矩形的目标提议，每个提议均具有物体性得分（“Region” is a generic term and in this paper we only consider rectangular regions, as is common for many methods (e.g., [27], [4],[6]). “Objectness” measures membership to a set of object classes
vs. background.）。我们使用全卷积网络对该过程进行建模[7]，我们将在下文中对此进行描述这个部分。因为我们的最终目标是与Fast R-CNN目标检测网络共享计算[2]，所以我们假设两个网络共享一组共同的卷积层。在我们的实验中，我们研究了具有5个可共享卷积层的Zeiler和Fergus模型[32]（ZF）以及具有13个可共享卷积层的Simonyan和Zisserman模型[3]（VGG-16）。
为了生成区域建议，我们在最后共享的卷积层输出的卷积特征图上滑动一个小型网络。这个小网络将输入卷积特征图的n×n空间窗口作为输入。每个滑动窗口都映射到一个较低维的特征（ZF为256-d，VGG为512-d，后面是ReLU [33]）。此特征被馈入（fed into）两个同级（sibling）的全连接层—框回归层（reg）和框分类层（cls）。在本文中，我们使用n = 3，注意输入图像上的有效感受野很大（ZF和VGG分别为171和228像素）。在图3的单个位置（左）显示了此微型网络。请注意，由于微型网络以滑动窗口的方式运行，因此全连接层将在所有空间位置上共享。该体系结构自然是由n×n卷积层和两个同级1×1卷积层（分别用于reg和cls）实现的。
在这里插入图片描述
**图3：**左：区域提议网络（RPN）。右：在PASCAL VOC 2007测试中使用RPN建议的检测示例。我们的方法可以检测各种比例和宽高比的物体。

3.1.1 Anchors

在每个滑动窗口位置，我们同时预测多个区域提议，其中每个位置的最大可能提议数目表示为k。因此，reg层有4k个输出，对k个框的坐标进行编码，而cls层则输出2k个分数，这些分数估计每个提议（For simplicity we implement the cls layer as a two-class softmax layer. Alternatively, one may use logistic regression to
produce k scores.）的物体或非物体的概率。相对于k个参考框（称为anchors），对k个建议进行了参数化。anchor位于相关滑动窗口的中心，并与比例和宽高比相关联（图3，左）。默认情况下，我们使用3个尺度和3个宽高比，在每个滑动位置产生k = 9个anchors。对于大小为W×H（通常为2,400）的卷积特征图，总共有W×H×k个anchors。
平移不变的anchors
我们方法的一个重要特性是，就anchors和计算相对于anchors的提议的函数而言，它是平移不变的。如果平移（translate）了图像中的一个目标，则该提议也应进行平移，并且相同的特征应能够在任一位置预测该提议。此平移不变属性由我们的方法（As is the case of FCNs [7], our network is translation invariant up to the network’s total stride.）保证。作为比较，MultiBox方法[27]使用k均值生成800个anchors，这些anchors不是平移不变的。因此，MultiBox不保证平移目标时会生成相同的建议。
平移不变属性还减小了模型大小。MultiBox具有（4 +1）× 800维的全连接输出层，而在k = 9个anchors的情况下，我们的方法具有一个（4 + 2）×9维的卷积输出层。最终，我们的输出层具有2.8 ×10的4次方个参数（VGG-16为512×（4 + 2）×9个），比具有6.1 ×10的6次方个参数（MultiBox里的GoogleNet为1536×（4 + 1）×800个）的MultiBox输出层少了两个数量级。如果考虑特征投影层，我们的建议层的参数仍然比MultiBox（Considering the feature projection layers, our proposal layers’ parameter count is 3 × 3 × 512 × 512 + 512 × 6 × 9 = 2.4 × 10^6;MultiBox’s proposal layers’ parameter count is 7 × 7 × (64 + 96 +64 + 64) × 1536 + 1536 × 5 × 800 = 27 × 10的6次方）少一个数量级。我们希望我们的方法在较小的数据集（如PASCAL VOC）上过拟合的风险较小。
多尺度anchors作为回归参考
我们的anchor设计提出了解决多种尺度（和宽高比）的新颖方案。如图1所示，有两种流行的多尺度预测方法。第一种方法是例如在DPM中 [8]使用的基于图像/特征金字塔和[9]，[1]，[2]中基于CNN的方法。在多个尺度上调整图像大小，并为每个尺度计算特征图（HOG [8]或深度卷积特征[9]，[1]，[2]）（图1（a））。这种方法通常是有用的但是很费时。第二种方法是在特征图上使用多个尺度（和/或宽高比）的滑动窗口。例如，在DPM [8]中，使用不同的过滤器（卷积）大小（例如5×7和7×5）分别训练不同长宽比的模型。如果使用这种方法处理多个尺度，则可以将其视为“过滤器金字塔”（图1（b））。第二种方法通常与第一种方法结合使用[8]。
相比之下，我们的基于anchor的方法是基于锚点金字塔构建的，这种方法更具成本效益。我们的方法参照多个尺度和宽高比的anchor对边界框进行分类和回归。它仅依赖于单一尺度的图像和特征图，并使用单一大小的过滤器（在特征图上滑动窗口）。我们通过实验证明了该方案对解决多种尺度和size的影响（表8）。
由于基于anchor的这种多尺度设计，我们可以简单地使用在单尺度图像上计算出的卷积特征，就像Fast R-CNN检测器所做的一样[2]。多尺度锚点的设计是共享特征同时无需花费额外成本处理尺度的关键组成部分。

3.1.2 损失函数

为了训练RPN，我们为每个anchor分配一个二进制类标签（无论anchor内是不是object）。我们为两种anchor定一个正标签：（i）与真实框具有最高IoU重叠的anchor/anchors，或（ii）与任何一个真实框具有大于0.7的IoU的anchor。请注意，单个真实框可能为多个anchor分配正标签。通常，第二个条件足以确定正样本，但是我们仍然采用第一个条件是因为在极少数情况下，第二个条件可能找不到正样本。如果anchor与所有真实框的IoU值均低于0.3，则为非正例anchor分配负标签。既不是正例也不是负例的anchor对于训练没有帮助。
利用这些定义，我们在Fast R-CNN [2]中将多任务损失之后的目标函数最小化。我们对图像的损失函数定义为：
在这里插入图片描述
其中，i是mini-batch中的anchor的索引，是anchori作为object的预测概率。如果anchor为正，则ground-truth标签为1，如果anchor为负，则ground-truth标签为0。是代表预测边界框的4个参数化坐标的向量，是与正anchor关联的ground-truth的4个参数化坐标。分类损失 Lcls 是两个类别（object与非object）之间的对数损失。对于回归损失，我们使用 Lreg（ti; t i）= R（tit i），其中R是在[2]中定义的稳健损失函数（smooth L1）。 p i Lreg 表示仅对正anchor （p i = 1）激活回归损失，否则对回归损失禁用（p i = 0）。cls和reg层的输出分别由 fpig 和 ftig 组成。
这两项通过Ncls和Nreg归一化，并通过平衡参数加权。在我们当前的实现中（如发布的代码中一样），等式（1）中的cls项通过mini-batch大小（即Ncls = 256）进行归一化，而reg项通过anchor位置的数量（例如，Nreg ：2——400）。默认情况下，我们设置λ= 10，因此cls和reg项的权重大致相等。我们通过实验表明，结果对较大范围内的λ值不敏感（表9）。我们还注意到，上面的标准化不是必需的，可以简化。
对于边界框回归，我们采用[5]中的4个坐标的参数化：
在这里插入图片描述
其中x，y，w和h表示框的中心坐标及其宽度和高度。变量x，xa和x*分别用于预测框，anchor box和真实值框（同样对于y; w; h）。可以将其视为从anchor box到附近的真实值框的边界框回归。
然而，我们的方法通过与以前基于RoI的（感兴趣区域）方法[1]，[2]不同的方式实现边界框回归。在[1]，[2]中，对从任意大小的RoI池化的特征执行边界框回归，并且回归权重由所有区域大小共享。在我们的公式中，用于回归的特征在特征图上具有相同的空间大小（3×3）。为了说明变化的大小，学习了一组k个边界框回归器。每个回归器负责一个比例和一个长宽比，而k个回归器不共享权重。这样，由于anchor的设计，即使特征具有固定的大小/比例，仍然可以预测各种大小的box。

3.1.3 训练 RPNs

可以通过反向传播和随机梯度下降（SGD）端对端地训练RPN [35]。我们遵循[2]中的“以图像为中心”的采样策略来训练该网络。每个mini-batch 均处理包含多个正负例anchor的单个图像。可以针对所有anchor的损失函数进行优化，但是会偏向于负样本，因为它们占主导地位。因此，取而代之的是，我们在图像中随机采样256个anchor，以计算mini-batch的损失函数，其中采样的正和负anchor的比例最高为1：1。如果图像中的正样本少于128个，则用负样本填充mini-batch。
我们通过从零均值高斯分布中提取权重（标准偏差为0.01）来随机初始化所有新层。所有其他层（即共享卷积层）都通过预先训练ImageNet分类模型来初始化[36]，这是标准做法[5]。我们调整ZF网络的所有层，并调整conv3_1以及VGG网络以节省内存[2]。对于PASCAL VOC数据集，我们对60k个小批量使用0.001的学习率，对接下来的20k个mini-batch使用0.0001的学习率。我们使用0.9的动量和0.0005的权重衰减[37]。我们的实现使用Caffe [38]。
在这里插入图片描述

3.2 RPN和Fast R-CNN共享卷积层

到目前为止，我们已经描述了如何训练用于区域提议生成的网络，而没有考虑将利用这些proposal的基于区域的目标检测CNN。对于检测网络，我们采用Fast R-CNN [2]。接下来，我们描述学习具有RPN和Fast R-CNN并具有共享卷积层的统一网络的算法（图2）。
RPN和Fast R-CNN均经过独立训练，将以不同方式修改其卷积层。因此，我们需要开发一种技术，允许在两个网络之间共享卷积层，而不是学习两个单独的网络。我们讨论了三种共享特征的网络训练方法：
（1）交替训练。在此解决方案中，我们首先训练RPN，然后使用这些proposal来训练Fast R-CNN。然后，使用由Fast R-CNN微调的网络初始化RPN，然后重复此过程。这是本文所有实验中使用的解决方案。
（2）近似联合训练（Approximate joint training）。在此解决方案中，如图2所示，在训练过程中将RPN和Fast R-CNN网络合并为一个网络。在每次SGD迭代中，前向传递都会生成区域proposal，就像Fast R-CNN检测器对待固定的，预先计算的proposal一样。反向传播照常进行，对于共享层，来自RPN Loss和Fast R-CNN Loss的反向传播信号被组合在一起。该解决方案易于实现。但是此解决方案忽略了导数w.r.t. proposal boxes的坐标也是网络响应，因此是近似值。在我们的实验中，我们凭经验发现此求解器产生的结果接近，但与交替训练相比，训练时间减少了约25-50％。这个解决方案包含在我们发布的Python代码中。
（3）非近似联合训练（Non-approximate joint training）。
如上所述，RPN预测的边界框也是输入的函数。Fast R-CNN中的RoI 池化层[2]接受卷积特征，并接受预测的边界框作为输入，因此，理论上有效的反向传播求解器也应包含梯度w.r.t.，框坐标。这些梯度在上面的近似联合训练中被忽略。在一个非近似的联合训练解决方案中，我们需要一个ROI 池化层的可微的（differentiable）w.r.t.框坐标。这是一个不平凡的问题，可以通过[15]中开发的“ RoI warping”层来提供解决方案，这超出了本文的范围。
4步交替训练。
在本文中，我们采用务实的4步训练算法通过交替优化来学习共享特征。第一步，我们按照3.1.3节所述训练RPN。该网络使用ImageNet预训练的模型初始化，并针对区域建议任务端到端进行了微调。在第二步中，我们使用步骤1 RPN生成的proposal，通过Fast R-CNN训练一个单独的检测网络。该检测网络也由ImageNet预训练模型初始化。此时，两个网络不共享卷积层。在第三步中，我们使用检测器网络初始化RPN训练，但是我们调整了共享卷积层，并且仅微调了RPN唯一的层。现在，这两个网络共享卷积层。最后，保持共享卷积层固定不变，我们对Fast R-CNN的唯一层进行微调。这样，两个网络共享相同的卷积层并形成统一的网络。可以进行类似的交替训练进行更多迭代，但是我们观察到提升很小。

3.3 实现细节

我们在单一尺度的图像上训练和测试区域提议和目标检测网络[1]，[2]。我们重新缩放图像，使它们的短边为s = 600像素[2]。多尺度特征提取（使用图像金字塔）可能会提高准确性，但并不能表现出良好的速度精度折衷[2]。在重新缩放的图像上，最后一个卷积层上的ZF和VGG网络的总跨度为16像素，因此在调整大小（～500×375）之前，在典型的PASCAL图像上为～10像素。即使跨度较大，也可以提供良好的结果，尽管跨度较小时可以进一步提高精度。
对于anchor，我们使用3个尺度，框区域分别为128^2、 256^2和 512^2像素，以及3个宽高比为1：1、1：2和2：1。这些超参数不是为特定数据集精心选择的，我们将在下一部分中提供有关其影响的消融实验。如前所述，我们的解决方案不需要图像金字塔或过滤器（卷积）金字塔即可预测多个尺度的区域，从而节省了可观的运行时间。图3（右）显示了我们的方法在各种尺度和纵横比下的功能。表1显示了使用ZF网络为每个锚点学习的平均建议大小。我们注意到，我们的算法所允许的预测大于潜在的感受野。这样的预测并非没有可能-即使只有object的中间可见，则仍可以粗略地推断出object的范围。
跨越图像边界的anchor需要小心处理。在训练期间，我们将忽略所有跨边界anchor，因此它们不会造成损失。对于典型的1000×600图像，总共将有大约20000（≈60×40×9）个anchor。忽略跨边界anchor，每个图像大约有6000个anchor用于训练。如果在训练中不忽略跨边界的异常值，则会在目标中引入较大且难以校正的误差项，并且训练不会收敛。但是，在测试过程中，我们仍将全卷积RPN应用于整个图像。这可能会生成跨边界建议框，我们会将其裁剪到图像边界。
一些RPN proposal彼此高度重叠。为了减少冗余，我们根据proposal区域的cls分数采用非最大抑制（NMS）。我们将NMS的IoU阈值固定为0.7，这使得每个图像有大约2000个建议区域。正如我们将显示的那样，NMS不会损害最终的检测准确性，但是会大大减少proposal的数量。在NMS之后，我们使用排名前N位的proposal区域进行检测。在下文中，我们使用2000个 RPN proposal训练Fast R-CNN，但是在测试时评估不同数量的proposal。

4. 实验

4.1 在PASCAL VOC上的实验

我们根据PASCAL VOC 2007检测基准[11]全面评估了我们的方法。该数据集由大约20个物体类别的5k个训练图像和5k个测试图像组成。我们还提供了一些模型的PASCAL VOC 2012基准测试结果。对于ImageNet预训练网络，我们使用具有5个卷积层和3个全连接层的“快速”版本的ZF net [32]，以及具有13个卷积层和3个全连接层的公共VGG-16 模型[3]。我们主要评估检测平均精度（mAP），因为这是目标检测的实际指标（而不是关注目标proposal代理指标）。
表2（顶部）显示了使用各种区域建议方法进行训练和测试时的 Fast R-CNN结果。这些结果使用ZF网络。对于选择性搜索（SS）[4]，我们通过“快速”模式生成了大约2000个proposal。对于EdgeBoxes（EB）[6]，我们通过调整默认EB设置为0.7的IOU来生成proposal。在Fast R-CNN框架下，SS的mAP为58.7％，EB的mAP为58.6％。具有Fast R-CNN的RPN取得了较好的结果，mAP达到59.9％，同时使用了多达300个proposal。由于共享卷积计算，使用RPN产生的检测系统比使用SS或EB的检测系统快得多。较少的提议也降低了区域级全连接层的成本（表5）。
在这里插入图片描述
RPN上的消融实验。
为了研究RPNs作为提议方法的行为，我们进行了一些消融研究。首先，我们展示了在RPN和Fast R-CNN检测网络之间共享卷积层的效果。为此，我们在4步训练过程的第二步之后停止。使用单独的网络会使结果略降至58.7％（RPN + ZF，未共享，表2）。我们观察到这是因为在第三步中，使用检测器调整的特征来微调RPN时，proposal质量得到了改善。
接下来，我们将解开RPN对训练Fast R-CNN检测网络的影响。为此，我们使用2000 SS提案和ZF网络训练了Fast R-CNN模型。我们调整此检测器，并通过更改测试时使用的proposal区域来评估检测mAP。在这些消融实验中，RPN不与检测器共享特征。
在测试时用300个RPN proposal替换SS的mAP为56.8％。 mAP的损失是由于训练/测试proposal之间的不一致。该结果用作以下比较的基准。
令人惊讶的是，在测试时，当使用排名靠前的100个proposal时，RPN仍然可以带来不错的结果（55.1％），表明排名靠前的RPN proposal是准确的。另一方面，使用排名靠前的6000 个RPN proposal（不使用NMS）mAP为55.2％，这表明NMS不会损害检测mAP并可以减少误报。
接下来，我们通过在测试时关闭RPN的cls和reg输出中的一个来分别研究它们的作用。当在测试时删除cls层时（因此不使用NMS /ranking），我们从未计分的区域中随机抽取了N个proposal，当N = 1000时，mAP（55.8％）几乎没有变化，但是当N = 100时，mAP下降至44.6％。这表明cls分数说明了排名最高的proposal的准确性。
另一方面，当在测试时删除reg层（因此proposal成为anchor框）时，mAP下降至52.1％。这表明高质量的proposal主要是由于回归框的边界。尽管anchor框具有多个尺度和宽高比，但不足以进行精确检测。
我们还评估了更强大的网络对RPN proposal质量的影响。我们使用VGG-16训练RPN，但仍使用上述SS + ZF检测器。 mAP从56.8％（使用RPN + ZF）提高到59.2％（使用RPN + VGG）。这是一个令人鼓舞的结果，因为它表明RPN + VGG的proposal质量优于RPN + ZF的proposal质量。由于RPN + ZF的proposal与SS相差无几（当持续用于训练和测试时，两者均为58.7％），因此我们可以预期RPN + VGG会比SS更好。以下实验证明了这一假设。
VGG-16的性能。
表3列出了proposal和检测的VGG-16结果。使用RPN + VGG，未共享特征的结果为68.5％，略高于SS基准。如上所示，这是因为RPN + VGG生成的proposal比SS更准确。与预定义的SS不同，RPN受到了积极的训练，并从更好的网络中受益。对于特征共享的变体，结果为69.9％，比强大的SS基准要好，但proposal几乎没有（计算）成本。我们还将在PASCAL VOC 2007和2012的联合训练集上训练RPN和检测网络。mAP为73.2％。图5显示了PASCAL VOC 2007测试集上的一些结果。在PASCAL VOC 2012测试集（表4）上，我们的方法在VOC 2007 trainval + test和VOC 2012 trainval的并集上训练的mAP为70.4％。表6和表7显示了详细的数字。
在这里插入图片描述

在表5中，我们总结了整个目标检测系统的运行时间。SS因为内容需要1-2秒（平均约1.5秒），而带有VGG-16的Fast R-CNN在2000个SS提案中需要320毫秒（如果在全连接层上使用SVD则需要223毫秒[2]）。我们的带有VGG-16的系统用于proposal和检测总共需要198毫秒。通过共享卷积特征，仅RPN只需花费10毫秒即可计算附加层。由于更少的proposal（每个图像300个），我们的区域计算也降低了。我们的系统采用ZF网络的帧率为17 fps。
对超参数的敏感性。
在表8中，我们调查了anchor的设置。默认情况下，我们使用3个尺度和3个宽高比（表8中的69.9％mAP）。如果在每个位置仅使用一个anchor，则mAP会下降3-4％。如果使用3个尺度（具有1个宽高比）或3个宽高比（具有1个尺度），则mAP更高，表明使用多个尺寸的anchor作为回归参考是有效的解决方案。在此数据集上仅使用3个尺度和1个宽高比（69.8％）相当于使用3个尺度和3个宽高比的，这表明尺度和宽高比不会因检测精度而散乱（disentangled dimensions）。但是我们仍然在设计中采用这两个维度，以保持系统的灵活性。
在表9中，我们比较了公式（1）中的不同值。默认情况下，我们使用λ= 10，这使等式（1）中的两项在归一化后具有大致相等的加权。表9显示，当结果在大约两个数量级（1到100）之间时，我们的结果仅受到少量影响（约为1％）。这表明结果在很大范围内对λ都不敏感。
在这里插入图片描述
Recall-to-IoU的分析。
接下来，我们使用真实框计算不同IoU比率下proposal的召回率。值得注意的是，Recall-to-IoU指标与最终检测精度只是松散的[19]，[20]，[21]。使用此度量标准来诊断proposal方法比评估它更合适。
在图4中，我们显示了使用300、1000和2000个proposal的结果。我们将它们与SS和EB进行比较，根据这些方法所产生的置信度，N个proposal是排名前N位的proposal。这些图表明，当proposal数量从2000个减少到300个时，RPN方法表现得很不错。这解释了为什么当使用最少300个proposal时RPN具有良好的最终检测mAP。正如我们之前分析的那样，此属性主要归因于RPN的cls项。当proposal减少时，SS和EB的召回率比RPN下降得更快。
在这里插入图片描述
一阶段检测与两阶段proposal+检测。
OverFeat论文[9]提出了一种在卷积特征图上的滑动窗口上使用回归器和分类器的检测方法。OverFeat是一阶段的，特定类的检测pipeline，而我们的是一个两阶段的级联，包括与类无关的proposal和特定类的检测。在OverFeat中，区域特征来自尺度金字塔上一个长宽比的滑动窗口。这些特征用于同时确定目标的位置和类别。在RPN中，特征来自正方形（3×3）滑动窗口，并预测相对于具有不同尺度和宽高比的anchor的proposal。尽管两种方法都使用滑动窗口，但是区域提议任务只是Faster RCNN的第一阶段—下游Fast R-CNN检测器会处理proposal以对其进行完善。在我们级联的第二阶段，从proposal框中自适应地池化区域范围的特征[1]，[2]，该proposal框中将更好地覆盖区域的特征。我们相信这些特征可导致更准确的检测。
为了比较一阶段系统和两阶段系统，我们通过一阶段Fast R-CNN模拟了OverFeat系统（因此也避免了实现细节的其他差异）。在此系统中，“proposal”是3个尺度（128、256、512）和3个长宽比（1：1、1：2、2：1）的密集滑动窗口。Fast R-CNN经过训练可以从这些滑动窗口预测特定类别的分数和回归框的位置。由于OverFeat系统采用图像金字塔，因此我们还使用从5个尺度提取的卷积特征进行评估。我们在[1]，[2]中使用这5个尺度。
表10比较了两阶段系统和一阶段系统的两个变体。使用ZF模型，一阶段系统的mAP为53.9％。这比两阶段系统（58.7％）低4.8％。该实验证明了级联区域提议和目标检测的有效性。在[2]，[39]中报告了类似的观察结果，其中用滑动窗口替换SS区域proposal导致两篇论文约6％的退化。我们还注意到，单阶段系统速度较慢，因为它要处理的proposal要多得多。
在这里插入图片描述

4.2 在MS COCO上的实验

我们在Microsoft COCO目标检测数据集上提供了更多结果[12]。该数据集涉及80个物体类别。我们在训练集上测试了80k张图像，在验证集上测试了40k张图像，在test-dev集上测试了20k张图像。我们评估IoU [0.5：0.05：0.95]（COCO的标准指标，简称为mAP @ [.5，.95]）和[email protected]（PASCAL VOC指标）的平均mAP。
我们针对此数据集对系统进行了一些小的更改。我们在8-GPU实施上训练模型，有效的mini-batch大小对于RPN变为8（每个GPU 1个），对于Fast R-CNN变为16（每个GPU 2个）。RPN步和Fast R-CNN步长均为经过240k次迭代训练，学习率为0.003，然后经过80k次迭代训练为0.0003。我们更改了学习率（从0.003而不是0.001开始），因为更改了mini-batch大小。对于anchor，我们使用3个宽高比和4个尺度（增加64^2），主要是为了处理此数据集上的小目标。此外，在我们的Fast R-CNN步骤中，将负样本定义为用于[1]，[2]中的与真实值具有最大IoU且在[0; 0.5）之间，而不是[0.1; 0.5）之间。我们注意到，在SPPnet系统[1]中，[0.1; 0.5）中的负例用于网络微调，但[0; 0.5）的负例仍在SVM步骤中通过难例挖掘进行访问。但是Fast R-CNN系统[2]放弃了SVM步骤，因此[0; 0.1）从未使用过。包括这些[0; 0.1），对于Fast R-CNN和Faster R-CNN系统，样本在COCO数据集上均提高了[email protected]（但对PASCAL VOC的影响可以忽略不计）。
其余的实现细节与PASCAL VOC上的相同。特别是，我们一直使用300个proposal和单尺度（s = 600）测试。在COCO数据集上，每个图像的测试时间仍然约为200毫秒。
在这里插入图片描述
在表11中，我们首先使用本文中的实现报告了Fast R-CNN系统的结果[2]。我们的Fast R-CNN基线在测试开发集上具有39.3％的[email protected]，高于[2]中的报告。我们推测产生这种差距的原因主要是由于负例的定义以及mini-batch大小的变化。我们还注意到，mAP @ [.5，.95]只是可比的（just comparable）。
接下来，我们评估我们的Faster R-CNN系统。使用COCO训练集进行训练，Faster R-CNN在COCO test-dev集上具有42.1％的[email protected]和21.5％的mAP @ [.5，.95]。在相同协议下，与Fast RCNN相比，mAP @ 0.5高出2.8％，mAP @ [.5，.95]高出2.2％（表11）。这表明RPN在提高IoU阈值下的定位精度方面表现出色。使用COCO trainval集进行训练，Faster RCNN在COCO test-dev集上具有42.7％的[email protected]和21.9％的mAP @ [.5，.95]。图6显示了MS COCO test-dev集上的一些结果。
在ILSVRC和COCO 2015竞赛中Faster R-CNN
我们已经证明，Faster R-CNN受益于更好的特征，这是由于RPN完全学会了通过神经网络来建议区域。即使将深度增加到100层以上，这种观察仍然有效[18]。仅通过用101层残差网（ResNet-101）替换VGG-16 [18]，Faster R-CNN系统就可以在COCO val 集上将mAP从41.5％/ 21.2％（VGG16）提高到48.4％/ 27.2％（ResNet-101）。 He等人提出了与Faster RCNN相关的其他改进。 [18]在COCO test-dev集上获得了55.7％/ 34.9％的单模型结果和59.0％/ 37.4％的整体结果，在COCO 2015目标检测比赛中获得了第一名。同样的系统[18]在ILSVRC 2015目标检测比赛中也获得了第一名，以绝对的优势8.5％超过了第二名。 RPN还是ILSVRC 2015定位和COCO 2015细分比赛第一名获奖作品的基础，有关详细信息，请参见[18]和[15]。

4.3 From MS COCO to PASCAL VOC

大规模数据对于改善深度神经网络至关重要。接下来，我们研究MS COCO数据集如何帮助提高PASCAL VOC的检测性能。作为一个简单的基准，我们直接在PASCAL VOC数据集上评估COCO检测模型，而无需对任何PASCAL VOC数据进行微调。该评估是可能的，因为COCO上的类别是PASCAL VOC上的类别的超集。在此实验中，COCO专有的类别将被忽略，并且仅在20个类别以及背景上执行softmax层。在PASCAL VOC 2007测试集上，此设置下的mAP为76.1％（表12）。
即使未使用PASCAL VOC数据，此结果也比在VOC07 + 12上训练的结果（73.2％）更好。然后，我们在VOC数据集上微调COCO检测模型。在此实验中，COCO模型代替了ImageNet预训练模型（用于初始化网络权重），并且如3.2节中所述对Faster R-CNN系统进行了微调。这样做PASCAL VOC 2007测试集的mAP达到了78.8％。来自COCO数据集的额外数据将mAP提高了5.6％。表6显示，在PASCAL VOC 2007上，使用COCO + VOC训练的模型具有针对每个类别的最佳AP。在PASCAL VOC 2012测试集上也观察到了类似的进步（表12和表7）。我们注意到，获得这些较好结果的测试时间仍然约为每张图像200毫秒。
在这里插入图片描述

5. 总结

我们提出了RPN，以高效，准确地生成区域proposal。通过与下游检测网络共享卷积特征，区域proposal步骤几乎是免费的（计算）。我们的方法使基于深度学习的统一目标检测系统能够以接近实时的帧速率运行。所学习的RPN还提高了区域proposal质量，从而提高了总体目标检测精度。

REFERENCES

[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.
[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.
[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.
[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International Journal of Computer Vision (IJCV), 2013.
[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 2014.
[6] C. L. Zitnick and P. Doll´ar, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision (ECCV), 2014.
[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained partbased models,” IEEE Transactions on Pattern Analysis and Machine
Intelligence (TPAMI), 2010.
[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.
[10] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in Neural Information Processing Systems (NIPS), 2015.
[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.
[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,P. Doll´ar, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer
Vision (ECCV), 2014.
[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.
[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.
[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.
[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,”arXiv:1511.07571, 2015.
[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.
[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.
[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.
[20] J. Hosang, R. Benenson, P. Doll´ar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.
[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv:1505.05836, 2015.
[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,”IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.
[23] P. Arbel´aez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.
[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.
[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable,high-quality object detection,” arXiv:1412.1441 (v1), 2015.
[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.
[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,”arXiv:1504.06066, 2015.
[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,”in Neural Information Processing Systems (NIPS), 2015.
[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.
[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 2015.
[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg,and L. Fei-Fei, “ImageNet Large Scale Visual Recognition
Challenge,” in International Journal of Computer Vision (IJCV),2015.
[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classificationwith deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.
[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.
[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015

你可能感兴趣的:(论文翻译,深度学习,神经网络,计算机视觉)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h