itlilyer

卷积神经网络——目标检测之RCNN论文翻译

论文连接
https://arxiv.org/abs/1311.2524

0.摘要

目标检测的性能最近几年性能一直停滞不前。之前性能最好的方法是一个将低级别（low-level)的图像特征与高级别(hight-level)的上下文信息结合在一起的一个复杂系统。作者提出的方式简单、可扩展，mAP提高了30%，达到了53.3%。
该方法结合了两个关键的思想：
1. 在候选区域上执行大容量的神经网络(CNN)，以便对对象进行定位和分割；
2. 当标记的训练数据比较少的时候，先对辅助任务进行有监督的预训练，然后对特定区域进行微调(fine-tune)，可以使性能得到明显的提升。

我们将候选区域与CNN结合在一起，称该方法为R-CNN(Regions with CNN features)。
还与一种基于CNN的滑动窗口的检测器OverFeat进行了比较，性能表现远远超过OverFeat。

1. 介绍

特征很重要。过去十年视觉识别任务基本上都是基于SIFT和HOG，但是在2010到2012期间已经发展到了瓶颈，仅通过建立集成系统和稍微修改已有的成功方式获得了有限的进步。

SIFT和HOG是块方向的直方图，可以与灵长类的视觉神经的第一个皮质区域粗略的联系起来。但是都知道视觉识别发生在后面的几步流程中，这也说明视觉是一个分级的多个阶段的计算来给视觉的发生提供信息更丰富的特征。（个人理解：SIFT和HOG的方式只是实现视觉的第一步，找到了目标物体差不多对应到proposal，但是缺乏后面的计算过程，没有为识别提供更加丰富的信息。）

新感知机是受生物学启发的，具有层次性和平移不变性的模式识别模型，是对这中多阶段处理方式的早期尝试。但是缺乏监督训练算法。在Rumelhart的基础上，LeCen等人发现基于反向传播的梯度下降算法对于训练卷积神经网络（CNNs）非常有效，是在新感知机（neocognitron）基础上发展起来的。

CNNs在90年代得到广泛的应用，但是随着支持向量机的兴起而没落了。在2012年Krizhevsky等人通过在ILSVRC上更高的图像分类精度，重新点燃了对CNNs的兴趣。他们通过对LeCun的CNN网络做了一些修改（例如：通过max(0, x)矫正非线性和dropout正则化），并在120万张标记图片上进行网络的训练。

2012年的ILSVRC研讨会上对这个结果的意义进行了激烈的争论，核心的问题是：图片分类的结果多大的程度上能够体现出目标检测的结果。

我们通过将图像分类和目标检测建立联系来回答这个问题。本文首次表明，CNN网络比基于简单HOG特征的系统有更高的目标检测的性能。为了达成目标，我们聚焦在两个问题上：用深度网络来定位目标和使用小批量带标记的检测数据来训练模型。

与图像分类不同，目标检测需要对图像中的目标进行定位(目标可能有多个)。一种方法是将框的定位看作是一个回归问题。另一种可选方法是使用滑动窗口来探测物体。这种方式CNNs至少已经使用了20年，但是仅仅用在有限的类别上，例如：人脸和行人。为了有更高的空间分辨率，这些CNNs都采用了两层卷积层和两个池化层。我们也考虑过使用滑动窗口的方法。但是我们的网络有5个卷基层，有非常大的感受野（195x195像素）和步长(32x32），这对使用滑动窗口来精确定位目标充满挑战。

相反，我们使用“区域识别”的模式来解决CNN的目标定位问题，这个已经在目标识别和语义分割中成功应用。每个图片生成2000个左右与类别无关的候选区域(region proposal)，然后使用CNN为每个候选区域提取固定长度的特征向量，最后使用特定种类的线性分类器SVMs对每个候选区域进行分类。我们使用仿射变换图片的方式使每个候选区域满足CNN对输入大小的要求。因为我们结合了候选区域（region proposal）和CNNs，所以称该方法为R-CNN：Region with CNN features。
图中是该目标检测系统的概况：
1.输入图片
2.提取2000左右的候选框
3.使用卷积神经网络CNN为每个候选区域计算特征
4.使用SVM对每个区域进行分类

我们与目前为止性能最好的OverFeat（使用滑动窗口+CNN）进行了比较，我们的性能明显的超过了它，mAP：31.4% vs 24.3% 。

**目标检测面对的第二个挑战是：标记数据缺乏，当前可以获得的数据不足以训练一个大型的CNN网络。通常的方法是先进行无监督的预训练，然后进行有监督的对网络进行微调。本文的第二个重要贡献是：先在一个辅助的大数据集上进行有监督的预训练，然后在小数据集上面针对特定的问题进行微调，这对缺乏数据来训练大容量的CNN网络是非常有效的。**经过试验发现精度提升了8%。经过调优，我们的系统在VOC 2010上达到了54%的mAP，于此对应的基于HOG 进行高度优化的deformable part model（DPM）的精度为33%。CNN可以作为黑匣子的特征提取器使用，不用作任何的修改。

DPM是一个非常成功的目标检测算法，已成为众多分类器、分割、人体姿态和行为分类的重要部分。DPM可以看做是HOG（Histograms of Oriented Gradients）的扩展，大体思路与HOG一致。先计算梯度方向直方图，然后用SVM（Surpport Vector Machine ）训练得到物体的梯度模型（Model）。有了这样的模板就可以直接用来分类了，简单理解就是模型和目标匹配。DPM只是在模型上做了很多改进工作。

我们的系统同时也很高效，计算的类型只是一些大小合理的矩阵向量计算和贪婪非极大值抑制（NMS）。这种计算特性源自所有类别的特征共享，同时还比之前的区域特征低了两个数量级。

分析我们失败的模式对于网络精度的提升也是非常关键的。通过使用检测分析工具我们发现：一个简单的边框回归可以有效降低定位错误的问题。该问题是我们遇到的主要问题。

由于RCNN是针对候选区域进行操作，因此可以很容易的扩展到语义分割的任务上。

2. 目标检测之RCNN实现

RCNN由三个部分组成：1、第一生成类别无关的候选区域，这些区域是检测器输入的集合；2、第二个部分是一个大的卷积神经网络，用来为每个候选区域提取固定大小的特征；3、第三部分是一些指定类别的线性分类器SVM的集合。

2.1 模块设计

候选区域生成。 最近的好多论文提供了多种类别无关的区域生成的方法。由于RCNN对生成区域的方法不敏感，为了方便和以前的检测方法作比较，选择了selective search。

特征提取。 我们使用Caffe实现的CNN为每个候选区域提取一个4096维的特征向量。通过五层的卷积层和两层全链接层的前向传播计算，为大小为227*227的图片提取特征。 建议读者了解更多的网络结构的细节。

**为了计算区域特征值，我们必须把该区域范围内的数据转换为符合CNN输入的格式(227*227像素的固定大小)。**我们在众多的可以转换任意shape区域的方法中选择了最简单的。不管候选区域的大小和长宽比是多少，我们都把候选区域变成所需大小。在变换之前我们在框周围扩展p个像素（p=16），然后进行大小的变换。

2.2 检测的测试阶段

在测试阶段我们使用selective search在图片中提取2000左右的预选框（使用selective search的fast模式）。然后变换大小传入CNN进行前向处理，获取特征值。然后为每一个类别使用为该类训练的SVM分类器为每个特征向量打分。给出一个图片中所有区域的得分，然后使用贪婪的非极大值抑制（为每个类别单独调用），然后去掉一些与高分被选区域IoU大于阈值的候选框。

运行时分析。 ** 两个特点使我们的检测非常高效。第一，所有的CNN参数不区分类别，是跨类别共享的；第二，与其他的检测方式相比，CNN中特征向量的计算都是低维度的，例如，视觉文字的空间金字塔编码。在UVA检测系统中使用的特征向量比我们大两个数量级（360K VS 4K）。**

**这种共享的好处是，计算候选区域和特征值的时间（13s/img on GPU, 53s/img on CPU）分摊在所有的类别上。**仅在特征向量和SVM权重的点积和NMS中是类别相关的计算。在实际运算中，一个图片的所有点乘可以作为矩阵和矩阵的乘积批量执行。特征向量的矩阵一般是2000x4096，SVM权重矩阵是4096xN，N是类别的数量。

分析显示，R-CNN可以扩展到数千类别物体的检测，而不需要借助与其他技术（例如hashing）。即使有10万个类别，现代cpu计算矩阵乘法也只需要10秒。我们使用候选区域和共享特征值不仅仅是因为效率。UVA系统中，由于高维度的特征值，存储10万个线性预测器需要使用134G的内存，而R-CNN使用更低维的特征，只需要使用1.5G的内存，比UVA少了两个数量级。

将R-CNN与Dean等人关于使用DPMS和hashing实现可伸缩检测进行比较也很有意思。当使用10K个分类器，每五分钟处理一张图片，在VOC 2007上mAP可以达到16%。我们的方法10k个检测器CPU上运行大约一分钟，因为没有任何的近似值，所以mAP仍保持在59%。

2.3训练

有监督的预训练。 在一个大型辅助数据集（ILSVRC2012 分类数据集）上面有差别的对CNN网络进行预训练，只使用图片级别的标注信息（没有边框信息）。预训练使用的使开源的Caffe CNN的实现。总体来说我们的CNN性能接近Krizhesky等人的网络性能，在ILSVRC2012分类的验证集上的top-1错误率比他们高了2.2%。这种差异主要是由于处理过程简化导致的。

特定领域的微调。 为了使我们的CNN网络适应新的任务（检测）和新的领域（变化后的预选窗），我们仅用变化后的候选框作为输入继续使用SGD来训练CNN的参数。除了使用一个随即初始化的（N+1)-way的分类层来替代CNN针对ImageNet的1000-way的分类层（N是类别的数量，1是背景），整个CNN的框架没有变化。对于VOC，N=20，对于ILSVRC2013，N=200。我们将预选框与标注数据的框IoU大于等于0.5的标记为该类别的正样本，其他的标记为负样本。我们将SGD的初始学习率设置为0.001(预训练的1/10)，这样既可以起到微调的作用，也不会破坏与训练的结果。SGD的每一个迭代中，使用32个正样本（包括所有类别的）和96个背景框（负样本）组成一个大小为128的小批量数据。我们倾向于将预选框判定为正样本，因为正样本的数量相对负样本非常少。

目标类别分类器。 假如训练一个二元分类器来检测汽车。一个边框紧紧围绕一个汽车的区域应该是一个正样本。类似的，也可以确定与汽车没有任何关系的属于背景，应该属于负样本。与汽车只是部分重叠是不明确的，该标记为正样本还是负样本。我们通过IoU超过一个阈值来解决该问题，小于该阈值的定为负样本。这个阈值定为0.3，是在验证集上通过网格搜索选择出来的。我们发现谨慎的选择该阈值是非常重要的。设置为0.5，mAP会降低5个百分点。类似的设置为0，mAP降低4个百分点。只是简单的将每个类别的ground-truth设置为正样本。
一旦特征被提取出来，再加上训练的标签，就可以为每个类别优化一个线性的SVM分类器了。由于训练数据太大不能够全部放到内存中，我们使用了标准困难负样本挖掘方法。困难负样本挖掘收敛迅速，在实践中，只要对所有图片进行一轮训练mAP就停止增长了。

对于目标bai检测中我们会事先标记处ground truth，然du后再算法中zhi会生成一系列proposal，这些proposal有跟标记dao的ground truth重合的也有没重合的，那么重合度（IOU）超过一定阈值（通常0.5）的则认定为是正样本，以下的则是负样本。然后扔进网络中训练。However，这也许会出现一个问题那就是正样本的数量远远小于负样本，这样训练出来的分类器的效果总是有限的，会出现许多false positive，把其中得分较高的这些false positive当做所谓的Hard negative，既然mining出了这些Hard negative，就把这些扔进网络再训练一次，从而加强分类器判别假阳性的能力。

在附录B中我们将讨论为什么在微调和SVM训练中正负样本的定义不同。我们也会讨论为什么会训练SVM而不是直接使用微调过的CNN网络的softmax的输出。

2.4 PASCAL VOC 2010-12上的执行结果

根据PASVAL VOC上的最佳实践，我们在VOC 2007数据集上验证了所有的设计和超参。我们在VOC 2012训练集上对CNN进行微调，在VOC 2012训练和验证集上优化SVM，最终获得在VOC 2010-2012数据集上的结果。两个算法变体（包含和不包含边框回归）分别向评估服务器提交了一次测试结果。
表1展示了在VOC 2010上的所有结果。与其他几个方法的比较就不再详细的翻译了。

2.5 在ILSVRC2013上的检测结果

我们使用与PASCAL VOC上相同的超参，在200分类的ILSVRC2013检测数据集上运行R-CNN。提交到评估系统的策略也相同，带边框回归和不带边框回归分别提交一次。
图3中是R-CNN与其他方式的比较，不再详细叙述。

3.可视化、消融和错误模式

3.1 可视化学习的特征

第一层的过滤器是可以直接看到的(它的输入和输出)，并且容易理解。他们用来捕捉定向边和色差。要理解剩下的层有些困难。在[42]的文章中Zeiler和Fergus展示了一种非常吸引人的可视化反卷积的方法。我们提出了一种简单的（也是互补的）非参数化的方式，来展示网络到底学到了什么。
该方法首先从网络中选出一个特定的单元(特征)，然后把它当作目标检测器来使用。也就是说我们要在这一系列的候选框（差不多1000万）上使用该单元来分别计算激活率，然后根据激活率从高到低对候选框进行排序，执行NMS(非最大值抑制)，然后展示出得分最高的区域。我们的方法通过精确显示它作用于哪些输入，让选中的单元“自己说话”。我们避免平均，以看到不同的视觉模式，并深入了解计算单元的计算不变性。

(个人理解：这里选择的一个unit是对应到一种类别的，这种类别可能是具有某种特征的，比如图四中的狗头和点阵具有类似的特征，在所有的预选框上计算feature，如果输入通过计算得到的feature与该unit越相近计算出的activations就越高，这样可以识别出一种类别。)

我们将pool5层的单元可视化，该层是对第五个卷基层也是最后一个卷基层做最大池化。pool5层特征图的维度是6x6x256 = 9216。忽略边界的影响，pool5层中的每个单元在原始227x227像素的输入中都有一个195x195像素的感受野。pool5中间的单元拥有差不多全局感受野，而靠近边界的拥有小一些的并裁剪过的感受野。
图4中的每一行都显示了一个pool5中一个unit计算出的得分最高的16个激活值，这些unit是我们在VOC 2007的test val数据集上进行优化后的CNN网络中选出来的。我们从256个具有特有功能的unit中选择了6个进行了可视化（附录D中有更多）。选择这些unit为典型样例来展示网络学习到了什么。在第二行我们可以看到一个用来识别狗头和点阵。第三行对应的unit用来识别红色斑点。当然还有人脸和其他一些抽象模式的检测器，像文本和带窗子的三角结构。网络似乎学习了一种表示形式，这种表示形式将少量根据类别优化的特征与物体的形状、纹理、颜色和材料属性的分布式表示结合在一起。(个人理解：网络用一个feature表示了物体多种特征)。后面连接的全链接层fc6对这些丰富的特征进行大量的组合，然后进行建模。（个人理解：将各种特征组合起来，比如狗头、狗腿和狗身体结合起来进行建模，就可以识别出一个完整的狗。pool层是一些局部特征或者叫部件，全链接层将部件组合成完整的物体）。

3.2 消融研究

没有调优的各层性能。 为了知道哪些层对检测性能是至关重要的，我们分析了CNN的最后三层在VOC 2007数据集上的结果。pool5层已经在3.1章节作了简要的介绍。最后两层总结如下。
fc6是对pool5的结果作全链接。通过在pool5的特征图(将特征图reshape成一个9126维的向量，一般是flatten)上乘一个4096x9126的权重矩阵，然后在加一个偏置向量来计算fc6的特征。计算出来的特征向量只是一个中间值，还需要逐元素的使用ReLU(半波整流)进行整流。
fc7是网络的最后一层。它在fc6输出的基础上乘以一个4096x4096的权重矩阵，与fc6类似，再加一个偏置向量然后调用半波整形。
我们先看一下在PASCAL上没有微调的CNN结果，即所有的参数只在ILSVRC 2012上面进行预训练。一层一层的分析性能(Table 2的1-3行)发现fc7层的泛化性能比fc6的泛化性能还差。这就意味着在不降低mAP的情况下可以删除CNN中29%的参数，差不多由1680万个。更令人吃惊的是移除fc6和fc7以后仍然能够得到比较好的结果，即使pool5只使用了CNN中6%的参数来计算。**CNN的表现力很大程度上来自于它的卷积层，而不是更大更密集的全连接层。**这一发现表明了仅使用CNN的卷积层来计算任意大小的图片的密集特征图(类似HOG的)的潜在实用性。这种表示方式使在pool5的特征基础上使用包括DPM在内的滑动窗口检测器的试验成为可能。
调优后各层的性能。 现在我们看一下在VOC 2007训练集和验证集上进行调优后层的CNN网络的结果。我们获得了令人吃惊的进步(Table2中的4-6行)：mAP提升了8%达到了54.2%。微调对fc6和fc7的提升比pool5更大更明显，这表明pool5从ImageNet学到的特征是通用的，大部分的提升是pool5的基础上通过学习特定区域的非线性分类器实现的。
与近期特征学习方法的比较。 在PASCAL VOC上尝试的特征学习方式相对较少。我们看一下以DPM(deformable part model:可变形的组件模型)为基础的两种实现方式。作为参考，我们还包括了基于标准HOG的DPM的结果。
第一个DMP的特征学习方法是DMP ST，使用"草图标记"概率直方图来增强HOG特征。直观的说，草图标记是穿过图像中心紧密分布的一些轮廓。需要使用随机森林来为每个像素都计算草图标记概率，该随机森林可以识别35x35像素的区域，类别可能是150个草图标记的一种或者是背景。
第二种DMP的学习方式是DMP HSC，使用稀疏码直方图来替代HOG。为了计算HSC，使用了由100个以7x7像素(灰度)为单位的学习字典，在每个像素处计算稀疏代码激活值。激活值通过三种方式校正（全整流和两个半整流），空间池化、l2归一化、然后进行幂运算。
R-CNN的所有变种算法的性能都高于三种DPM的基本算法（表2，8-10行），包括使用了特征学习的两种。最新版本的DPM只用了HOG特征，与之相比我们的mAP提升了20%：54.2% vs 33.7%，相比增加了61%。HOG与草图标记结合比值用HOG mAP提升了2.5(与内部私有的DMP基线相比，两者都是用了性能不如开源版本的DMP的未公开实现方式)。

3.3网络结构

本文中大部分的结果使用的Krizhevsky等人的网络结构。但是，我们发现选择不同的网络结构对检测性能的影响很大。在表3中展示了最近Simonyan and Zisserman提出的16层的深度网络在VOC 2007上的测试结果。这个网络在最近的ILSVRC 2014分类挑战赛上表现最好之一。该网络是由13个结构相同的层组成，每一层都是3x3的卷积核，还有5个最大池化层出穿插其中，顶部是3个全连接层。因为该网络是OxfrodNet，因此我们称之为"O-Net"，基线网络三TorontoNet，成为"T-Net"。
为了在R-CNN中使用O-Net，我们从Caffe Model Zoo下载了已发布的VGG ILSVRC 16 layers的预训练网络权重。然后使用了与T-Net相同的微调策略。唯一不同的是使用了更小的minibatch（例如24），以满足GPU的内存大小。表3中展示了使用O-Net的R-CNN的性能大大的超过了使用T-Net的R-CNN，mAP从58.5%提升到了66.0%。O-Net的一个很大的缺点是计算时间，O-Net的前向传播时间大约是T-Net的7倍。

3.4检测错误分析

我们使用了Hoiem的非常优秀的检测分析工具，来展示我们方法的错误类别，理解微调是怎么改变他们的，以及我们与DPM的错误类别的比较。完整的介绍该分析工具已经超出了本文的范围，我们鼓励读之参考[23]来了解更多细节（例如，“normalized AP”）。由于分析在上下文关联起来才好理解，我们在图5和图6中进行讨论。

3.5检测框回归

在错误分析的基础上，我们实现了一个简单的方法来减小定为误差。受DPM中检测框回归的启发，我们训练一个线性回归模型使用一个候选区域在pool5中的特征来预测一个新的检测窗口。所有的详细信息在附录C中。在表 1、表2、图5中的结果显示出这个简单的方式修正了大量定为错误的检测结果，mAP提升了3到4个点。

3.6 最终结果

在 ILSVRC 2013上的最终检测结果见图8和图9，在本文的最后。从VAL2集合中随机抽取每个图像，并显示所有检测器的所有检测结果中精度大于0.5的。请注意，这些都不是精心策划的，给人的印象是真实的探测器在行动。图10和图11显示了更多的结果，但这些结果都已经过策划。我们选择每个图片是因为它包含了有趣、令人惊讶或有趣的结果。这里，也显示了所有精度大于0.5的检测结果。

4 ILSVRC2013检测数据集

在第二章节我们展示了在ILSVRC2013数据集上的检测结果。该数据集比PASCAL VOC的种类多很多，需要决定如何使用它。这些决定是非常重要的，我们将在本章节中介绍。

4.1 数据集介绍

ILSVRC2013检测数据集分为三个部分:train(395918)、val(20121)、test(40152)，括号内是图片数量。val和test是按照相同的图片分布来提取的(数据集中不同类别的数量)。这些图片与PASCAL VOC中的图片场景相似，复杂度也接近(目标的数量、种类和姿势)。val和test集都有详尽的标注，一张图片中来自200个类别的每个对象都标记了边框。相反，train数据集是根据ILSVRC2013分类图片的分布来提取的。相对于只在图像中心有一个对象的图像，它的复杂性更加多变。与val和test不同，训练图片由于数量太多，没有详尽的标注信息。任何一张训练图片中，不管是200个类别的哪一种都有可能没有标注。除了这些图片集，每个类别还有额外的负样本图像。每个类别的负样本图片都通过人工检查确认不包含该类别的对象。负样本图片在R-CNN中没有使用。可以了解更多的ILSVRC是怎么收集和注释信息的。
这些分组的特性为训练R-CNN提供了许多的选项。训练集(train)不能用来挖掘困难负样本，因为它的注释并不详尽。那负样本怎么获取呢？此外，train数据集与val和test的统计特性不同(个人理解：应该是指不同类别的图片数量，每张图片的对象数量等等)。因此是否应该使用train数据集，多大程度上应用train数据集，是个问题。虽然我们还没有对大批量的处理方式进行彻底评估，但是根据以往的经验，我们提出了一个似乎最合理的选择。

hard negative mining，困难样本挖掘，简单的说就是有些样本应该不是人，但是识别成了人，这种样本很容易出错，当然对训练价值也大，可以将这些样本添加到训练集中作为负样本来训练模型

我们的总体策略是以val为主，以train中的一些图片对正样本进行补充。使用val进行训练和验证，我们将val分成了val1和val2大小相等的两部分。由于val中有些类别的图片数量非常少(最少的31张，有一半类别少于110张)，因此要保证分开的两部分的类别数量应该大概相同。有很多的分割方法，我们选择了类别最平衡的一种。每个分割方法都是以这样的方式生成的，首先按照类别将图片聚集在一起，图片的数量作为一个属性或着分割的参数，然后随机的局部搜索可以提高分割的平衡(个人理解：随机的从不同类别中选取图片，同时要考虑到图片的数量)。这里使用的方法最大数相对平衡为11%，中位数相对平衡为4%。分割方法是公开的，其他研究人员可以用来与自己的方法进行比较。

Relative imbalance is measured as |a − b|/(a + b) where a and b are class counts in each half of the split. a和b分别是两部分中类别的数量，通过公式 |a − b|/(a + b) 计算相对平衡。

候选区域

我们使用了与PASCAL相同的候选区域的生成方法。使用了选择性搜索(selective search)方法的快速模式"fast mode"，对val1、val2、test数据集中的每张图片进行处理(但不处理train中图片)。我们需要做一个小的修改来处理这样一个问题：选择性搜索不是尺度固定的，因此产生候选区域的数量取决于图像的分辨率。ILSVRV数据集中的图片大小包含很小到几百万像素的范围，因此在作选择性搜索之前我们先把所有图片的大小调整成固定大小(500像素)。在val数据集选择性搜索方法平均为每个图片生成2403个候选区域，所有真实边界框的召回率(recall)为91.6%(IoU的阈值为0.5)，召回率明显比PASCAL(约98%)低。这说明在生成候选区域阶段还有很大的改进空间。

4.3 训练数据

对于训练数据，我们创建了一组图片和框，框来自于val1中的所有的候选框和真实框与train中每个类别取N个真实框(如果该类别的数量小于N，则全部取出来)。我们称该数据集为val1+trainN。在消融研究中，我们给出了在val2上N∈{0，500，1000}的mAP，（4.5章节）。
在R-CNN中有三个阶段需要训练数据：(1) CNN 微调；(2) 检测器SVM训练；(3)边界回归训练。 使用与PASCAL上相同的配置，在val1+trainN数据集上对CNN进行了50000个迭代的微调。使用一个NVIDIA Tesla K20对caffe实现的CNN微调，运行了13个小时。在SVM的训练中，所有取自val1+trainN的真实框都作为各自类别的正样本。困难负样本挖掘将在从val1中随机选择的子集(5000张图片)上执行。一个初步的实验表明从val1全集中挖掘负样本与5000张图片子集(差不多一半)相比，mAP只下降了0.5，但SVM的训练时间缩短了一半。没有从train中取负样本是因为train中的标记不够详尽。额外的一组负样本并没有使用。边界回归同样是在val1上进行。

4.4 验证和推理

在将结果提交到评估服务器之前，我们使用上面描述的训练数据来验证数据使用的方式和在val2数据集上微调对边框回归的影响。所有的超参(例如SVM C的超参，变换区域大小时使用的填充方式、NMS的阈值、边框回归的超参等)都和PASCAL上保持一致。毫无疑问有些超参的选择对于ILSVRC并不是最优的，但是这项工作的目的是在没有大量数据微调的前提下来产生一个R-CNN的初步结果。我们选择了在val2上最佳的参数配置后，向ILSVRC2013评估服务器提交了两个结果。一个结果带有边框回归另一个不带。为了提交更好的结果，我们扩展了SVM和边框回归的训练集，分别是val+train1K和val。我们使用在val+train1k的数据集上微调过的CNN，这样可以避免重复的微调和特征计算。

4.5消融研究

表4中展示了不同数量的训练数据、微调、边框回归的消融研究数据。得到的第一个观察结果就是val2上的mAP与test数据集上的mAP非常接近。这能够说明val2的mAP是test数据集性能的一个很好的指标。第一个结果（20.9%）是R-CNN使用在ILSVRC2012分类数据集上预先训练过的CNN实现的（无微调），并使用了val1中的少量训练数据（回想一下val1中有一半的类别只有15到55个图片）。将训练集扩展到val1+trainN可将性能提高到24.1%，N=500和N=1000之间基本上没有差别。使用val1中的样本对CNN进行微调，精度微涨到了26.5%，但是由于正样本数量太少可能会导致过拟合。将微调的数据集扩展到val1+train1K，这样训练集中每个类别有1000个正样本，mAP也有了明显的提升，达到29.7%。边框回归可以将结果提升到31%，没有在PASCAL上提升的多。

4.6 与OverFeat的关系

R-CNN与OverFeat的关系非常有趣：OverFeat可以看作（大致上）R-CNN的一个特例。如果将选择性搜索生成候选区域替换为正方形的多尺度金字塔方式，将每个类的边界回归替换为单个框的回归，那么两个系统非常相似(只在训练方式上有差异：CNN的检测微调、使用SVM等)。值的注意的是OverFeat在速度方面有很大的优势：比R-CNN快了9倍，每张图片处理时间为2秒。OverFeat为什么这么快呢？是由于OverFeat的滑动窗口(即候选区域)是没有在图像级别上修改大小的，因此重叠的窗口可以共享计算的结果。共享是通过在任意大小的输入上运行整个卷积网络来实现的。R-CNN有很多方式来提高速度，也是未来要做的工作。

OverFeat是早期经典的one-stage Object Detection的方法，基于AlexNet，实现了识别、定位、检测共用同一个网络框架；获得了2013年ILSVRC定位比赛的冠军。OverFeat方法的主要创新点是 multiscale 、sliding window、offset pooling，以及基于AlexNet的识别、定位和检测方法的融合。

5 语义分割

区域分类是语义分割的标准技术，因此我们可以很容易的将R-CNN应用到PASCAL VOC分割挑战上。为了便于与当前最好的语义分割系统(叫做O2P，“second-order pooling”)，我们在他们的开源框架内进行相关的工作。O2P使用CPMC来为每张图片生成150个候选区域，然后使用支撑向量回归(support vector regression，SVP)来为每个区域预测属于每个类别的可能性。这种方法的高性能主要源自CPMC生成的高质量的候选区域和强大的多种特征类型(SIFT和LBP的多种多样的变体)二阶池化。我们还看到Farabet等人,使用CNN作为多尺度逐像素的分类器，在几个密集场景的标记数据集(不包括PASCAL)上取的了不错的成绩。
我们遵循[2，4]并将Hariharan等人提供的额外注释添加到了PASCAL分割训练集，以包括Hariharan等人提供的额外注释。[22]。设计选择和超参数在VOC 2011验证集上进行了交叉验证。最终测试结果仅评估一次。
**用于分割的CNN特征。**我们评估了三种计算CPMC区域特征的策略，三种策略计算之前都需要将区域外围的矩形窗口整形到227x227大小。第一种策略(完全)忽略区域的形状，直接在整形后的窗口上计算CNN的特征值，就像在检测时做的那样。但是这种方法忽略了矩形窗口中不属于该物体区域的部分。两个区域可能会有两个很接近的框，但是着两个区域的交叉面积可能很小。(个人理解：这种方法直接按照能够框起该区域的矩形框来计算特征值，但是矩形内可能有很多区域并不属于要预测的区域)。因此，**第二个策略(fg，fore ground)，只在前景覆盖的区域上计算CNN的特征值。我们使用输入的平均值来替代背景，这样减去平均值后背景就变成了0。**第三种策略(full+fg)简单的将full和fg的特征串联起来，我们的实验证实他们是互补的。
**在VOC 2011上的结果。**表5中展示了我们在VOC 2011验证集结果与O2P结果的比较。(附录E中是每个类别的结果)。三种计算策略中，fc6的性能都比fc7好，下面的讨论都是基于fc6的特征。fg的性能略优于full，这表明只使用前景有效区域(mask区域)可以提供更强的信号，这与我们的直接相符。然而，full+fg的平均准确率为47.9%，比fg的最佳结果高了4.2%（也略微优于O2P），这表明即使考虑到fg特征，由full-features提供的上下文信息也非常丰富。值得注意的是，使用full+fg特征训练20个SVR，一个核只需要1个小时，而O2P特征训练则需要10个多小时。
在表6中，给出了在VOC 2011测试集上的结果。使用我们表现最好的方式，fc6(full+fg),与两个最强基线做比较。我们的方法在21个类别中有11个类别达到了最高的分割准确率，所有类别的平均分割准确率为47.9%，在所有类别之间平均（但与O 2 P结果在合理的误差范围内）。当然通过微调可以进一步提升性能。

6. 结论

近年来，目标检测性能一直停滞不前。性能最好的系统是将多个低级图像特征与对象检测器和场景分类器的高级上下文相结合的复杂集合。本文提出了一种简单且可扩展的目标检测算法，与PASCAL VOC 2012上的最佳结果相比，相对精度提高了30%。
我们主要依靠两个方面来达到这种精度。第一个是在自下而上的候选区域上应用了大容量的卷积神经网络，来定为和分割物体。第二个是在缺乏训练数据的前提下训练大型的CNN网络的方法。研究表明，先用一个辅助任务用大量的数据(图像分类)对网络进行有监督的与训练，然后再针对数据缺乏的目标任务(检测)对网络进行微调，是非常有效的。我们推测，“有监督的预训练/特定领域的微调”的方法对于各种数据稀缺的视觉问题将是非常有效的。
我们注意到，将计算机视觉的经典工具和深度学习(自下而上的候选区域和卷积神经网络)结合起来对我们达到这些结果的作用非常大。两者不是对立的科学研究路线，而是自然和不可避免的伙伴。

附录

有时间再译。。。

你可能感兴趣的:(卷积神经网络,目标检测)

深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
横幅检测数据集-1500张图片智慧城市管理活动现场管理商业广告分析
横幅检测数据集-1500张图片已发布目标检测数据集合集（持续更新）️横幅检测数据集介绍数据集概览检测目标类型应用场景数据样本展示使用建议1.数据预处理优化2.模型训练策略3.实际部署考虑4.应用场景适配5.性能优化建议数据集特色商业价值技术实现路径模型选择建议特殊技术考虑集成方案建议应用效果评估性能指标建议业务价值指标YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.
【三维感知目标检测论文阅读】《Point RCNN: An Angle-Free Framework for Rotated Object Detection》
今天给大家带来的论文是2019年的《PointRCNN:AnAngle-FreeFrameworkforRotatedObjectDetection》。尽管这是一篇较早的纯点云检测论文，但我把它放在了最后来讲。因为在了解了各类主流方法后，再回过头来阅读它会有更深的理解。PointRCNN采用自底向上的方式直接从点云生成高质量的3D候选框，其对于旋转框的无角度（Angle-Free）处理方式，对于理
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
【CNN】卷积神经网络池化- part2
1.池化降采样，减少参数数量，避免过拟合，提高鲁棒性2.池化操作池化操作(也称为下采样，Subsampling)类似卷积操作，使用的也是一个很小的矩阵，叫做池化核，但是池化核本身没有参数，只是通过对输入特征矩阵本身进行运算，它的大小通常是2x2、3x3、4x4等，其中2x2使用频率最高。然后将池化核在卷积得到的输出特征图中进行池化操作，需要注意的是，池化的过程中也有Padding方式以及步长的概念
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
BEV+Transformer Monkey PilotX 自动驾驶 transformer 深度学习人工智能
在自动驾驶系统中，BEV（Bird’sEyeView）+Transformer主要应用于感知与环境建图（Perception&SceneUnderstanding）环节，尤其是在多传感器融合、目标检测、语义分割、轨迹预测等任务中。在自动驾驶中的关键应用场景应用环节BEV+Transformer的作用感知（Perception）多摄像头图像融合成BEV视角，进行目标检测、语义分割预测（Predict
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam