上大蛋蛋

faster-rcnn论文解读

原文链接：http://blog.csdn.net/u014696921/article/details/52824107

paper链接：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

&创新点

设计Region Proposal Networks【RPN】，利用CNN卷积操作后的特征图生成region proposals，代替了Selective Search、EdgeBoxes等方法，速度上提升明显；
训练Region Proposal Networks与检测网络【Fast R-CNN】共享卷积层，大幅提高网络的检测速度。

&问题是什么

继Fast R-CNN后，在CPU上实现的区域建议算法Selective Search【2s/image】、EdgeBoxes【0.2s/image】等成了物体检测速度提升上的最大瓶颈。

&如何解决问题

。测试过程

Faster R-CNN统一的网络结构如下图所示，可以简单看作RPN网络+Fast R-CNN网络。

注意：上图Fast R-CNN中含特有卷积层，博主认为不是所有卷积层都参与共享。

首先向CNN网络【ZF或VGG-16】输入任意大小图片；
经过CNN网络前向传播至最后共享的卷积层，一方面得到供RPN网络输入的特征图，另一方面继续前向传播至特有卷积层，产生更高维特征图；
供RPN网络输入的特征图经过RPN网络得到区域建议和区域得分，并对区域得分采用非极大值抑制【阈值为0.7】，输出其Top-N【文中为300】得分的区域建议给RoI池化层；
第2步得到的高维特征图和第3步输出的区域建议同时输入RoI池化层，提取对应区域建议的特征；
第4步得到的区域建议特征通过全连接层后，输出该区域的分类得分以及回归后的bounding-box。

。解释分析

RPN网络结构是什么？实现什么功能？具体如何实现？
单个RPN网络结构如下图：

注意：上图中卷积层/全连接层表示卷积层或者全连接层，作者在论文中表示这两层实际上是全连接层，但是网络在所有滑窗位置共享全连接层，可以很自然地用n×n卷积核【论文中设计为3×3】跟随两个并行的1×1卷积核实现，文中这么解释的，博主并不是很懂，尴尬。

功能：实现attention机制，如图所示，RPN在CNN卷积层后增加滑动窗口操作以及两个卷积层完成区域建议功能，第一个卷积层将特征图每个滑窗位置编码成一个特征向量，第二个卷积层对应每个滑窗位置输出k个区域得分和k个回归后的区域建议，并对得分区域进行非极大值抑制后输出得分Top-N【文中为300】区域，告诉检测网络应该注意哪些区域，本质上实现了Selective Search、EdgeBoxes等方法的功能。

具体实现：
①首先套用ImageNet上常用的图像分类网络，本文中试验了两种网络：ZF或VGG-16，利用这两种网络的部分卷积层产生原始图像的特征图；

② 对于①中特征图，用n×n【论文中设计为3×3，n=3看起来很小，但是要考虑到这是非常高层的feature map，其size本身也没有多大，因此9个矩形中，每个矩形窗框都是可以感知到很大范围的】的滑动窗口在特征图上滑动扫描【代替了从原始图滑窗获取特征】，每个滑窗位置通过卷积层1映射到一个低维的特征向量【ZF网络：256维；VGG-16网络：512维，低维是相对于特征图大小W×H，typically~60×40=2400】后采用ReLU，并为每个滑窗位置考虑k种【论文中k=9】可能的参考窗口【论文中称为anchors，见下解释】，这就意味着每个滑窗位置会同时预测最多9个区域建议【超出边界的不考虑】，对于一个W×H的特征图，就会产生W×H×k个区域建议；

③步骤②中的低维特征向量输入两个并行连接的卷积层2：reg窗口回归层【位置精修】和cls窗口分类层，分别用于回归区域建议产生bounding-box【超出图像边界的裁剪到图像边缘位置】和对区域建议是否为前景或背景打分，这里由于每个滑窗位置产生k个区域建议，所以reg层有4k个输出来编码【平移缩放参数】k个区域建议的坐标，cls层有2k个得分估计k个区域建议为前景或者背景的概率
Anchors是什么？有什么用？
Anchors是一组大小固定的参考窗口：三种尺度{128^2，256^2，512^2}×三种长宽比{1:1，1:2，2:1}，如下图所示，表示RPN网络中对特征图滑窗时每个滑窗位置所对应的原图区域中9种可能的大小，相当于模板，对任意图像任意滑窗位置都是这9中模板。继而根据图像大小计算滑窗中心点对应原图区域的中心点，通过中心点和size就可以得到滑窗位置和原图位置的映射关系，由此原图位置并根据与Ground Truth重复率贴上正负标签，让RPN学习该Anchors是否有物体即可。

作者在文中表示采用Anchors这种方法具有平移不变性，就是说在图像中平移了物体，窗口建议也会跟着平移。同时这种方式也减少了整个模型的size，输出层512×(4+2)×9=2.8×10^4个参数【512是前一层特征维度，(4+2)×9是9个Anchors的前景背景得分和平移缩放参数】，而MultiBox有1536×（4+1）×800=6.1×10^6个参数，而较小的参数可以在小数据集上减少过拟合风险。

当然，在RPN网络中我们只需要找到大致的地方，无论是位置还是尺寸，后面的工作都可以完成，这样的话采用小网络进行简单的学习【估计和猜差不多，反正有50%概率】，还不如用深度网络【还可以实现卷积共享】，固定尺度变化，固定长宽比变化，固定采样方式来大致判断是否是物体以及所对应的位置并降低任务复杂度。
Anchors为什么考虑以上三种尺度和长宽比？
文中对Anchors的尺度以及长宽比选取进行了实验，如下图所示：

实验实在VGG-16模型下，采用PASCAL VOC 2007训练集和PASCAL VOC 2007测试集得到。相比于只采用单一尺度和长宽比，单尺度多长宽比和多尺度单长宽比都能提升mAP，表明多size的anchors可以提高mAP，作者在这里选取了最高mAP的3种尺度和3种长宽比。
如何处理多尺度多长宽比问题？即如何使24×24和1080×720的车辆同时在一个训练好的网络中都能正确识别？
文中展示了两种解决多尺度多长宽比问题：一种是使用图像金字塔，对伸缩到不同size的输入图像进行特征提取，虽然有效但是费时；
另一种是使用滤波器金字塔或者滑动窗口金字塔，对输入图像采用不同size的滤波器分别进行卷积操作，这两种方式都需要枚举图像或者滤波器size；
作者提出了一种叫Anchors金字塔的方法来解决多尺度多长宽比的问题，在RPN网络中对特征图滑窗时，对滑窗位置中心进行多尺度多长宽比的采样，并对多尺度多长宽比的anchor boxes区域进行回归和分类，利用Anchors金字塔就仅仅依赖于单一尺度的图像和特征图和单一大小的卷积核，就可以解决多尺度多长宽比问题，这种对推荐区域采样的模型不管是速度还是准确率都能取得很好的性能。
同传统滑窗方法提取区域建议方法相比，RPN网络有什么优势？
传统方法是训练一个能检测物体的网络，然后对整张图片进行滑窗判断，由于无法判断区域建议的尺度和长宽比，所以需要多次缩放，这样找出一张图片有物体的区域就会很慢；
虽然RPN网络也是用滑动窗口策略，但是滑动窗口实在卷积层特征图上进行的，维度较原始图像降低了很多倍【中间进行了多次max pooling 操作】,RPN采取了9种不同尺度不同长宽比的anchors，同时最后进行了bounding-box回归，即使是这9种anchors外的区域也能得到一个跟目标比较接近的区域建议。

。训练过程

RPN网络预训练

样本	来源
正样本	ILSVRC20XX
负样本	ILSVRC20XX

样本中只有类别标签；
文中一带而过RPN网络被ImageNet网络【ZF或VGG-16】进行了有监督预训练，利用其训练好的网络参数初始化；
用标准差0.01均值为0的高斯分布对新增的层随机初始化。

Fast R-CNN网络预训练

样本	来源
正样本	ILSVRC20XX
负样本	ILSVRC20XX

样本中只有类别标签；
文中一带而过Fast R-CNN网络被ImageNet网络【ZF或VGG-16】进行了有监督预训练，利用其训练好的网络参数初始化。

RPN网络微调训练

RPN网络样本	来源
正样本	与Ground Truth相交IoU最大的anchors【以防后一种方式下没有正样本】+与Ground Truth相交IoU>0.7的anchors
负样本	与Ground Truth相交IoU<0.3的anchors

PASCAL VOC 数据集中既有物体类别标签，也有物体位置标签；
正样本仅表示前景，负样本仅表示背景；
回归操作仅针对正样本进行；
训练时弃用所有超出图像边界的anchors，否则在训练过程中会产生较大难以处理的修正误差项，导致训练过程无法收敛；
对去掉超出边界后的anchors集采用非极大值抑制，最终一张图有2000个anchors用于训练【详细见下】；
对于ZF网络微调所有层，对VGG-16网络仅微调conv3_1及conv3_1以上的层，以便节省内存。

SGD mini-batch采样方式：同Fast R-CNN网络，采取”image-centric”方式采样，即采用层次采样，先对图像取样，再对anchors取样，同一图像的anchors共享计算和内存。每个mini-batch包含从一张图中随机提取的256个anchors，正负样本比例为1:1【当然可以对一张图所有anchors进行优化，但由于负样本过多最终模型会对正样本预测准确率很低】来计算一个mini-batch的损失函数，如果一张图中不够128个正样本，拿负样本补凑齐。

训练超参数选择：在PASCAL VOC数据集上前60k次迭代学习率为0.001，后20k次迭代学习率为0.0001；动量设置为0.9，权重衰减设置为0.0005。

一张图片多任务目标函数【分类损失+回归损失】具体如下：

L ({p i}, {t i}) = 1 N c l s \sum i L c l s (p i, p * i) + λ 1 N r e g \sum i p * i L r e g (t i, t * i)

解释说明：

其中，i表示一个mini-batch中某个anchor的下标， pi 表示anchor i预测为物体的概率；当anchor为正样本时， p∗i=1 ，当anchor为负样本时 p∗i=0 ，由此可以看出回归损失项仅在anchor为正样本情况下才被激活；

ti 表示正样本anchor到预测区域的4个平移缩放参数【以anchor为基准的变换】； t∗i 表示正样本anchor到Ground Truth的4个平移缩放参数【以anchor为基准的变换】；

分类损失函数 Lcls 是一个二值【是物体或者不是物体】分类器， Lcls(pi，p∗i)=−log[p∗ipi+(1−p∗i)(1−pi)] ；

归回损失函数 Lreg(ti,t∗i)=R(ti−t∗i) 【两种变换之差越小越好】，R函数定义如下：

s m o o t h L 1 (x) = {0.5 x 2, | x | - 0.5 if | x | < 1 otherwise

λ 参数用来权衡分类损失 Lcls 和回归损失 Lreg ，默认值 λ=10 【文中实验表明 λ 从1变化到100对mAP影响不超过1%】；

Ncls 和 Nreg 分别用来标准化分类损失项 Lcls 和回归损失项 Lreg ，默认用mini-batch size=256设置 Ncls ，用anchor位置数目~2400初始化 Nreg ，文中也说明标准化操作并不是必须的，可以简化省略。

Fast R-CNN网络微调训练

Fast R-CNN网络样本	来源
正样本	Ground Truth +与Ground Truth相交IoU>阈值的区域建议
负样本	与Ground Truth相交IoU<阈值的区域建议

PASCAL VOC 数据集中既有物体类别标签，也有物体位置标签；
正样本表示每类物品的Ground Truth以及与Ground Truth重叠度超过某一阈值的区域建议，负样本表示同Ground Truth重叠度小于某一阈值的区域建议；
回归操作仅针对正样本进行。

RPN网络、Fast R-CNN网络联合训练
训练网络结构示意图如下所示：

如上图所示，RPN网络、Fast R-CNN网络联合训练是为了让两个网络共享卷积层，降低计算量。
文中通过4步训练算法，交替优化学习至共享特征：
① 进行上面RPN网络预训练，和以区域建议为目的的RPN网络end-to-end微调训练；
② 进行上面Fast R-CNN网络预训练，用第①步中得到的区域建议进行以检测为目的的Fast R-CNN网络end-to-end微调训练【此时无共享卷积层】；
③ 使用第②步中微调后的Fast R-CNN网络重新初始化RPN网络，固定共享卷积层【即设置学习率为0，不更新】，仅微调RPN网络独有的层【此时共享卷积层】；
④ 固定第③步中共享卷积层，利用第③步中得到的区域建议，仅微调Fast R-CNN独有的层，至此形成统一网络如上图所示。

。解释分析

RPN网络中bounding-box回归怎么理解？同Fast R-CNN中的bounding-box回归相比有什么区别？
对于bounding-box回归，采用以下公式：
$t x = (x - x a) / w a t y = (y - y a) / h a$ $t w = l o g (w / w a) t h = l o g (h / h a)$ $t * x = (x * - x a) / w a t * y = (y * - y a) / h a$ $t * w = l o g (w * / w a) t * h = l o g (h * / h a)$

其中，x，y，w，h表示窗口中心坐标和窗口的宽度和高度，变量 x ， xa 和 x∗ 分别表示预测窗口、anchor窗口和Ground Truth的坐标【y，w，h同理】，因此这可以被认为是一个从anchor窗口到附近Ground Truth的bounding-box 回归；

RPN网络中bounding-box回归的实质其实就是计算出预测窗口。这里以anchor窗口为基准，计算Ground Truth对其的平移缩放变化参数，以及预测窗口【可能第一次迭代就是anchor】对其的平移缩放参数，因为是以anchor窗口为基准，所以只要使这两组参数越接近，以此构建目标函数求最小值，那预测窗口就越接近Ground Truth，达到回归的目的；

文中提到， Fast R-CNN中基于RoI的bounding-box回归所输入的特征是在特征图上对任意size的RoIs进行Pool操作提取的，所有size RoI共享回归参数，而在Faster R-CNN中，用来bounding-box回归所输入的特征是在特征图上相同的空间size【3×3】上提取的，为了解决不同尺度变化的问题，同时训练和学习了k个不同的回归器，依次对应为上述9种anchors，这k个回归量并不分享权重。因此尽管特征提取上空间是固定的【3×3】，但由于anchors的设计，仍能够预测不同size的窗口。
文中提到了三种共享特征网络的训练方式？
① 交替训练
训练RPN，得到的区域建议来训练Fast R-CNN网络进行微调；此时网络用来初始化RPN网络，迭代此过程【文中所有实验采用】；

② 近似联合训练
如上图所示，合并两个网络进行训练，前向计算产生的区域建议被固定以训练Fast R-CNN；反向计算到共享卷积层时RPN网络损失和Fast R-CNN网络损失叠加进行优化，但此时把区域建议【Fast R-CNN输入，需要计算梯度并更新】当成固定值看待，忽视了Fast R-CNN一个输入：区域建议的导数，则无法更新训练，所以称之为近似联合训练。实验发现，这种方法得到和交替训练相近的结果，还能减少20%~25%的训练时间，公开的python代码中使用这种方法；

③ 联合训练
需要RoI池化层对区域建议可微，需要RoI变形层实现，具体请参考这片paper：Instance-aware Semantic Segmentation via Multi-task Network Cascades。
图像Scale细节问题？
文中提到训练和检测RPN、Fast R-CNN都使用单一尺度，统一缩放图像短边至600像素；
在缩放的图像上，对于ZF网络和VGG-16网络的最后卷积层总共的步长是16像素，因此在缩放前典型的PASCAL图像上大约是10像素【~500×375；600/16=375/10】。

网上关于Faster R-CNN中三种尺度这么解释：
原始尺度：原始输入的大小，不受任何限制，不影响性能；
归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定，这个参数和anchor的相对大小决定了想要检测的目标范围；
网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224×224。
以上6行博主并不懂，还需要仔细研究源码。
理清文中anchors的数目。
文中提到对于1000×600的一张图像，大约有20000(~60×40×9)个anchors，忽略超出边界的anchors剩下6000个anchors，利用非极大值抑制去掉重叠区域，剩2000个区域建议用于训练；
测试时在2000个区域建议中选择Top-N【文中为300】个区域建议用于Fast R-CNN检测。

&结果怎么样

PASCAL VOC实验【使用ZF网络】

属性	数目
目标类别	20
PASCAL VOC 2007训练集	5k
PASCAL VOC 2007测试集	5k

a.第1组实验
目的：验证RPN方法的有效性；
做法：ZF检测网络训练和测试时分别使用Selective Search、EdgeBoxes和RPN+ZF【共享】方法，Selective Search、EdgeBoxes测试时使用2000窗口建议，RPN+ZF测试时采用300窗口建议；
结果：RPN+ZF方法获得59.9%的mAP，由于卷积层共享并且只有300个候选窗口，RPN+ZF方法检测速度更快；

b.第2组实验
目的：验证RPN和ZF检测网络共享卷积层的影响；
做法：在之前所述4步训练算法进行到第2步后停止；
结果：未实现卷积层共享的RPN+ZF的方法获得58.7%的mAP，这由于4步训练算法的第3步使用了微调后检测器特征来微调RPN网络，使得建议窗口质量得到提高；

c.第3组实验
目的：使用不同RPN候选窗数目下，评估其对检测网络mAP的影响；
做法：使用Selective Search方法训练检测网络ZF并固定不变【RPN与ZF没有共享卷积层】，测试时采用不同RPN候选窗数目进行；
结果：测试时300候选窗RPN获得56.8%的mAP，这是由于训练和测试的区域建议方法不一致造成；使用Top-100窗口建议仍然有55.1%的mAP，说明Top-100结果比较准确；未使用非极大值抑制的6000个区域建议全部使用进行检测获得55.2%的mAP，说明非极大值抑制并未损坏精度，反而可能减少了误报；

d.第4组实验
目的：验证RPN网络cls窗口分类层影响；
做法：使用Selective Search方法训练检测网络ZF并固定不变【RPN与ZF没有共享卷积层】，移除RPN网络中cls窗口分类层【缺少分数就没有了非极大值抑制和Top排名】，从未评分的窗口建议中随机采用N个；
结果：N=1000时，mAP为55.8%影响不大，但N=100时mAP为44.6%，说明cls窗口分类层的评分准确度高，影响检测结果精度；

e.第5组实验
目的：验证RPN网络reg窗口回归层影响；
做法：使用Selective Search方法训练检测网络ZF并固定不变【RPN与ZF没有共享卷积层】，移除RPN网络reg窗口回归层【候选区域直接变成没有回归的anchor boxes】；
结果：选择Top-300进行实验，mAP掉到了52.1%，说明窗口回归提高了区域建议的质量，虽然说anchor boxes能应对不同尺度和宽高比，但是对于精确检测远远不够；

f.第6组实验
目的：验证优质量网络对RPN产生区域建议的影响；
做法：使用Selective Search方法训练检测网络ZF并固定不变【RPN与ZF没有共享卷积层】，采用VGG-16网络训练RPN提供候选区域；
结果：与第3组实验测试时300候选窗RPN获得56.8%的mAP相比，采用VGG-16训练RPN使得mAP达到59.2%，表明VGG-16+RPN提供区域建议质量更高【不像死板板的Selective Search，RPN可以从更好的网络中获利进行变化】，因此RPN和检测网络同时采用VGG-16并共享卷积层会如何呢？结果见下。

RPN网络和检测网络同时采用VGG-16并共享卷积层，在PASCAL VOC 2007训练集上训练，测试集上获得69.9%的mAP；在联合数据集如PASCAL VOC 2007和2012训练集上训练RPN网络和检测网络，PASCAL VOC 2007测试集上mAP会更高。
对于检测速度而言，采用ZF模型，可以达到17fps；采用VGG-16模型，可以达到5fps，由于卷积共享，RPN网络仅仅花10ms计算额外的层，而且，由于仅仅选取Top-N【文中为300】进行检测，检测网络中的非极大值抑制、池化、全连接以及softmax层花费时间是极短的。
召回率分析。所谓召回率即区域建议网络找出的为真的窗口与Ground Truth的比值【IoU大于阈值即为真】，文中实验表明Selective Search、EdgeBoxes方法从Top-2000、Top-1000到Top-300的召回率下降明显，区域建议越少下降越明显，而RPN网络召回率下降很少，说明RPN网络Top-300区域建议已经同Ground Truth相差无己，目的性更明确。

MS COCO实验【使用VGG-16网络】

属性	数目
目标类别	80
Microsoft COCO训练集	80k
Microsoft COCO验证集	40k
Microsoft COCO测试集	20k

采用8-GPU并行训练，则RPN有效mini-batch 为8张图，Fast R-CNN有效mini-batch为16张图；
RPN和Fast R-CNN以0.003【由0.001改为0.003，由于有效mini-batch被改变了】的学习率迭代240k次，以0.0003的学习率迭代80k次；
对于anchors，在三种尺度三种长宽比基础上增加了64^2的尺度，这是为了处理Microsoft COCO数据集上的小目标【新数据集上不直接套用这一点值得学习】；
增加定义负样本IoU，重叠阈值由[0.1，0.5) 到[0，0.5)，这能提升COOC数据集上mAP；
使用COCO训练集训练，COCO测试集上获得42.1%的mAP @0.5 和21.5%的mAP @[.5，.95]。

6.与VGG-16相比，利用ResNet-101网络，在COCO验证集上mAP从41.5%/21.2%(@0.5/@[.5，.95])变化到48.4%/27.2%，归功于RPN网络可以从更好的特征提取网络中学到更好的区域建议。

7.由于Microsoft COCO数据集种类包含PASCAL VOC数据集种类，文中在Microsoft COCO数据集上训练，在PASCAL VOC数据集上测试，验证大数据量下训练是否有助于提高mAP?
采用VGG-16模型，当仅仅利用Microsoft COCO数据集训练时，PASCAL VOC 2007测试集上mAP达到76.1%【泛化能力强，未过拟合】；当利用Microsoft COCO数据集训练的模型初始化，PASCAL VOC 2007+2012训练集进行微调，PASCAL VOC 2007测试集上mAP达到78.8%，此时每一个单体类别的AP较其它样本训练的都达到最高，而每张图测试时间仍然约为200ms。

&还存在什么问题

采用VGG-16模型，可以达到5fps，这个速度并没有完全达到实时性，还有继续提升的空间，这将在YOLO模型中得以改进。

reference link：
http://blog.csdn.net/shenxiaolu1984/article/details/51152614
http://blog.csdn.net/luopingfeng/article/details/51245694
http://blog.csdn.net/xyy19920105/article/details/50817725

思想

从RCNN到fast RCNN，再到本文的faster RCNN，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。

faster RCNN可以简单地看做“区域生成网络+fast RCNN“的系统，用区域生成网络代替fast RCNN中的Selective Search方法。本篇论文着重解决了这个系统中的三个问题：
1. 如何设计区域生成网络
2. 如何训练区域生成网络
3. 如何让区域生成网络和fast RCNN网络共享特征提取网络

区域生成网络：结构

基本设想是：在提取好的特征图上，对所有可能的候选框进行判别。由于后续还有位置精修步骤，所以候选框实际比较稀疏。

特征提取

原始特征提取（上图灰色方框）包含若干层conv+relu，直接套用ImageNet上常见的分类网络即可。本文试验了两种网络：5层的ZF[3]，16层的VGG-16[4]，具体结构不再赘述。
额外添加一个conv+relu层，输出51*39*256维特征（feature）。

Region Proposal Networks的设计和训练思路

上图是RPN的网络流程图，即也是利用了SPP的映射机制，从conv5上进行滑窗来替代从原图滑窗。
不过，要如何训练出一个网络来替代selective search相类似的功能呢？
实际上思路很简单，就是先通过SPP根据一一对应的点从conv5映射回原图，根据设计不同的固定初始尺度训练一个网络，就是给它大小不同（但设计固定）的region图，然后根据与ground truth的覆盖率给它正负标签，让它学习里面是否有object即可。
这就又变成介绍RCNN之前提出的traditional method，训练出一个能检测物体的网络，然后对整张图片进行滑窗判断，不过这样子的话由于无法判断region的尺度和scale ratio，故需要多次放缩，这样子测试，估计判断一张图片是否有物体就需要很久。(传统hog+svm->dpm)

如何降低这一部分的复杂度？
要知道我们只需要找出大致的地方，无论是精确定位位置还是尺寸，后面的工作都可以完成，这样子的话，与其说用小网络，简单的学习（这样子估计和蒙差不多了，反正有无物体也就50%的概率），还不如用深的网络，固定尺度变化，固定scale ratio变化，固定采样方式（反正后面的工作能进行调整，更何况它本身就可以对box的位置进行调整）这样子来降低任务复杂度呢。
这里有个很不错的地方就是在前面可以共享卷积计算结果，这也算是用深度网络的另一个原因吧。而这三个固定，我估计也就是为什么文章叫这些proposal为anchor的原因了。这个网络的结果就是卷积层的每个点都有有关于k个achor boxes的输出，包括是不是物体，调整box相应的位置。这相当于给了比较死的初始位置（三个固定），然后来大致判断是否是物体以及所对应的位置.
这样子的话RPN所要做的也就完成了，这个网络也就完成了它应该完成的使命，剩下的交给其他部分完成。

候选区域（anchor）

特征可以看做一个尺度51*39的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积 {1282,2562,5122}× 三种比例 {1:1,1:2,2:1} 。
这些候选窗口称为anchors。
下图示出51*39个anchor中心，以及9种anchor示例。

关于anchor的问题：
这里在详细解释一下:(1)首先按照尺度和长宽比生成9种anchor,这9个anchor的意思是conv5 feature map 3x3的滑窗对应原图区域的大小.这9个anchor对于任意输入的图像都是一样的，所以只需要计算一次. 既然大小对应关系有了，下一步就是中心点对应关系，接下来(2)对于每张输入图像，根据图像大小计算conv5 3x3滑窗对应原图的中心点. 有了中心点对应关系和大小对应关系，映射就显而易见了.

在整个faster RCNN算法中，有三种尺度。
原图尺度：原始输入的大小。不受任何限制，不影响性能。
归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224*224。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Region Proposal Networks

RPN的目的是实现"attention"机制,告诉后续的扮演检测\识别\分类角色的Fast-RCNN应该注意哪些区域,它从任意尺寸的图片中得到一系列的带有 objectness score 的 object proposals。
具体流程是：使用一个小的网络在已经进行通过卷积计算得到的feature map上进行滑动扫描，这个小的网络每次在一个feature map上的一个窗口进行滑动(这个窗口大小为n*n----在这里,再次看到神经网络中用于缩减网络训练参数的局部感知策略receptive field,通常n=228在VGG-16,而作者论文使用n=3)，滑动操作后映射到一个低维向量(例如256D或512D,这里说256或512是低维,Q:n=3,n*n=9,为什么256是低维呢?那么解释一下:低维相对不是指窗口大小,窗口是用来滑动的!256相对的是a convolutional feature map of a size W × H (typically ∼2,400),而2400这个特征数很大,所以说256是低维.另外需要明白的是:这里的256维里的每一个数都是一个Anchor(由2400的特征数滑动后操作后,再进行压缩))最后将这个低维向量送入到两个独立\平行的全连接层:box回归层（a box-regression layer (reg)）和box分类层（a box-classification layer (cls)）

Translation-Invariant Anchors

在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中,小的人脸(24*24的分辨率)和大的人脸(1080*720)如何在同一个训练好权值的网络中都能正确识别. 传统有两种主流的解决方式：
第一:对图像或feature map层进行尺度\宽高的采样;
第二,对滤波器进行尺度\宽高的采样(或可以认为是滑动窗口).
但作者的解决该问题的具体实现是:通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样。如上图右边，文中使用了3 scales and 3 aspect ratios （1:1,1:2,2:1）, 就产生了 k = 9 anchors at each sliding position.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

窗口分类和位置精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率；窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数。
对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

就局部来说，这两层是全连接网络；就全局来说，由于网络在所有位置（共51*39个）的参数相同，所以实际用尺寸为1×1的卷积网络实现。

需要注意的是：并没有显式地提取任何候选窗口，完全使用网络自身完成判断和修正。

区域生成网络：训练

样本

考察训练集中的每张图像：
a. 对每个标定的真值候选区域，与其重叠比例最大的anchor记为前景样本
b. 对a)剩余的anchor，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本
c. 对a),b)剩余的anchor，弃去不用。
d. 跨越图像边界的anchor弃去不用

代价函数

同时最小化两种代价：
a. 分类误差
b. 前景样本的窗口位置偏差

超参数

原始特征提取网络使用ImageNet的分类样本初始化，其余新增层随机初始化。
每个mini-batch包含从一张图像中提取的256个anchor，前景背景样本1:1.
前60K迭代，学习率0.001，后20K迭代，学习率0.0001。
momentum设置为0.9，weight decay设置为0.0005。[5]

共享特征

区域生成网络（RPN）和fast RCNN都需要一个原始特征提取网络（下图灰色方框）。这个网络使用ImageNet的分类库得到初始参数 W0 ，但要如何精调参数，使其同时满足两方的需求呢？本文讲解了三种方法。

轮流训练

a. 从 W0 开始，训练RPN。用RPN提取训练集上的候选区域
b. 从 W0 开始，用候选区域训练Fast RCNN，参数记为 W1
c. 从 W1 开始，训练RPN…
具体操作时，仅执行两次迭代，并在训练时冻结了部分层。论文中的实验使用此方法。
如Ross Girshick在ICCV 15年的讲座Training R-CNNs of various velocities中所述，采用此方法没有什么根本原因，主要是因为”实现问题，以及截稿日期“。

近似联合训练

直接在上图结构上训练。在backward计算梯度时，把提取的ROI区域当做固定值看待；在backward更新参数时，来自RPN和来自Fast RCNN的增量合并输入原始特征提取层。
此方法和前方法效果类似，但能将训练时间减少20%-25%。公布的python代码中包含此方法。

联合训练

直接在上图结构上训练。但在backward计算梯度时，要考虑ROI区域的变化的影响。推导超出本文范畴，请参看15年NIP论文[6]。

实验

除了开篇提到的基本性能外，还有一些值得注意的结论

与Selective Search方法（黑）相比，当每张图生成的候选区域从2000减少到300时，本文RPN方法（红蓝）的召回率下降不大。说明RPN方法的目的性更明确。
使用更大的Microsoft COCO库[7]训练，直接在PASCAL VOC上测试，准确率提升6%。说明faster RCNN迁移性良好，没有over fitting。

Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. ↩
Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. ↩
M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014. ↩
K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015. ↩
learning rate-控制增量和梯度之间的关系；momentum-保持前次迭代的增量；weight decay-每次迭代缩小参数，相当于正则化。 ↩
Jaderberg et al. “Spatial Transformer Networks”
NIPS 2015 ↩
30万+图像，80类检测库。参看http://mscoco.org/

你可能感兴趣的:(faster-rcnn论文解读)

【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
[论文解读] 多机器人系统动态任务分配综述「已注销」算法
https://www.emerald.com/insight/content/doi/10.1108/IR-04-2020-0073/full/html多机器人/多智能体动态环境任务分配决策动态任务调度策略该文章主要是想对目前stateoftheart多机器人动态任务调度策略做一个全面的评价，注意定语挺多的，里面的方法也较多为近几年的智能调度那些算法。衡量方法主要考虑到了应用场景、限制、目标方程
【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate WHATEVER_LEO 每日论文 transformer 深度学习人工智能自然语言处理计算机视觉语言模型
下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并
[arxiv论文解读]LlamaFactory：100+语言模型统一高效微调强化学习曾小健 #LLM大语言模型语言模型人工智能自然语言处理
该文档是一篇关于LLAMAFACTORY的学术论文，这是一个用于高效微调大型语言模型（LLMs）的统一框架。这篇论文详细介绍了LLAMAFACTORY的设计、实现和评估，以及它在语言建模和文本生成任务中的应用。下面是对文档内容的详细解释：摘要（Abstract）背景：大型语言模型（LLMs）在多种应用中展现了卓越的推理能力，但需要有效的微调方法来适应下游任务。问题：现有的高效微调方法缺乏一个系统化
【目标检测论文解读复现NO.38】基于改进YOLOv8模型的轻量化板栗果实识别方法人工智能算法研究院中文核心论文解读复现目标检测 YOLO 目标跟踪
前言此前出了目标改进算法专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读最新目标检测算法论文，帮助大家解答疑惑。解读的系列文章，本人已进行创新点代码复现，有需要的朋友可关注私信我。本文仅对论文代码实现，如果原文章的作者觉得不方便，请联系删除，尊重每一位论文作者。一、摘要为实现自然环境下的板栗果实目
论文解读（全头皮重建方向）：3DCMM FLOWVERSE 3d 3D人头补全
从面部到完整头部：3DCMM的技术原理解析引言在计算机图形学和人体工学领域，3D头部模型的需求日益增加。无论是虚拟化身的创建还是头盔的个性化设计，仅有面部模型往往不足以满足要求，完整的头部几何（包括头皮）才是关键。传统的3D可变形模型（3DMM）多集中于面部重建，头皮区域因数据稀缺和技术限制常被忽略。2022年发表于VRCAI’22的论文《3DCMM:3DComprehensiveMorphabl
遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）岁月如歌，青春不败生态遥感目标检测 cnn transformer 遥感遥感影像
我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5
【AI日记】24.10.30 做项目的一些前期准备工作 AI完全体 AI日记人工智能机器学习自然语言处理 langchain 日记读书学习资源
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】工作工作1内容：看AI大佬访谈B站地址：SamAltman最新5月播客长篇访谈|@All-In播客2024.5.11时间：1.5小时评估：继续工作2内容：思考如何开始自己的RAG项目时间：0.5小时决定：采用搭积木的方法来做自己的RAG项目。从最基础的开始，不断学习各种RAG和NLP相关的技术，然后不断加入到自己的项目中，而不
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
【论文解读】神经网络就像“数学乐高积木”：多层前馈网络如何用简单函数拼接复杂世界神经美学茂森无痛入门神经网络神经网络网络人工智能
K.Hornik,M.Stinchcombe,andH.White.Multilayerfeed-forwardnetworksareuniversalapproximators.NeuralNet-works,2(5):359-366,1989论文解读神经网络就像“数学乐高积木”：多层前馈网络如何用简单函数拼接复杂世界第一节：通俗解释——万能近似定理的核心思想万能近似定理（UniversalAp
DeepSeek-V2 论文解读：混合专家架构的新突破进一步有进一步的欢喜 DeepSeek-V2 大模型 MoE 混合专家架构
论文链接：DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力（MLA）：重塑推理效率（二）DeepSeekMoE：经济高效的训练架构三、预训练（Pre-Training）：夯实模型基础（一）实验设置（二）评估四、对齐（Alignment）：优化模型表现（一
论文解读（MGAE）《MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs》虚幻私塾 python python 开发语言
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统论文信息论文标题：MGAE:MaskedAutoencodersforSelf-SupervisedLearningonG
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读 tangjunjun-owen paper解读 DeepSeek R1 DeepSeek zero 大语言模型
文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:ReinforcementLearningontheBaseModelReinforcementLearningAlgorithm(GRPO重点)Rewar
【AI知识点】余弦相似度（Cosine Similarity） AI完全体 AI知识点人工智能机器学习深度学习线性代数相似性比较自然语言处理向量的距离
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】余弦相似度（CosineSimilarity）是一种用于衡量两个向量在方向上的相似程度的指标。它主要用于文本分析、自然语言处理（NLP）、推荐系统等任务中，能够衡量两个向量之间的相似性，而不受向量的长度（模）影响。可对比点积相似性（dot-productsimilarity）来学习1.余弦相似度的定义余弦相似度通过计算两个向量之间的夹角的
【书生·浦语大模型实战营】学习笔记（一）：全链路开源体系介绍 GoAI 深入浅出LLM 深入浅出AI 大模型书生人工智能 LLM llama
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·浦语大模
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
【AI日记】25.01.25 AI完全体 AI日记人工智能 kaggle 比赛机器学习读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：法治的细节律己AI：8小时，良作息：00:30-8:30，良短视频：大于1小时，差读书和写作：1小时，优饮食：安全健康
【AI知识点】三种不同架构的大语言模型（LLMs）的区别 AI完全体 AI知识点人工智能语言模型自然语言处理机器学习深度学习注意力机制自注意力机制
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder），以及仅解码器的模型（Decoder-only）。这三种架构有着显著的区别，主要体现在功能、适用任务和性能上。下面从架构、功能
LoongServe论文解读：prefill/decode分离、弹性并行、零KV Cache迁移 04290629 LLM笔记 transformer 人工智能算法深度学习
LoongServe论文解读：prefill/decode分离、弹性并行、零KVCache迁移LoongServe:EfficientlyServingLong-contextLargeLanguageModelswithElasticSequenceParallelism论文提出了一种支持弹性分配的推理框架，通过引入弹性序列并行（ElasticSequenceParallelism，简称ESP）
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
Qwen-VL论文解读 dream_home8407 人工智能
Qwen-VL：用于理解、定位、文本阅读等的通用视觉-语言模型摘要在本文中，我们介绍了Qwen-VL系列，这是一组大规模的视觉-语言模型（LVLMs），旨在感知和理解文本和图像。从Qwen-LM开始，我们通过精心设计的（i）视觉受体，（ii）输入-输出接口，（iii）3阶段训练管道，以及（iv）多语言多模态清洗语料库，赋予其视觉能力。除了传统的图像描述和问答，我们还通过图像-标题-框元组的对齐实现
CT-Mamba:一种用于低剂量CT降噪的混合卷积状态空间模型论文解读 ZcZc__1 深度学习人工智能图像处理
论文：CT-Mamba:AHybridConvolutionalStateSpaceModelforLow-DoseCTDenoising代码：zy2219105/CT-Mamba，作者称将会在论文正式发表后提供。本文参考了该网站，其对CT-Mamba提供了更详细的描述：https://www.aimodels.fyi/papers/arxiv/ct-mamba-hybrid-convolutio
ViT论文解读 freshfish丶文献阅读深度学习计算机视觉 transformer
ViT论文解读本文主要记录YiZhu大佬对于ICLR2021的一篇论文精读ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE论文地址：https://arxiv.org/pdf/2010.11929.pdf源码地址：https://github.com/google-research/vision_transformer标
目标检测实践过程中，遇到“No module named ‘torch._six’”报错的一个快速解决方案（无需重装PyTorch） Cold_Rain02 深度学习 Python 目标检测人工智能计算机视觉
很多人在按照网络、书籍教程中的流程尝试自己实现一个基于Faster-RCNN的目标检测模型时，如果调用了PyTorch官方github上的文件时，coco_eval.py文件中会触发报错。1.报错原因PyTorch在2.0之后的版本中移除了_six，导致在coco_eval.py中调用torch._six失败2.解决方案（1）直接根据代码内容修改代码我们仔细观察coco_eval.py的代码，发现
AAAI2024论文解读|Memory-Efficient Reversible Spiking Neural Networks-water-merged paixiaoxin 文献阅读论文合集脉冲神经网络可逆架构内存效率深度学习训练优化 AAAI
论文标题Memory-EfficientReversibleSpikingNeuralNetworks内存高效可逆脉冲神经网络论文链接Memory-EfficientReversibleSpikingNeuralNetworks论文下载论文作者HongZhang,YuZhang内容简介本文提出了一种可逆脉冲神经网络（RevSNN），旨在降低脉冲神经网络（SNNs）在训练过程中对中间激活和膜电位的内
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
【AI日记】25.01.22 AI完全体 AI日记人工智能机器学习 kaggle 比赛读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：自由宪章，论美国的民主阅读原因：了解美国的架构设计和底层原理，有人说坚决不走美西方的邪路，我想了解下到底邪在哪，好更加有针对性的批判，尽量知己知彼律己AI：8小时，良作息：1:00-9:00，良短视频：0.5-1小时，良读书和写作：1.
AAAI2024论文解读|Towards Fairer Centroids in k-means Clustering面向更公平的 k 均值聚类中心 paixiaoxin 文献阅读论文合集支持向量机机器学习人工智能聚类公平性 k 均值聚类质心代表性群体代表性公平性
论文标题TowardsFairerCentroidsink-meansClustering面向更公平的k均值聚类中心论文链接TowardsFairerCentroidsink-meansClustering论文下载论文作者StanleySimoes,DeepakP,MuirisMacCarthaigh内容简介本文提出了一种新的聚类级质心公平性（Cluster-levelCentroidFairne
【AI日记】25.01.06 AI完全体 AI日记人工智能机器学习 kaggle 比赛
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AI参加：kaggle比赛ForecastingStickerSales读书书名：国家为什么会失败阅读原因：2024年诺贝尔经济学奖得主的力作，之前我已经读过他另一本书了《權力與進步》备注：有兴趣的建议读未删减版https://book.douban.com/subject/26388427/discussion
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

faster-rcnn论文解读

reference link： http://blog.csdn.net/shenxiaolu1984/article/details/51152614 http://blog.csdn.net/luopingfeng/article/details/51245694 http://blog.csdn.net/xyy19920105/article/details/50817725

思想

区域生成网络：结构

特征提取

候选区域（anchor）

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Region Proposal Networks

Translation-Invariant Anchors

窗口分类和位置精修

区域生成网络：训练

样本

代价函数

超参数

共享特征

轮流训练

近似联合训练

联合训练

实验

你可能感兴趣的:(faster-rcnn论文解读)

reference link：
http://blog.csdn.net/shenxiaolu1984/article/details/51152614
http://blog.csdn.net/luopingfeng/article/details/51245694
http://blog.csdn.net/xyy19920105/article/details/50817725