介绍帖子
在目标检测时,为了定位到目标的具体位置,通常会把图像分成许多子块,然后把子块作为输入,送到目标识别的模型中。
在最开始的时候分子块的最直接方法叫滑动窗口法。滑动窗口的方法就是按照子块的大小在整幅图像上穷举所有子图像块。但是这种方法产生的数据量会很庞大,让人头大。
所以和滑动窗口法相对的另外一类基于区域(region proposal)的方法就产生了。其中最为常见的就是selective search!!!
selective search的基本思路是:
(1)通过简单的区域划分算法,将图片划分成很多小区域,
(2)再通过相似度和区域大小(小的区域先聚合,这样是防止大的区域不断的聚合小区域,导致层次关系不完全)不断的聚合相邻小区域,类似于聚类的思路。
具体步骤如下:
step0:按一定的规则生成区域集R
step1:计算区域集R里每个相邻区域的相似度S={s1,s2,…}
step2:找出相似度最高的两个区域,将其合并为新集,添加进R
step3:从S中移除所有与step2中有关的子集
step4:计算新集与所有子集的相似度
step5:跳至step2,直至S为空
合并思路:
关于合并思路遵循以下原则:
优先合并以下四种区域:
(1) 颜色(颜色直方图)相近的 ,两个区域合并后的直方图也很好计算,直接通过直方图大小加权区域大小然后除以总区域大小就好了。
(2) 纹理(梯度直方图)相近的 。
(3) 优先合并小的区域,如果仅仅是通过颜色和纹理特征合并的话,很容易使得合并后的区域不断吞并周围的区域,后果就是多尺度只应用在了那个局部,而不是全局的多尺度。因此我们给小的区域更多的权重,这样保证在图像每个位置都是多尺度的在合并。
(4) 区域的合适度距离,不仅要考虑每个区域特征的吻合程度,区域的吻合度也是重要的,吻合度的意思是合并后的区域要尽量规范,不能合并后出现断崖的区域,这样明显不符合常识,体现出来就是区域的外接矩形的重合面积要大。总结就是合并后,总面积在其BBOX中所占比例大的
为什么要进行区域预处理?
因为Alextnet 的输入图像大小是 227x227。而通过 Selective Search 产生的候选区域大小不一,为了与 Alexnet 兼容,R-CNN 采用了非常暴力的手段,那就是无视候选区域的大小和形状,统一变换到 227*227 的尺寸。
这种暴力手段就是先进行Bounding Box的膨胀,然后再Wrap
Bounding Box膨胀:
在对 Region 进行变换的时候,首先对这些区域进行膨胀处理,在其 box 周围附加了 p 个像素,也就是人为添加了边框,在这里 p=16
这里的特征提取用到是ImageNet里面的卷积神经网络
首先直接拿到在ImageNet上对CNN模型进行pre-train的模型M,减少训练时间上的浪费。
然后对模型M进行fine-tune(微调阶段只调fc6、fc7层的权值参数。前面5层卷积层的权值参数不动。)即迁移学习:
学习输入是在SS生成的所有区域,然后主要学习最后的连接层
对于输出需要注意到是:在原先的ImageNet 的训练当中需要预测 1000 个类别,而 R-CNN 在 进行迁移学习时,神经网络只需要识别 N+1(N=20或者200)个类别。所以这里需要对输出的特征进行处理,处理方法如下:
(1)Softmax层改成(N+1)-way,其余不变
(2)将候选区域与 Ground-truth中的 box 标签相比较,如果跟Ground-truth重合IoU >= 0.5,说明两个对象重叠的位置比较多,于是就可以认为这个候选区域是正样本(Positive),正样本会有N类。
(3)剩余所有IoU < 0.5的归为负样本,负样本只有1类。
基础的SVM是一个二分类器,针对固定类别,比如猫,理想情况下,输入一个n维的特征向量,输出是0表示该物体不是猫,输出为1表示该物体是猫。在训练一个SVM时首先要准备好多训练样本,这些训练样本分为两个部分,输出为1的属于正样本,输出为0的表示负样本。利用这些样本训练完一个SVM二分类器后,输入一个检测数据,输出的是一个0-1之间的数,表示该检测数据是猫的概率大小值。
而在R-CNN中,训练其中的SVM时,首先要知道的时针对每个要分类的类别都要单独训练一个SVM,也就是如果我们要R-CNN网络实现20个类别的分类检测,需要训练20个SVM。
SVM训练样本分类规则问题?
在SVM训练之前,需要准备训练所需要的正样本和负样本,这里就涉及到了设为正负样本的规则问题。
在正常判断的思路里:我们知道只有当bounding box把整个猫猫都包含在内,那才叫正样本;如果bounding box 没有包含到猫猫,那么我们就可以把它当做负样本。
但问题是当我们的bounding box只有部分包含物体,那该怎么定义正负样本呢?在这里原作者测试了IOU阈值各种方案数值0,0.1,0.2,0.3,0.4,0.5。此处的IOU阈值,比如阈值0.3,是指当前bounding box与整个猫猫都包含的bounding box交叉部分占两个bounding box的并集的百分比是0.3。
最后通过训练发现,如果选择IOU阈值为0.3效果最好,
也就是
(1)正样本还是所有Ground-truth区域,即IOU=1,就是当bounding box把整个猫猫都包含在内
(2)负样本就是当重叠度小于0.3的时候的样本
(3)IOU阈值在0.3-1之间的样本此阶段被忽略,不使用
非极大值抑制?
主要目的是为了消除多余的边框,获得最佳的物体检测的位置
非极大值抑制(NMS)顾名思义就是抑制不是极大值的元素,搜索局部的极大值。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。这里不讨论通用的NMS算法,而是用于在目标检测中用于提取分数最高的窗口的。
说实在的,在R-CNN里面,非极大值抑制就是在同一图像同一物体周边的多个重复的预选框,选出最优的那一个,最优的选取根据输出值即分类概率的大小。
就像上面的图片一样,定位一个车辆,R-CNN会从这张图片中找出n个可能是物体的矩形框,然后为每个矩形框为做类别分类概率,我们需要判别哪些矩形框是没用的。
非极大值抑制的方法是:先假设有6个矩形框,根据分类器的类别分类概率做排序,假设从小到大属于车辆的概率 分别为A、B、C、D、E、F。
(1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
(2)假设其中B、D与F的重叠度超过阈值,可以认为B,D,F是一组阈值接近的物体,而且F的概率最大,那么就可以扔掉B、D,其他没有超过的则进行保留;并标记第一个矩形框F,是我们保留下来的。
(3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。
就这样一直重复,找到所有被保留下来的矩形框。
产生False Positives,如何处理?
SVM训练完成后,如果完全分类正确,所有正样本的输出概率都大于0.5,而所有负样本的输出概率都小于0.5。
但实际情况是有一部分的负样本的输出概率也大于0.5的, 这些样本就称之为“False Positives”。
如果把这些“False Positives”收集起来,对SVM进行二次训练,经过二次训练的SVM的分类准确度一般会有一定的提升。
为什么要做BoudingBox?
很简单,如下图,预测区域和实际区域存在偏差值:
绿色框为飞机的Ground Truth(GT),红色为提取的Region Proposal,那么即便红色的框被分类器识别为飞机,
但由于红色的框定位不准,这张图相当于没有正确的检测出飞机。
所以要采用Bounding Box回归的方法对红色的框进行微调,使得Region Proposal和GT更加接近。
回归的输入和输出,以及计算过程:
图中, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口。
用公式表达即:
寻找一种映射f,使得f(Px, Py, Pw, Ph)=(G’x, G’y, G’w, G’h),其中(G’x, G’y, G’w, G’h)≈(Gx, Gy, Gw, Gh)
其中输入对象是:
然后对于输入部分我们先要进行平移和尺度缩放
注意: 只有当 Proposal 和 Ground Truth 比较接近时(线性问题),我们才能将其作为训练样本训练我们的线性回归模型, 否则会导致训练的回归模型不 work(当 Proposal跟 GT 离得较远,就是复杂的非线性问题了,此时用线性回归建模显然不合理)。
而我们要让预测G’与标准G 之间的差值最小,得到损失函数:
同时需要建立优化函数:
其中t部分就是平移缩放的权重部分:dx§,dy§,dw§,dh§,公式如下:
True Positive(TP)区域:IoU >= 0.5
False Positive(FP)区域:IoU < 0.5
False Negative(FN)区域:遗漏的Ground truth区域
准确率,精确率,召回率的概念:
注意:精确率和召回率虽然不是相对的概念,但是可能会产生冲突,比如改变阈值提高精确率的同时可能会对召回率有所下降,所以两者需要根据实际情况,进行统一规划。
PR曲线,就可以对阈值变化产生的召回率和精确率变化进行绘制的曲线
关于AP和mAP
第C类的平均精度(AP):PR曲线之下的面积,即是Precision对于Recall的积分。
mAP:所有类别的平均精度求和除以所有类别,即数据集中所有类的平均精度的平均值
R-CNN存在以下几个重点问题:
(1)训练时间很长(84小时):Fine-tune(18)+ 特征提取(63)+ SVM/Bbox训练,我们可以看到很多时间用在了特征提取上。
(2)测试阶段很慢:VGG16一张图片47s•复杂的多阶段训练
所以我们是不是可以减少特征提取的时间来优化R-CNN模型呢?
这就提出来了SPP-net的模型。SPP-Net做了两大改进:
(1)直接输入整图,所有区域共享卷积计算(一遍),即在Conv5层输出上提取一张图片上所有区域的特征
(2)引入空间金字塔池化(Spatial Pyramid Pooling)
•为不同尺寸的区域,在Conv5输出上提取特征
•映射到尺寸固定的全连接层上
所以重点在于什么是空间金字塔池化?
SPP本质的目的是为了使得CNN可以接受任意尺寸的输入图片,从而避免了图像预处理中要将图片resize到统一尺寸这个限制。
空间金字塔池化,使得任意大小的特征图都能够转换成固定大小的特征向量,这就是空间金字塔池化的意义(多尺度特征提取出固定大小的特征向量),送入全连接层。
为什么CNN需要固定输入大小?
卷积层和池化层的输出尺寸都是和输入尺寸相关的,它们的输入是不需要固定图片尺寸的,真正需要固定尺寸的是最后的全连接层。
为什么convolution和polling都对如数图片的大小不敏感,而全连接层却敏感呢?
我们来看看。假设输入图片的大小是100X100,经过5个卷积核3X3之后会产生5X98X98的feature maps,就算你的输入图片的大小变成102X102,那我的feature maps就是5X100X100。这里的feature maps经过2X2的polling之后得到的是25X25和26X26。没什么影响,这里的卷积核的大小是固定的,可以去卷积任何大小的图片。但是全连接层就不同了。假设最后一个卷积层有50个输出,下一层的全链接有1000个输入,那么这个链接矩阵就是50X1000。
但是如果这里每次的输入图片大小都不一样,到这里如何进行链接呢?因为不同的图片大小经过最后一个卷积层的输入到输出之后压根就不可能都是50啊。这就是我们为什么要在全连接层这人进行操作的原因。
如何实现空间金字塔池化?
如上图所示,从下往上看,这是一个传统的网络架构模型,5层卷积层,这里的卷积层叫做convolution和pooling层的联合体,统一叫做卷积层,后面跟随全连接层。我们这里需要处理的就是在网络的全连接层前面加一层金字塔pooling层解决输入图片大小不一的情况。
我们可以看到这里的spatital pyramid pooling layer就是把前一卷积层的feature maps的每一个图片上进行了3个池化的卷积操作。
最右边的就是用pool-1X1原图像
中间的是用pool-2X2把图像分成大小是4的特征图
最右边的就是用pool-3X3把图像分成大小是16的特征图。
那么每一个feature map就会变成16+4+1=21个feature maps。从而解决了特征图大小不一的状况
那么具体是如何操作的呢?—本质是通过输入图片的大小来调整窗口和步长从而获得一样的输出。
假设图片经过第五层的卷积核之后的输出图片大小是aa (例如,1313)我们bins的大小是n*n
那么:
每一个窗口尺寸是:win=cell(a/n)
stride(步长)的大小是:stride=floor(a/n)
前面一个是向上取整,后面的是向下取整,最终会形成如上图所示的三个pooling操作。这三个的本质都是最大池化,只不过使用了不同的窗口大小和移动的步长而已。fc6代表的是全链接层。实验表明,多层次的卷积行为可以使得实验的最终精度提升。而不同大小的图片操作都是一样的方法。
总结:
整个SPP-net网络结构如下,在卷积层后跟一个spatial pyramid pooling layer,形成一个固定长度的feature vector后再输入全连接层。比如任意大小的原始图像在经过卷积层后生成feature maps(卷积核处理原图后的图像就是feature map),假设最后一个卷积层是conv5,使用了256个filters(卷积核),生成的feature maps就是(W, H, 256)的大小,每层feature map的大小是(W, H),一共有256层feature map。
假设其中有个proposal region对应到feature maps上的大小为(w, h, 256),输入到spatial pyramid pooling layer,SPP layer将feature maps分成4X4,2X2,1X1三个level的bin,经过max pooling后将每层feature map就变成16,4,1三个level的featurevector,因为一共有256层feature maps,所以再将每层的feature vector组合在一起,变成16X256-d、4X256-d、1X256-d三个level的vector。最后将这些vectors再组合再一起作为SPPlayer的输出。其实就是说,不管你输入图像的尺寸是什么。SPP都会通过改变最大池化参数的操作来对你这个图片尺度进行输出为21X256的特征向量。
空间金字塔池化的优点
金字塔池化层有如下的三个优点,
第一:他可以解决输入图片大小不一造成的缺陷。
第二:由于把一个feature map从不同的角度进行特征提取,再聚合的特点,显示了算法的robust的特性(鲁棒性)。
第三:同时也在object recongtion增加了精度。
其实,你也可以这样想,最牛掰的地方是因为在卷积层的后面对每一张图片都进行了多方面的特征提取,他就可以提高任务的精度。好比是不同大小的图片在不同的网络中进行训练一样,大大提高了模型的精度。不仅仅如此,R-CNN需要对不同大小的边框内的图像feed into 不同的网络模型,整个过程是特别的耗时,SPP-Net刚好就可以决绝这个问题,大大的减少了时间。
虽然解决了特征提取里面时间长的问题,但是SPP-Net还是存在如下问题:
(1)继承了R-CNN的剩余问题:
•需要存储大量特征
•复杂的多阶段训练
•训练时间仍然长(25.5小时)•Fine-tune(16)+ 特征提取(5.5)+ SVM/Bbox训练(4)
(2)•带来了新问题:SPP层之前的所有卷积层参数不能fine tune
为什么SPP层之前的所有卷积层参数不能fine tune?
因为SPP层反向传播效率地,造成SPP层反向传播低效率的根本原因是每一个训练样本(例如RoI)均来自不同的图片,而我们知道反向传播需要用到正向传播过程中的数据,则导致需要存储的数据量巨大!!
SPP-Net中fine-tuning的训练样本是来自所有图像的所有RoI打散后均匀采样的,即RoI-centric sampling,这就导致SGD的每个batch的样本来自不同的图像,需要同时计算和存储这些图像的Feature Map,过程变得expensive;Fast R-CNN采用分层采样思想,先采样出N张图像(image-centric sampling),在这N张图像中再平均采样出R个RoI,即每张图片采样出R/N个RoI,同一图像的RoI共享计算和内存。
论文中举了一个例子说到:设N = 2, R = 128,也就是说只用计算和存储2张图像卷积正向传播过程中的数据,那么需要存储的数据量相比R-CNN和SPP小了64倍!
改进
•比R-CNN,SPP-Net更快的trainng/test
•更高的mAP
•实现end-to-end(端对端)单阶段训练•多任务损失函数(Multi-task loss)
•所有层的参数都可以fine tune•不需要离线存储特征文件
改进技术:
在SPP-Net的基础上增加了:
(1)感兴趣区域池化层(RoI pooling layer)
(2)多任务损失函数(Multi-task loss)
其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图(例如7×7),从而代替SPP的操作。即RoI pooling 层使用了一个最大池化,把一个任意尺寸的特征图转换成一个固定H*W大小的特征图。
原理:
RoI max pooling的工作原理是将h×w 特征图分割成H×W个大小近似的子窗口,然后将每个子窗口的值应用max-pooling,特征图经过这种运算能得到H×W的特征图输出。至此一个h×w的特征图转变为一个H×W的特征图。如下图所示:
在这种切割过程中很有可能会出现重叠的区域,那么对于重叠区域我们怎么操作呢?
关于Fast R-CNN和Faster R-CNN多任务损失函数的帖子
Fast RCNN将分类与回归做到了一个网络里面,因此损失函数必定是多任务的,即在原有分类器的损失函数的基础上加上BBOX回归的损失函数:
part1:分类部分:
其中分类任务还是我们常用的对数损失,
对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定义的.它常用于(multi-nominal, 多项)逻辑斯谛回归和神经网络,以及一些期望极大算法的变体. 可用于评估分类器的概率输出.
对数损失通过惩罚错误的分类,实现对分类器的准确度(Accuracy)的量化. 最小化对数损失基本等价于最大化分类器的准确度.为了计算对数损失, 分类器必须提供对输入的所属的每个类别的概率值, 不只是最可能的类别. 对数损失函数的计算公式如下:
其中, Y 为输出变量, X为输入变量, L 为损失函数. N为输入样本量, M为可能的类别数, yij 是一个二值指标, 表示类别 j 是否是输入实例 xi 的真实类别. pij 为模型或分类器预测输入实例 xi 属于类别 j 的概率.
如果只有两类 {0, 1}, 则对数损失函数的公式简化为
这时, yi 为输入实例 xi 的真实类别, pi 为预测输入实例 xi 属于类别 1 的概率. 对所有样本的对数损失表示对每个样本的对数损失的平均值, 对于完美的分类器, 对数损失为 0 .
意义:对数损失是用于最大似然估计的(以最大概率为标准来判断结果,即叫做极大似然估计)。一组参数在一堆数据下的似然值,等于每一条数据在这组参数下的条件概率之积。而损失函数一般是每条数据的损失之和,为了把积变为和,就取了对数。再加个负号是为了让最大似然值和最小损失对应起来。用来判断实际的输出与期望输出的接近程度,刻画除实际输出概率与期望输出概率的距离,即交叉熵越小,两个概率分布越接近。
Part2:回归部分:
tu 是预测偏差,定义方式与R-CNN中一致(见1.5中回归部分的公式),为中心区域坐标,以及区域宽度及高度。
vi是偏差目标。
Fast RCNN使用的损失函数为鲁棒性更佳的L1损失函数,而不是R-CNN中使用的L2损失函数,而且训练的过程也简单很多,需要注意的每个区域候选对于每个类都有区域回归训练。
具体公式如下:
简单的介绍一下l1损失函数和l2损失函数,看这里:
L1是最小绝对值偏差,是鲁棒的,是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值,那么最小绝对值偏差是更好的选择。
L2范数将误差平方化(如果误差大于1,则误差会放大很多),模型的误差会比L1范数来得大,因此模型会对这个样本更加敏感,这就需要调整模型来最小化误差。如果这个样本是一个异常值,模型就需要调整以适应单个的异常值,这会牺牲许多其它正常的样本,因为这些正常样本的误差比这单个的异常值的误差小。
L2是平方差,L1是绝对差,如果有异常点,前者相当于放大了这种误差,而绝对差没有放大。
为了使得物体和背景的数量稍微平均一点,而且使得正向的样本量可以达到一定的的 量级,需要采取Mini-batch sampling抽样的方法:
即:在微调时,每个SGD的mini-batch是随机找两个图片,R为128,因此每个图上取样64个RoI。从object proposal中选25%的RoI,就是和ground-truth交叠至少为0.5的。剩下的作为背景。
在目标检测任务中,要处理的RoI数量比较多,几乎一半的前向计算时间被用于全连接层。
就Fast R-CNN而言,RoI池化层后的全连接层需要进行约2k次,因此在Fast R-CNN中可以采用SVD分解加速全连接层计算;
全连接层输入数据为X,输出数据为Y,全连接层权值矩阵为W,尺寸为 u × v ,那么该层全连接计算一次前向传播(forward)即为:Y = W × X,计算复杂度为 u × v
将W进行SVD分解,并用前t个特征值近似:
原来的前向传播分解成两步:
计算复杂度变为 u x t+ v x t
在实现时,相当于把一个全连接层拆分成两个,中间以一个低维数据相连。 如下图所示:
介绍贴:一文读懂Faster RCNN
这是最大的改动,因为R-CNN使用SS(Selective Search)方法生成检测框非常耗时。所以Faster RCNN则抛弃了传统的滑动窗口和SS方法,直接使用RPN网络生成检测框,这也是Faster R-CNN的巨大优势,能极大提升检测框的生成速度。
上图4展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得positive和negative分类,下面一条用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals,同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里,就完成了相当于目标定位的功能。
提到RPN网络,就不能不说anchors。所谓anchors,实际上就是一组由rpn/generate_anchors.py生成的矩形。直接运行作者demo中的generate_anchors.py可以得到以下输出:
其中每行的4个值 [公式] 表矩形左上和右下角点坐标。9个矩形共有3种形状,长宽比为大约为 [公式] 三种,如图6。实际上通过anchors就引入了检测中常用到的多尺度方法。
注:关于上面的anchors size,其实是根据检测图像设置的。在python demo中,会把任意大小的输入图像reshape成800x600(即图2中的M=800,N=600)。再回头来看anchors的大小,anchors中长宽1:2中最大为352x704,长宽2:1中最大736x384,基本是cover了800x600的各个尺度和形状。
那么这9个anchors是做什么的呢?借用Faster RCNN论文中的原图,如图7,遍历Conv layers计算获得的feature maps,为每一个点都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确,不用担心,后面还有2次bounding box regression可以修正检测框位置。
解释一下上面这张图的数字。
在原文中使用的是ZF model中,其Conv Layers中最后的conv5层num_output=256,对应生成256张特征图,所以相当于feature map每个点都是256-dimensions在conv5之后,做了rpn_conv/3x3卷积且num_output=256,相当于每个点又融合了周围3x3的空间信息(猜测这样做也许更鲁棒?反正我没测试),同时256-d不变(如图4和图7中的红框)假设在conv5 feature map中每个点上有k个anchor(默认k=9),而每个anchor要分positive和negative,所以每个点由256d feature转化为cls=2•k scores;而每个anchor都有(x, y, w, h)对应4个偏移量,所以reg=4•k coordinates补充一点,全部anchors拿去训练太多了,训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练(什么是合适的anchors下文有解释)
注意,在本文讲解中使用的VGG conv5 num_output=512,所以是512d,其他类似。
其实RPN最终就是在原图尺度上,设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的positive anchor,哪些是没目标的negative anchor。所以,仅仅是个二分类而已!
那么Anchor一共有多少个?原图800x600,VGG下采样16倍,feature map每个点设置9个Anchor,所以:
其中ceil()表示向上取整,是因为VGG输出的feature map size= 50*38。
一副MxN大小的矩阵送入Faster RCNN网络后,到RPN网络变为(M/16)x(N/16),不妨设 W=M/16,H=N/16。在进入reshape与softmax之前,先做了1x1卷积,如图:
该卷积核的参数:
(1)num_output: 18 # 2(positive/negative) * 9(anchors)
(2)kernel_size: 1 pad: 0 stride: 1
可以看到其num_output=18,也就是经过该卷积的输出图像为WxHx18大小(注意第二章开头提到的卷积计算方式)。这也就刚好对应了feature maps每一个点都有9个anchors,同时每个anchors又有可能是positive和negative,所有这些信息都保存WxHx(9*2)大小的矩阵。
为何这样做?
后面接softmax分类获得positive anchors,也就相当于初步提取了检测目标候选区域box(一般认为目标在positive anchors中)。
那么为何要在softmax前后都接一个reshape layer?
其实只是为了便于softmax分类,至于具体原因这就要从caffe的实现形式说起了。在caffe基本数据结构blob中以如下形式保存数据:
blob=[batch_size, channel,height,width]
对应至上面的保存positive/negative anchors的矩阵,其在caffe blob中的存储形式为[1, 2x9, H, W]。而在softmax分类时需要进行positive/negative二分类,所以reshape layer会将其变为[1, 2, 9xH, W]大小,即单独“腾空”出来一个维度以便softmax分类,之后再reshape回复原状。
综上所述,RPN网络中利用anchors和softmax初步提取出positive anchors作为候选区域(另外也有实现用sigmoid代替softmax,输出[1, 1, 9xH, W]后接sigmoid进行positive/negative二分类,原理一样)。
遵循multi-task loss定义,最小化目标函数,FasterR-CNN中对一个图像的损失函数定义为:
其中:
(1)
(2)
(3)
可以看到,整个Loss分为2部分: