mask R-CNN学习笔记(1)FPN网络(feature pyramid networks)——代码与理论结合

FPN论文及详细内容可参考:

https://blog.csdn.net/u014380165/article/details/72890275

FPN网络结构:

mask R-CNN学习笔记(1)FPN网络(feature pyramid networks)——代码与理论结合_第1张图片

顶层特征通过上采样和低层特征做融合,而且每层都是独立预测的。

在mask R-CNN中

主干网络采用:Resnet101 ,详细内容参考:https://blog.csdn.net/weixin_41259130/article/details/84865657

作者的算法大致结构如下:一个自底向上的线路,一个自顶向下的线路,横向连接(lateral connection)。图中放大的区域就是横向连接,这里1*1的卷积核的主要作用是减少卷积核的个数,也就是减少了feature map的个数,并不改变feature map的尺寸大小。
mask R-CNN学习笔记(1)FPN网络(feature pyramid networks)——代码与理论结合_第2张图片

自底向上:其实就是网络的前向过程。在前向过程中,feature map的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,作者将不改变feature map大小的层归为一个stage,因此每次抽取的特征都是每个stage的最后一个层输出,这样就能构成特征金字塔。 

自顶向下和横向连接:通过自底向上路径,FPN得到了四组Feature Map。浅层的Feature Map如C2含有更多的纹理信息,而深层的Feature Map如C5含有更多的语义信息。为了将这四组倾向不同特征的Feature Map组合起来,FPN使用了自顶向下及横向连接的策略,如上图。

残差网络得到的C1-C5由于经历了不同的降采样次数,所以得到的Feature Map的尺寸也不同。为了提升计算效率,首先FPN使用  进行了降维,得到P5,然后使用双线性插值进行上采样,将P5上采样到和C4相同的尺寸。

之后,FPN也使用  卷积对P4进行了降维,由于降维并不改变尺寸大小,所以P5和P4具有相同的尺寸,FPN直接把P5单位加到P4得到了更新后的P4。基于同样的策略,我们使用P4更新P3,P3更新P2。这整个过程是从网络的顶层向下层开始更新的,所以叫做自顶向下路径。

FPN使用单位加的操作来更新特征,这种单位加操作叫做横向连接。由于使用了单位加,所以P2,P3,P4,P5应该具有相同数量的Feature Map(源码中该值为256),所以FPN使用了  卷积进行降维。

在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,目的是消除上采样的混叠效应(aliasing effect)。并假设生成的feature map结果是P2,P3,P4,P5,和原来自底向上的卷积结果C2,C3,C4,C5一一对应。

作者一方面将FPN放在RPN网络中用于生成proposal,原来的RPN网络是以主网络的某个卷积层输出的feature map作为输入,简单讲就是只用这一个尺度的feature map。但是现在要将FPN嵌在RPN网络中,生成不同尺度特征并融合作为RPN网络的输入。在每一个scale层,都定义了不同大小的anchor,对于P2,P3,P4,P5,P6这些层,定义anchor的大小为32^2,64^2,128^2,256^2,512^2,另外每个scale层都有3个长宽对比度:1:2,1:1,2:1。所以整个特征金字塔有15种anchor。
mask R-CNN学习笔记(1)FPN网络(feature pyramid networks)——代码与理论结合_第3张图片

代码层面看FPN

(mask R-CNN中FPN网络)

解读参考:https://blog.csdn.net/horizonheart/article/details/81188161

超详细:https://www.cnblogs.com/hellcat/p/9741213.html

 

正负样本的界定和Faster RCNN差不多:如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于0.7,则是正样本。如果一个anchor和任意一个ground truth的IOU都小于0.3,则为负样本。

 

一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC:

https://zhuanlan.zhihu.com/p/46714763

 

你可能感兴趣的:(深度学习)