Grid RCNN论文理解

Grid RCNN 商汤11月份提出的论文。

论文下载地址:https://arxiv.org/abs/1811.12030

论文代码复现:

论文创新点:

1. 使用了全卷积网络来代替目标检测里面的全连接层。

2. 加入了融合机制使得标注框更加的精确。

 

算法整体流程:

Grid RCNN论文理解_第1张图片

算法的整体流程经过RPN找到候选区域,然后通过感兴趣区域得到特征图。将特征图传到 全卷积网络层里面 输出最终的结果。

论文主要分为三部分:

一、网格引导定位

Grid RCNN论文理解_第2张图片

这个是算法的具体的网络结构。感兴趣区域得到的特征图经过8个3*3的膨胀卷积和2个2*2的反卷积,在经过sigmoid函数得到9(论文中n为3)个56*56的特征图。这个增加的网络训练方法就是  9个特征图有9个监督map。每个监督map有五个点(每条线的中位点和中心点)作为标签。采用二值交叉作为优化。

网格点映射:

Grid RCNN论文理解_第3张图片

公式1.特征图上的点映射回原图像。

Grid RCNN论文理解_第4张图片

上图是9个点映射回原图的样子,它们的位置都不在同一条线上。就采用下图公式2,取不同线上面的三个点的平均值作为预测结果。

Grid RCNN论文理解_第5张图片

二、网格特征融合

Grid RCNN论文理解_第6张图片

一阶融合:

上图(a)是一阶融合。上图(a)是一阶融合。求左上角的点融合结果,就将左上角的点邻近1个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到一阶融合的结果。

二阶融合:

上图(b)是二阶融合。求左上角的点融合结果,就将左上角的点邻近2个单位的所有的点通过3个5*5的卷积得到新的特征图。将得到的特征图和左上角的点相加得到二阶融合的结果。

 

三、扩展区域映射

Grid RCNN论文理解_第7张图片

白色的实线是我们的候选区域,我们的候选区域没有完全包含绿色标注框的所有的点。这会导致我们映射之后的9个点不能完全包含目标区域。如果我们单纯增加候选区域的面积的话会造成加入太多的背景,效果反而会差。作者的想法是不改变候选区域,只改变映射之后的原图的大小,如图虚线白色区域。大小公式如下:

Grid RCNN论文理解_第8张图片

四、结果

Grid RCNN论文理解_第9张图片

作者提出的算法在COCO里面是最好的。

Grid RCNN论文理解_第10张图片

发现IOU越大,Grid-Rcnn比Faster-Rcnn效果越好。

你可能感兴趣的:(深度学习)