title: Mask R-CNN论文阅读笔记
date: 2019-06-04 11:36:32
tags:

instance segmentation
paper

参考资料如下：

Mask RCNN & ROI Align介绍
评价指标
评价指标zhihu中文
coco官方评价说明

Abstract

Introduction

Related Work

Mask R-CNN

在Faster R-CNN的二分支预测基础上，加上第三个预测分支：预测一个mask。关键是如何提取很小（像素级别）的空间信息

Faster R-CNN回顾

Faster R-CNN第一阶段“RPN”，提取出“proposal”——即有可能包含object的区域，但不关心到底是什么object；第二阶段本质上是“Fast R-CNN”, 使用ROIPool对proposal的feature进行“same size”操作，再输入到Fast R-CNN进行分类&bounding box回归。这两个阶段用到的feature可以是共享的。

Faster R-CNN模型图

Mask R-CNN

Mask R-CNN也是二阶段方法，第一阶段同样是RPN网络。在第二阶段并行进行三个工作:①预测cls ②box offset ③binary mask

形式化地，对于每个ROI定义了多任务loss：，其中,的定义与Fast R-CNN中的一样。对于: 每一个ROI有一个维度的输出（是cls的个数，是ROI align后输入第二阶段的特征大小）。如下图所示，如果cls分支预测的是“人”，则只取“人mask”与label之间计算binary cross-entropy loss。

[图片上传失败...(image-1cb66f-1562147825974)]

binary cross-entropy loss的计算方式如下：即每个cell计算loss，再平均

[图片上传失败...(image-8b59b0-1562147825974)]

这样的mask loss定义消除了classes之间的竞争，解除了mask分支预测和cls分支预测的耦合。不同于FCN网络对于segmentation loss的定义softmax+cross-entropy， mask rcnn使用的loss定义为sigmoid+binary loss。FCN网络的segmentation loss的定义如下，可以看出: ①classes之间是有竞争的[sum(yi)=1] ②mask的预测也带有了cls的预测，这样就与cls分支耦合了

[图片上传失败...(image-14fc8a-1562147825974)]

RoIAlign

RPN网络输出的region of interest是相对于原图的，映射到feature map上有可能不在整数坐标上。如下图，假设有一个5*5的feature map，而RPN输出的region映射到feature map上是虚线区域

image

ROI Pooling的做法：
- 先对ROI进行quantization操作（quantization：即对到相应的整数上）
image
- 进行pooling的bin划分
image
- 再对bin进行quantization操作
image
- 再对每个bin取max
image
ROI Align操作：
- 直接进行bin划分
[图片上传失败...(image-950307-1562147825974)]
- 在bin中sample一些点，论文中说点的个数&位置的影响并不大。其中、是相应bin的最小，最大值
[图片上传失败...(image-36a4f-1562147825974)]
- 计算每个点处的value（双线性差值）。以为例，他周围的整点、、、，这些整点处的value是知道的，因此可以计算出S1处的值，计算如下：
[图片上传失败...(image-bfd0d-1562147825974)]
- 每个bin有四个点，对这四个点进行取average（用max-pool也可以，模型对此不敏感）
image

image

网络结构

[图片上传失败...(image-8f2b1c-1562147825974)]
为了说明这个方法的泛化性，作者提出多种Mask-RCNN结构。不同结构之间的差异体现在: (i)特征提取层的backbone结构 (ii)网络的两个head部分(Box head&Mask head)

backbone架构

文中称backbone结构为“network-depth-features”。测试的网络架构有50 depth或者100 depth的Resnet和ResNeXt网络。带有ResNets的Faster RCNN是从4-th stage最后的feature map上提取特征，作者记作C4。例如，从ResNet-50 的4-th stage final feature上提取特征，则被记为ResNet-50-C4

image

作者还测试了更有效的bockbone——Feature Pyramid Network（FPN），带有FPN backbone 的Faster RCNN在不同尺度上提取ROI特征。除了多尺度之外，其余的部分和不同的ResNet相同。使用了ResNet-FPN backbone提取特征的Mask RCNN，在精度和速度上都有优秀的表现

network head

head部分主要是在已有结构上添加了全卷积的mask预测分支。作者主要拓展了以Resnet和FPN为基础网络的Faster RCNN box head。以FPN基础网络为例：

image

box head

[图片上传失败...(image-250f2c-1562147825974)]

① FPN-ROI mapping：将ROI对应到特定scale的feature map上。每个ROI有一个pooler scale属性，可以从pooler scale知道对应的是哪个feature map。

FPN网络如下：

[图片上传失败...(image-c82a46-1562147825974)]

可知pooler scale有1/4[P2]，1/8[P3]，1/16[P4]，1/32[P5]四种（P6不参与这一步）,通过如下公式：

[图片上传失败...(image-1266cb-1562147825974)]

可知，、（即Pn最小是P2，Pn最大是P5）。若某一个ROI，通过其pooler scale计算出,则其对应着P3。

② ROI Align：将ROI对应上Pn，进行same size操作

[图片上传失败...(image-8da4ba-1562147825974)]

Mask Head

[图片上传失败...(image-821ac0-1562147825974)]

[图片上传失败...(image-a3fe5b-1562147825974)]

[图片上传失败...(image-3432f6-1562147825974)]

对于每个proposal会预测num_classes个mask，到底选择哪个mask，是通过box head的cls预测分支来挑选的，如上图。

实现细节

超参的设定依据Fast/Faster RCNN，虽然原始的任务是object detection，但作者发现对于instance segmentation也同样适用

Training：

ROI的positive/negative：IoU[RoI&ground-truth box]>=0.5判为positive；否则判为negative。只定义在positive ROI上。mask的预测目标是①intersection between RoI ②GT mask
image-centric training。图像shorter edge缩放到800像素。每个GPU上，每个mini-batch有2张图片，每张图片采样N个ROI（正负比例为1:3）。采用C4 backbone，N=64；FPN backbone，N=512
- image-centric sampling：mini-batch先对图像采样2个，再在采样到的图像中采样N个ROI，这样同一张图的各个ROI可以共享feature[Fast RCNN采用]；还有一种方法称为“RoI-centric sampling”，这种方法从所有图片的所有候选区域中均匀取样，由于ROI来自不同图片，为了得到ROI的feature，这些不同的图片都要计算其feature，开销很大[R-CNN和SPPnet采用]
作者使用8个GPU迭代了160k次，相应的learning rate=0.02并在120k迭代步lr变为0.002。衰减速率为0.0001，动量为0.9.
为了方便消融性实验，RPN的独立训练的，但由于RPN和Mask RCNN使用相同的backbone，因此是可以共享的

Inference：

mask分支只应用在top 100 score的detected box上
每个ROI有cls_num个mask，但是依据cls branch，选出第k个mask。对于m*m的mask，先resize to ROI size，再二值化

实验

各种指标

简单指标：下面的“覆盖上了”、“没有”都是以为阈值的(大于阈值说明覆盖上了，小于阈值说明没有覆盖上)
- TP(true positive): 有GT，且mask覆盖上了（准确）
- TN：在背景处，算法预测出是背景（准确）
- FP：预测的mask处，没有GT （过预测了）
- FN：有GT的地方，没有mask（没预测到）
mask IoU：

image

image

AP(Average Precision)
- 查准率：，这用公式应用在test set中的某一类
- 由于TP等确定，和IoU的阈值有关，因此可以写成
- 为了考虑全面，可以取不同的阈值t，如，（即，从0.5开始，以0.05为步长，一直取到0.95），再在阈值层面取平均：
- :即对所有类的做平均。
- 即:.即：现在阈值层面取平均，再在cls层面取平均
- ，即阈值只取0.5时，计算出来的AP
- ：即。AP for small objects: area<32*32; for medium objects: 32*3296*96
AR（Average Recall）
- 查全率：
- 同上：AR计算公式如下：
[图片上传失败...(image-68e17b-1562147825974)]

数据集介绍

参考文章如下：1. PASCAL VOC介绍 2.COCO介绍

PASCAL VOC数据集

分布如下：

image

即，VOC 2012包含了VOC 08至12的所有数据。普遍使用的是 VOC2007和VOC2012数据集，因为二者是互斥的。

数据量
- VOC 2007共10k image：5k train+val（train、val不分开的）以及5k test———>20 cls
- VOC 2012【检测任务】： trainval有11540张图片共27450个物体；测试集大小不知道，还没有公布(VOC 2017的测试集以及label已经公布了)———>20 cls
- VOC 2012【分割任务】：trainval有 2913张图片共6929个物体；测试集大小不知道，还没有公布———>20 cls

COCO数据集

数据量（2014年）———>80 cls
- train/val/test分别为80k/40k/40k
数据划分
- 训练集：80K的train + 35K的val（35K的val称为“trainval 35k”）
- 测试集【本地】：剩余的5K val（被称为“minival”）
- 测试集【在线】：提交到官方的evaluation server（称为“test-dev”）

Main Results

作者对比了COCO 2015和COCO 2016的冠军模型MNC和FCIS，在without bells and whilstles（可以理解为不需要花里胡哨的东西，例如不需要OHEM、data-augment等）的情况下，Mask R-CNN with ResNet-101-FPN都能超越花里胡哨的FCIS+++（which includes multi-scale train/test, horizontal flip test, and online hard example mining）。作者虽然没有尝试，但是认为这些花里胡哨的东西用在Mask RCNN上应该也能改进。

模型对比图

通过模型的一些输出图片可以发现，FCIS+++有个普遍存在的缺点，即在实例与实例的重叠处表现不好，说明其对于实例分割的基础问题，并没有很好的解决。而Mask RCNN却能应对

上面是FCIS+++，下面是Mask RCNN

消融性实验（Ablation Experiments）

消融性实验有点控制变量的意思，mask RCNN有一系列pipelines，如A、B、C等，消融性实验就是看各个部分的贡献到底有多大，各个部分是不是彼此依赖、相互促进

结构
- FPN > C4
- ResNet 101 > ResNet 50
- ResNeXt 101 > ResNet 101
Independent Masks > Multinomial: 见前面的介绍
RoIAlign > RoIWarp ~= RoIPool
- 使用stride-32的C5 feature比使用stride-16的C4 feature有着更高的精度——说明RoIAlign极大解决了“大步长(large-stride)” feature的挑战（检测和分割领域）
mask branch：由于mask的预测是需要空间信息的，因此全卷积（FCN）branch > MLP(多层全连接)

Bounding box detection result

消融性实验的指标针对的是最终mask的AP，现在讨论bbox

full trained Mask R-CNN：表现优于Faster R-CNN的各种变种（忽略Mask R-CNN的mask branch输出）
part trained Mask R-CNN(不训练mask branch)——也称为"Faster R-CNN with RoIAlign": 优于Faster R-CNN的各种变种【RoIAlign的功劳】
full trained Mask R-CNN > part trained Mask R-CNN【multi-task training的功劳，即mask branch也有一定的贡献】

时间（速度）

Inference：

作者使用Faster RCNN的4-step alternating training方法训练

ResNet-101-FPN。模型在每张图片需要195ms的GPU时间（Nvidia Tesla M40）+ 15ms CPU时间(resizing output to original resolution)。虽然是共享了特征，但是统计意义上和不共享特征有着相同的mask AP
ResNet-101-C4。耗费～400ms，因此不推荐

Faster RCNN的4-step training

训练：

在COCO trainval35k上，8-GPU同步训练
- ResNet-50-FPN：32 hours（0.72s per mini batch——16 images）
- ResNet-101-FPN：44 hours

Enhance

许多用在detection/segmentation的技巧也可以用在Mask RCNN上

updated baseline（超参的改变）
- 160k次迭代 ——> 180K次迭代
- 在120k次learning rate变成1/10 ——> 在120k、160k迭代都变成1/10
- NMS threshold：0.3 ——> 0.5
End-to-end training： “approximate 版本”
pre-trained使用1k-class subset of ImageNet ——> 5k-class subset of ImageNet
Train-time augmentation: 增加到260k次迭代
- training 阶段: sample scale from [640,800] pixels
- learning rate：在200k、240k分别reduced by 10
deeper 结构：101-layer ResNeXt ——> 152-layer
Non-local(NL): [todo]
test-time augmentation: 综合&水平翻转的结果

image

Mask R-CNN论文阅读笔记

Abstract

Introduction

Related Work

Mask R-CNN

Faster R-CNN回顾

Mask R-CNN

RoIAlign

网络结构

backbone架构

network head

实现细节

实验

各种指标

数据集介绍

PASCAL VOC数据集

COCO数据集

Main Results

消融性实验（Ablation Experiments）

Bounding box detection result

时间（速度）

Enhance

你可能感兴趣的:(Mask R-CNN论文阅读笔记)