RCNN系列(4)--Mask RCNN(容易理解)

1.简介

Mask R-CNN是在Faster R-CNN的基础上添加了一个预测分割mask的分支。整个网络将RoI Pooling 层替换成了RoIAlign层;添加了并列的FCN层(mask层)。

2.基本概念

2.1 RoIAlign
RoIAlign相比于RoIPooling,避免了直接量化,而是采用二次插值的方法来得到池化后的特征图,使得结果精度更高。更详细

3.网络结构

RCNN系列(4)--Mask RCNN(容易理解)_第1张图片

4.损失函数

在这里插入图片描述
对于每一个ROI,mask分支有Kmm维度的输出,其对K个大小为m*m的mask进行编码,每一个mask有K个类别。我们使用了per-pixel sigmoid,并且将Lmask定义为the average binary cross-entropy loss 。对应一个属于GT中的第k类的ROI,Lmask仅仅在第k个mask上面有定义(其它的k-1个mask输出对整个Loss没有贡献)。我们定义的Lmask允许网络为每一类生成一个mask,而不用和其它类进行竞争;我们依赖于分类分支所预测的类别标签来选择输出的mask。这样将分类和mask生成分解开来。

5.推荐

Mask-RCNN视频讲解

你可能感兴趣的:(RCNN系列,深度学习,神经网络)