关于MASK RCNN中一些细节的理解

一、引言

      MASK RCNN中,特征提取网络用的是Resnet50+FPN,然后接的ROI Align和后面的Cls和Bbox分支。因为用了FPN,那么在特征提取网络的地方,一定会生成多张feature map,在原始的FPN论文中,作者将每一层的Feature map都拿去做预测,但MASK RCNN的结构图中只有一个分支,本文就是解释如何在不同的feature map进行检测。

二、步骤

  1->将FPN生成的feature maps分别对每一层的feature map通过RPN产生Anchors,结果保存在layer_outputs中,rpn的返回值包含三个部分:rpn_logits、rpn_probs、 rpn_bbox

 2->将第一步的rpn输出拼接起来,得到 rpn_class_logits, rpn_class, rpn_bbox三个量,每个量包含了不同feature map上产生的结果;然后送入proposal layer层中产生rois

3->将rois送入ROI Align模块中,在进行ROI Pooling时需要得到rois在对应feature map上的区域,对应到MASK RCNN中就需要得到rois对应到不同层的feature map上的区域。因此,在ROI Align中,会将rois对应到不同层的feature map上,然后pooling,pooling结束后再次拼接成一个tensor。

你可能感兴趣的:(ai)