图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”

模型包含三个网络:实例分辨,掩码计算,目标归类。三个网络形成级联的结构。运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。

将instance-aware语义分割分成三个子任务:1.实例分辨,使用类别无关的bbox表示实例;2.掩码估计,估计每个实例的像素级掩码;3.目标分类,预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构,下一阶段依靠上一阶段的输出,如下所示:
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”_第1张图片

多任务网络级联
三个阶段共享卷积特征,每个阶段包含一个损失项,但后面一阶段的损失依靠上一阶段的损失。

  1. Box-级实例回归
    网络结构与损失函数与RPN类似,在共享特征后,衔接一个3*3的卷积层降维,然后接两个1*1的卷积层用于bbox回归和是否目标分类。RPN损失为:
    L1=L1(B(Θ))
    其中 Θ 表示所有需要优化的网络参数,B是此层网络的输出,即bbox。
  2. Mask-级实例回归
    给定阶段1的bbox,使用RoI池化提取固定长度的特征,之后衔接两个全连接层,第一个fc层将维度降为256,第二个fc层回归pixel-wise掩码,有 m2 个输出,对应相应大小的掩码。第二层的损失函数为:
    L2=L2(M(Θ)|B(Θ))
  3. 实例分类
    只保留掩码部分对应的特征:
    FMaski(Θ)=FRoIi(Θ)Mi(Θ)
    衔接两个4096-d的全连接层,损失函数为:
    这里写图片描述

整体网络结构如下图所示:
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”_第2张图片

网络训练
1. 级联结构的损失函数为:
这里写图片描述

  1. RoI Warping 层
    目的是生成每个box更具分辨性的特征,该层裁切一个特征图区域,使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图,RoI warp层在box内差值,输出固定大小的特征。
    这里写图片描述
    增加RoI warp层是期望获取更高分辨率的特征,作用与空间转换网络(STN)类似,作者认为特征插值能够带来更具分辨力的特征。

更多层级联
第3级级联的输出可以作为新的proposals,再将第2级和第3级连接到其后,可以提升性能,示意图如下所示:
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”_第3张图片

实验结果
1. 与其他实例分割方法的结果比较
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”_第4张图片
2. 与Fast/Faster RCNN检测结果比较
图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”_第5张图片

你可能感兴趣的:(目标检测,图像分割)