HTC算法解读

论文:Hybrid Task Cascade for Instance Segmentation
论文链接:https://arxiv.org/abs/1901.07518

代码链接:https://github.com/open-mmlab/mmdetection

创新点

本文主要有两个创新点:

1、设计了多任务多阶段的混合级连结构。

2、融入语义分割分支增强 spatial context。

网络结构

HTC算法解读_第1张图片

 

图1(a) 图中每一个 stage 和 Mask R-CNN 相似,都有一个 mask 分支 和 box 分支。当前 stage 会接受 RPN 或者 上一个 stage 回归过的框作为输入,然后预测新的框和 mask。

缺点:Cascade R-CNN 虽然强行在每一个 stage 里面塞下了两个分支,但是这两个分支之间在训练过程中没有任何交互,它们是并行执行的。

为解决1(a)中问题, Interleaved Execution,也即在每个 stage 里,先执行 box 分支,将回归过的框再交由 mask 分支来预测 mask,如上图1(b)所示。

缺点:不同 stage 之间的 mask 分支是没有任何直接的信息流的, Mi+1只和当前Bi通过 RoI Align 有关联而与Mi没有任何联系。

为解决1(b)中问题,作者在相邻的 stage 的 mask 分支之间增加一条连接,提供 mask 分支的信息流,让Mi+1能知道Mi的特征。如图1(c)所示。详细结构如图2所示,我们将Mi的特征经过一个 1x1 的卷积做 feature embedding,然后输入到Mi+1,这样Mi+1既能得到 backbone 的特征,也能得到上一个 stage 的特征。

HTC算法解读_第2张图片

为区分前景与背景,将语义分割引入到实例分割框架中,以获得更好的 spatial context。如图1(d)所示,S为语义分割头。详细设计如图3所示。FPN输出不同level的特征图resize到同一尺度并相加,经过一系列卷积,分别预测语义分割特征以及语义分割预测结果,语义分割特征通过RoIAlign及element-wise sum与box、mask特征进行融合。

HTC算法解读_第3张图片

损失函数 

损失函数如公式7所示,

HTC算法解读_第4张图片

表示t阶段mask预测损失函数,使用BCE;Lseg表示语义分割分支损失函数,使用CE。

实验结果

HTC算法解读_第5张图片

参考:https://zhuanlan.zhihu.com/p/57629509

你可能感兴趣的:(实例分割,论文详解,深度学习)