【论文笔记】:Hybrid Task Cascade for Instance Segmentation

&Title:

  • Hybrid Task Cascade for Instance Segmentation

&Summary

在本篇论文中,我们提出了一种新的实例分割框架,设计了多任务多阶段的混合级联结构,并且融合了一个语义分割的分支来增强 spatial context

关键思想是:通过在每个阶段结合级联和多任务来改善信息流,并利用空间背景来进一步提高准确性。

具体来说:我们设计了一个渐进式细化的级联管道。 在每个阶段,边界框回归掩模预测都以多任务方式组合。 此外,在不同阶段的掩模分支之间引入直接连接 - 每个阶段的掩模特征被嵌入并馈送到下一个阶段,如图2所示。总体设计强度 - 任务之间和跨阶段的信息流 ,导致每个阶段的更好的细化和对所有任务的更准确的预测

总结:

  • 多任务多阶段的混合级联结构
  • 训练时每个 stage 内 box 和 mask 分支采用交替执行
  • 在不同 stage 的 mask 分支之间引入直接的信息流
  • 语义分割的特征和原始的 box/mask 分支融合,增强 spatial context

结果:单个HTC比MSCOCO数据集上强大的Cascade Mask R-CNN基线获得38.4%和1.5%的改进。此外,我们的整体系统在测试挑战分割中实现了48.6掩模AP,在COCO 2018挑战对象检测任务中排名第一。

&Research Objective

成功实例分割级联的关键是充分利用检测和分割之间的关联关系
本文的目标就是在寻找一个可以充分利用各个之间的关系,实现实例分割级联。

注:可以理解为,在cascade R-CNN和mask R-CNN的基础上,作者想通过级联和来实现实例分割,进而找出一种最好的级联结构,来实现检测,提高mAP。

&Problem Statement

Cascade是一种经典而强大的架构,可以提升各种任务的性能。但是,如何引入级联到实例分割仍然是一个悬而未决的问题。 Cascade R-CNN和Mask R-CNN的简单组合仅带来有限的增益。

  • 实例分割是一种基本的计算机视觉任务,它在实例级别执行对象的每像素标记。 在自动驾驶和视频监控等实际场景中实现准确而强大的实例分割具有挑战性。

    • 首先,视觉对象经常受到变形,遮挡和尺度变化的影响。
    • 其次,背景杂乱使得对象实例难以被隔离。

    为了解决这些问题,我们需要一种能够适应外观变化的强大代表。
    同时,它需要捕获丰富的上下文信息,以区分对象与杂乱的背景。

  • Cascade是一种经典而强大的架构,通过多阶段改进提高了各种任务的性能。
    Cascade R-CNN [5]提出了一个用于物体检测的多阶段架构,并取得了可喜的成果。 Cascade R-CNN的成功可归结为两个关键方面:(1)预测的渐进式细化和(2)训练分布的自适应处理。 尽管在检测任务中有效,但将级联思想集成到实例分割中是非常重要的。 与bbox
    AP相比,Cascade R-CNN和Mask R-CNN [18]的直接组合仅在掩模AP方面带来有限的增益。 具体来说,它将bbox
    AP提高了3.5%,而掩模AP提高了 1.2%,如表1所示。 这个大差距的一个重要原因是不同阶段的掩模分支之间的次优信息流。
    稍后阶段的掩码分支仅受益于更好的本地化边界框,没有直接连接。

    【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第1张图片

为了弥补这一差距,我们提出了混合任务级联(HTC),一种新的级联架构。

&Method(s)

整个框架的演进可以用四张图来表示,其中 M 表示 mask 分支,B 表示 box 分支,数字表示 stage,M1 即为第一个 stage 的 mask 分支。
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第2张图片

base:Cascade Mask R-CNN

由于 Cascade R-CNN 在物体检测上的结果非常好,我们首先尝试将 Cascade R-CNN 和 Mask R-CNN 直接进行杂交,得到子代 Cascade Mask R-CNN,如上图(a)所示。在这种实现里,每一个 stage 和 Mask R-CNN 相似,都有一个 mask 分支 和 box 分支。当前 stage 会接受 RPN 或者 上一个 stage 回归过的框作为输入,然后预测新的框和 mask。这也是实验中我们所比较的 baseline,从实验表格可以看到其实这个 baseline 已经很强了,但是仍然存在明显的问题,主要在于 Cascade Mask R-CNN 相比 Mask R-CNN 在 box AP 上提高了 3.5 个点,但是在 mask AP 上只提高了 1.2 个点。

up+:Interleaved Execution

Cascade R-CNN 虽然强行在每一个 stage 里面塞下了两个分支,但是这两个分支之间在训练过程中没有任何交互,它们是并行执行的。所以我们提出 Interleaved Execution,也即在每个 stage 里,先执行 box 分支,将回归过的框再交由 mask 分支来预测 mask,如上图(b)所示。这样既增加了每个 stage 内不同分支之间的交互,也消除了训练和测试流程的 gap。我们发现这种设计对 Mask R-CNN 和 Cascade Mask R-CNN 的 mask 分支都有一定提升。
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第3张图片

up++:Mask Information Flow

这一步起到了很重要的作用,对一般 cascade 结构的设计和改进也具有借鉴意义。我们首先回顾原始 Cascade R-CNN 的结构,每个 stage 只有 box 分支。当前 stage 对下一 stage 产生影响的途径有两条:

  • Bi+1 的输入特征是 Bi 预测出回归后的框通 RoI Align 获得的;
  • Bi+1的回归目标是依赖 Bi 的框的预测的。这就是 box 分支的信息流,让下一个 stage 的特征和学习目标和当前 stage 有关。在 cascade 的结构中这种信息流是很重要的,让不同 stage 之间在逐渐调整而不是类似于一种 ensemble。

然而在 Cascade Mask R-CNN 中,不同 stage 之间的 mask 分支是没有任何直接的信息流的,Mi+1 只和当前 Bi 通过 RoI Align 有关联而与 Mi 没有任何联系。多个 stage 的 mask 分支更像用不同分布的数据进行训练然后在测试的时候进行 ensemble,而没有起到 stage 间逐渐调整和增强的作用。为了解决这一问题,我们在相邻的 stage 的 mask 分支之间增加一条连接,提供 mask 分支的信息流,让 Mi+1能知道 Mi 的特征。具体实现上如下图中红色部分所示,我们将 Mi 的特征经过一个 1x1 的卷积做 feature embedding,然后输入到 Mi+1,这样 Mi+1 既能得到 backbone 的特征,也能得到上一个 stage 的特征。

【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第4张图片

up+++:Semantic Feature Fusion

这一步是我们尝试将语义分割引入到实例分割框架中,以获得更好的 spatial context。因为语义分割需要对全图进行精细的像素级的分类,所以它的特征是具有很强的空间位置信息,同时对前景和背景有很强的辨别能力。通过将这个分支的语义信息再融合到 box 和 mask 分支中,这两个分支的性能可以得到较大提升

在具体设计上,为了最大限度和实例分割模型复用 backbone,减少额外参数,我们在原始的 FPN 的基础上增加了一个简单的全卷积网络用来做语义分割。首先将 FPN 的 5 个 level 的特征图 resize 到相同大小并相加,然后经过一系列卷积,再分别预测出语义分割结果和语义分割特征。这里我们使用 COCO-Stuff 的标注来监督语义分割分支的训练。红色的特征将和原来的 box 和 mask 分支进行融合(在下图中没有画出),融合的方法我们也是采用简单的相加。
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第5张图片

&Evaluation

通过上面的几步,在使用 ResNet-50 的 backbone 下,相对 Cascade Mask R-CNN 可以有 1.5 个点的 mask AP 提升,相对 Mask R-CNN 可以有 2.9 个点的提升。在 COCO 2017 val 子集上的逐步对比试验如下表所示:
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第6张图片
COCO Challenge 里面用到的所有步骤和技巧的涨点情况:
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第7张图片
对比结果:
【论文笔记】:Hybrid Task Cascade for Instance Segmentation_第8张图片

&Conclusion

我们提出了混合任务级联(HTC),一种用于实例分割的新级联架构。 它将box和mask分支交织在一起进行联合多阶段处理,并采用语义分段分支来提供空间上下文。 该框架逐步完善掩模预测,并在每个阶段将互补特征集成在一起。 在没有花里胡哨的情况下,所提出的方法比MSCOCO数据集上的强级联掩模R-CNN基线获得1.5%的改进。 值得注意的是,我们的整个系统在测试挑战数据集上实现了48.6掩模AP,在test-dev上实现了49.0 mask AP。

&Notes

贡献

  • 我们提出了混合任务级联(HTC),它通过将检测和分割功能相互结合,有效地将级联集成到实例分割中,以进行联合多阶段处理。它实现了COCO测试开发和测试挑战的最先进性能。
  • 我们通过区分前景对象和背景杂波来证明空间上下文有益于实例分割。
  • 我们对各种组件和设计进行了广泛的研究,为进一步研究物体检测和实例分割提供了参考,有助于进一步研究。

&参考

  • 实例分割的进阶三级跳:从 Mask R-CNN 到 Hybrid Task Cascade

你可能感兴趣的:(#,其他)