[论文阅读] BoxPolyp: Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations

[论文地址] [代码] [MICCAI 22]

Abstract

准确的息肉分割对结直肠癌的诊断和治疗具有重要意义。然而,由于产生准确的mask注释的成本很高,现有的息肉分割方法存在严重的数据短缺和模型泛化受损的问题。反之,粗略的息肉边界盒注释更容易获得。因此,在本文中,我们提出了一个提升的BoxPolyp模型,以充分利用准确的mask和额外的coarse bounding box注释。在实现中,box注释被应用于缓解以前的息肉分割模型的过拟合问题,该模型通过迭代的提升分割模型生成细粒度的息肉区域。为了实现这一目标,首先提出了一个融合滤波采样(Fusion Filter Sampling, FFS)模块,以较少的噪声从box注释中生成像素级的伪标签,从而使性能得到明显改善。此外,考虑到同一息肉的外观一致性,设计了一个图像一致性(Image Consistency, IC)损失。这种IC损失明确地缩小了由两个不同网络提取的特征之间的距离,从而提高了模型的稳健性。请注意,我们的BoxPolyp是一个即插即用的模型,可以并入任何有吸引力的主干网。在五个具有挑战性的基准上的定量和定性实验结果证实,我们提出的模型在很大程度上超过了以前最先进的方法。


Method

本文提出了一个很好玩的问题,目前「论文中」的息肉分割模型都是overfit的,证据就是主流的训练集(PraNet)只包含1450张训练图像,从经验上看不能满足泛化性的要求。那么能不能直接换成更大的训练集呢?比如21年刚提出的LDPolypVideo Dataset [1],有40,266张图像(160个视频片段)。如果换了数据集话,看起来问题解决了,但作者指出,这个数据集虽然大,但是噪声「比较多」,比如:
[论文阅读] BoxPolyp: Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations_第1张图片
图像模糊(blurred image),无息肉(no polyp,不过笔者认为这种算不算噪声不好说),错标(wrong label),没标准(imprecise label)。

因此直接换数据集不太可行。现在,重新回到了一开始的问题,怎么在已有标注不变(1450张高质量标注)的情况下提升模型的泛化性,并防止overfit到数据集中的噪声呢?这其实就是个经典的半监督问题,也就是可以用一致性正则化(Consistency Regularization)的方式来解决。

按照传统的半监督思路,下一步就是找一个大型的无标注数据集了。顺着前面的故事,接下来的经典打法就是把LDPolypVideo Dataset的标签更扔掉(因为有噪声),然后利用伪标签,正则化等方式去涨点。不过本文觉得,既然标签只是有噪声(而不是完全没标签),那还是有一定的利用价值的。具体的利用价值则是用于判断网络生成的伪标签的质量,从而提升半监督效果。

本文的方法流程图如下:
[论文阅读] BoxPolyp: Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations_第2张图片
做半监督的第一个问题就是怎样让算法在同一张输入的情况下去产生不同的结果,进而去约束一致性。本文的做法是,利用两个不同的backbone。两个特征提取网络一般很难去提取得到完全相同的特征,进而得到的分割结果上也会有所差异。落实到操作上,为了增进这种差异,本文用了架构不同的两个网络,Res2Net(CNN)和Transformer(PVT)。

那么接下来就是很经典的半监督做法了,我们应该约束这两个分割结果一致,即图中的IC Loss。

接下来则是怎么利用额外数据集LDPolypVideo Dataset的问题。首先是本文提出的box mask怎么来。具体来说,因为LDPolypVideo数据集本身是能用于detection任务的…提供了bbox坐标标注,因此可以写个脚本将其转换成box形状的mask标注。

这个box有什么用呢?这里其实做了一个假设,如果网络在辅助数据集LDPolypVideo的某个样本上生成的伪标签和bbox差太多,那说明这个样本本身有问题,应该扔掉。具体来说,如果某一图像的预测结果和这个box取交集,小于某一个值的话,那么就存在两种可能。一种是,mask(bbox)有问题,另一种是图像本身太难了网络学不会。不过无论是哪种情况,这种样本对半监督都是比较不利的,因此这种样本将不会被用于训练(落实到代码来说就是对于这种类型的样本不回传梯度),从而改善噪声问题。


Exp

和PraNet一样的训练集(1450)以及测试集,指标上只用了mDice和mIoU:
[论文阅读] BoxPolyp: Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations_第3张图片


Ref

[1] Ma, Y., Chen, X., Cheng, K., Li, Y., Sun, B.: LDPolypVideo benchmark: a largescale colonoscopy video dataset of diverse polyps. In: de Bruijne, M., et al. (eds.) MICCAI 2021. LNCS, vol. 12905, pp. 387–396. Springer, Cham (2021).

你可能感兴趣的:(Polyp,Segmentation,划水)