Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images

CVPR 2020 2.15

摘要

实例分割在医学图像分析任务中占有重要地位,但是由于存在对象外观的可变性、大量重叠对象及对象边界模糊等问题,此任务仍然具有挑战性。

深度学习:proposal-free and proposal-based methods.(无提议和基于提议的方法)

问题:信息丢失

解决方法:提出了全景架构,统一了语义和实例特征

contributions:

  • residual attention feature fusion mechanism
  • a mask quality branch
  • a consistency regularization mechanism
  • experiment results outperform the state-of-the-art methods by a large margin.

介绍

语义分割 :对一张图片上的所有像素点进行分类,但是同一物体的不同实例不需要单独分割出来 stuff

实例分割:目标检测+语义分割,相对目标检测的边界框,实例分割可精确到物体的边缘相对语义分割,实例分割需要标注出图上同一物体的不同个体 things

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第1张图片

手动标注费时耗力,说明实例分割的必要性。

但是存在三个问题:1、背景和前景对象存在相似的外观;2、同一数据集,不同图像中的对象在形状、大小、纹理等方面会有可变性;3、对象之间的重叠。为了解决以上问题,DeepLearning是个普遍且有效的学习特征表示的方式。

基于CNN的实例分割方法分为以下两种:

1. proposal-free methods

首先通过一个语义分割模型给每个像素分配一个类标签。然后使用后处理步骤,根据其形态特征、结构和空间布局,将同一类别内的每个前景对象进行分离。虽然可以将connected components分离,但是对于重叠对象分割还是存在问题。虽然目前很多人在研究boundaries learning ,但是全局上下文信息仍然不能分开touching object,特别是当它们的边界不清楚时。——>proposal-based methods

2. proposal-based methods

incorporate the detection task with the segmentation task.

  • spatial location for each object is detected as a bounding box
  • a mask generator is further employed to segment each object within the corresponding predicted bounding box

优:可以分离touching objects

缺:缺少全局的语义信息 between the foreground and background

====>panoptic segmentation

Cell R-CNN V3

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第2张图片

1.input image—>ResNet-101—>不同分辨率的特征图(fig.1为了简便,没画出ResNet-101),详见ss brach

2.feature maps—>semantic segmentation branch —> learn global semantic-level feature

​ —>instance segmentation branch—> learn the object-level local features

1.semantic segmentation branch

decoder of the global convolutional network (GCN) CVPR 2017

  • large kernel global convolutional module=two 1D convolutional kernels in different orders (memory efficiency & a large receptive field)
  • 使用GCN提高分类能力的同时,增加了一个Boundery Refinement(BR)的模块来增加边缘信息

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第3张图片

2.instance segmentation branch

based on Cell R-CNN V2

  • feature maps 经FPN得到[ P 2 , P 3 , P 4 , P 5 , P 6 P_2,P_3,P_4,P_5,P_6 P2,P3,P4,P5,P6]经RPN得到ROIs(size不同)经过ROIAlign得14*14(same size)

  • 所有ROIs—>box branch预测位置&class scores

  • ​ —>dual stage mask generator for mask instance segmentation prediction

  • raff (residual attention feature fusion):在实例分割分支中可以学到语义特征 三个输入

  • mask quality predictor:根据iou&dice score 对每个ROI预测mask分割的质量(Mask Rcnn不足)

    • low-quality mask predictions with high classification scores affect the performance when processing the overlapping objects during inference.

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第4张图片

  • C1:kernel size =1 conv
  • C3:kernel size =3 conv
  • UP/nx表示n倍上采样(最近邻插值)
    • 最近邻插值计算量小,但是会造成图像灰度不连续,灰度变化地方会出现锯齿状。why not双线性插值?

2.1 raff mechanism

符号说明:

  • K K K 表示在实例分割分支中ROIs的个数
  • M i M_i Mi 表示对于每个ROI,mask predictions i ∈ [ 0 , K ] i ∈[0,K] i[0,K]
  • B i B_i Bi 表示对于每个ROI,bounding box predictions B i = ( x i , y i , w i , h i ) B_i = (x_i,y_i,w_i,h_i) Bi=(xi,yi,wi,hi) ( x i , y i ) (x_i,y_i) (xi,yi) 表示左下角坐标
    • 表示不同,影响最后的精度
  • F 0 F_0 F0 表示Fig.2中 raw semantic feature map

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第5张图片

算法流程:

  • Mask probability predictions : P i = σ ( M i ) P_i = \sigma(M_i) Pi=σ(Mi) 表示每个pixel属于前景的概率 跟前面讲的feature map的 P i P_i Pi不同
  • 每个 P i P_i Pi F 0 F_0 F0根据 B i B_i Bi 进行融合,其中 R ( P i , ( w i , h i ) R(P_i,(w_i,h_i) R(Pi,(wi,hi)表示将 P i P_i Pi 根据双线性插值reshape成 ( w i . h i ) (w_i.h_i) (wi.hi)大小的形状

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第6张图片

2.2 mask quality branch

  • each mask prediction size = 2 x 28 x 28
  • its foreground 1x 28 x 28 score map
  • reshape to size 4 x 14 x 14
  • concatenate with 256 x 14 x 14,形成260 x 14 x 14
  • 3 conv + 3 FC ,predict the quality of the mask ∈ ( 0 , 1 ) ∈(0,1) (0,1) table 1显示是四个conv?

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第7张图片

  • mask quality score S q u a S_{qua} Squa is defined as :

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第8张图片

2.3 Semantic task consistency regularization

目的:robust

实例分割和语义分割都生成了semantic segmentation prediction,理想情况下两者应该相等并等于ground truth

semantic consistency regularization

  • P s e m ( i , j ) P_{sem(i,j)} Psem(i,j) 表示The softmax semantic segmentation prediction of the semantic ∈ ( 0 , 1 ) ∈(0,1) (0,1)
  • P i n s ( i , j ) P_{ins(i,j)} Pins(i,j) 表示The softmax semantic segmentation prediction of the instance
  • N is the total number of activations in the P s e m ( i , j ) P_{sem(i,j)} Psem(i,j) ?

2.4 Training and inference details

loss:

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第9张图片

  • L ( s e m s e g 1 ) L_{(semseg1)} L(semseg1) L ( s e m s e g 2 ) L_{(semseg2)} L(semseg2) 分别表示语义分割和实例分割分支中的semantic loss
  • L ( s e m − c o n s ) L_{(sem-cons)} L(semcons) 表示Eq.4中的semantic consistency regularization
  • 实验中 α 1 \alpha_1 α1 = 0.1, α 2 \alpha_2 α2 = 1 用来平衡任务的重要性
inference

实例分割分支中的mask generator框架

步骤:

    1. classification score低于阈值 β \beta β 的部分首先丢弃
    2. 计算mask confidence score S c o n f = S c l s ∗ S q u a S_{conf} = S_{cls} * S_{qua} Sconf=SclsSqua
      • S c l s S_{cls} Scls 表示objects’ classification score; S q u a S_{qua} Squa 表示objects’ mask quality prediction;

判断: S c o n f S_{conf} Sconf值越大,表示对于touching prediction,重叠部分属于预测的可能性越高

3.实验部分

3.1 数据集说明

3.1.1 TCGA-KUMAR

  • 30张 1000*1000的组织病理学图片
  • 该数据集涵盖了七个不同的器官,分别是乳房,肝脏,肾脏,前列腺,膀胱,结肠和胃,包括良性和病变组织样本。这30张经裁剪的图像包含超过21000个由医学专家注释说明的 细胞核

data split 方式:

  • training :使用乳腺、肾脏、肝脏和前列腺共12张图像进行训练(每个器官各3张)

    • 1、randomly cropped 成256*256

    • 2、数据增强处理:水平、垂直翻转 90、180、270° + Gaussian blur, median blur,Gaussian noise

  • validation:来自乳腺、肾脏、肝脏和前列腺的4张图像

  • testing:剩下了14张图片

    • 其中八张图片时training阶段时的器官(乳腺、肾脏、肝脏和前列腺) —>seen testing set

    • 剩下六张来自其他器官(膀胱,结肠和胃)——>unseen testing set

    • 不需要数据增强的方式?

3.1.2 TNBC

  • 30张 512x512的病理学图片,来自11个病人
  • 3折交叉验证
  • training:每张512x512图片 crop成5张256x256,之后数据增强(同上)
  • testing:512x512直接输入网络

3.1.3 Fluorescence microscopy images

除了病理学图像,还使用了荧光显微镜图像

  • 200张520x520,U2OS细胞,不同大小和形状
  • 训练100;验证50;测试50

3.1.4 Plant Phenotyping

  • 161张530*500图片
  • training:100张,首先reshape 512*512,然后数据增强(同上)
  • validation:28张,530*500直接送进网络

3.2 评价标准

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第10张图片

3.3 补充细节

  • ResNet 101 backbone采用在ImageNet上pretrain好的model;其它层采用kaiming初始化
  • 优化器SGD
  • weight_decay = 0.0001,momentum = 0.9,mini_batch size=1
  • 初始化learning rate = 0.003 linear warm up for the first 500 iterations,3/4总迭代次数时,衰减到0.0003
  • 两块1080Ti,GPU ; pytorch

3.4 Comparison with state-of-the-art methods

3.4.1 TCGA-KUMAR

several state-of-the-art nuclei instance segmentation methods

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第11张图片

a strong generalization ability when testing on the cases from the unseen organs.

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第12张图片

3.4.2 TNBC

背景很复杂,跟前景中的object会有相似的部分

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第13张图片

3.4.3 BBBC039V1

除了组织病理学图片,荧光显微镜图像也有效。cell rcnn性能和mask rcnn差不多,此数据集背景简单。

Cell R-CNN V2通过设计一个双模态掩码生成器来改进Cell R-CNN,以提高实例分支中的掩码分割精度,并诱导掩码生成器学习全局语义级特征。然而,Cell R-CNN像素级Dice分数的改进还很有限。

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第14张图片

3.4.4 CVPPP Challenge

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第15张图片

在该数据集上述列出现有的方法都是task-specific design,泛化能力弱。

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第16张图片

3.5 消融实验

在本节中,我们对TNBC、BBBC039V1和CVPPP数据集进行消融实验,以测试cell R-CNN V3细胞中新提出的三个模块在不同类型图像上的有效性。对于TNBC和BBBC039V1,我们的数据设置与之前的实验相同。对于CVPPP,我们对128张训练图像进行3次交叉验证。

3.5.1 Residual attention feature fusion mechanism

  • cell rcnn v2特征融合机制采用的是(a),直接用mask代替semantic features,导致semantic-level信息丢失
  • 通过这几种融合机制的比较,V3最终选了(d)

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第17张图片

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第18张图片

3.5.2 Mask quality branch

直接去掉mask quality branch,和V3进行对比

在这里插入图片描述

实验说明在object-level上的性能改进最大。

主要原因:exist low-quality mask predictions with a high classification score. low quality mask prediction?

3.5.3 Semantic task consistency regularization

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第19张图片
语义一致性正则化的有效性在这三个模块中是最低的。

4 将来的工作

  • 将该方法进行修改,适应更general 的图像
  • 应用在3D图像中

over-all

Cell R-CNN V3: A Novel Panoptic Paradigm for Instance Segmentation in Biomedical Images_第20张图片

你可能感兴趣的:(全景分割,实例分割,语义分割)