CVPR 2020 2.15
摘要
实例分割在医学图像分析任务中占有重要地位,但是由于存在对象外观的可变性、大量重叠对象及对象边界模糊等问题,此任务仍然具有挑战性。
深度学习:proposal-free and proposal-based methods.(无提议和基于提议的方法)
问题:信息丢失
解决方法:提出了全景架构,统一了语义和实例特征
contributions:
- residual attention feature fusion mechanism
- a mask quality branch
- a consistency regularization mechanism
- experiment results outperform the state-of-the-art methods by a large margin.
介绍
语义分割 :对一张图片上的所有像素点进行分类,但是同一物体的不同实例不需要单独分割出来 stuff
实例分割:目标检测+语义分割,相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体 things
手动标注费时耗力,说明实例分割的必要性。
但是存在三个问题:1、背景和前景对象存在相似的外观;2、同一数据集,不同图像中的对象在形状、大小、纹理等方面会有可变性;3、对象之间的重叠。为了解决以上问题,DeepLearning是个普遍且有效的学习特征表示的方式。
基于CNN的实例分割方法分为以下两种:
1. proposal-free methods
首先通过一个语义分割模型给每个像素分配一个类标签。然后使用后处理步骤,根据其形态特征、结构和空间布局,将同一类别内的每个前景对象进行分离。虽然可以将connected components分离,但是对于重叠对象分割还是存在问题。虽然目前很多人在研究boundaries learning ,但是全局上下文信息仍然不能分开touching object,特别是当它们的边界不清楚时。——>proposal-based methods
2. proposal-based methods
incorporate the detection task with the segmentation task.
- spatial location for each object is detected as a bounding box
- a mask generator is further employed to segment each object within the corresponding predicted bounding box
优:可以分离touching objects
缺:缺少全局的语义信息 between the foreground and background
====>panoptic segmentation
Cell R-CNN V3
1.input image—>ResNet-101—>不同分辨率的特征图(fig.1为了简便,没画出ResNet-101),详见ss brach
2.feature maps—>semantic segmentation branch —> learn global semantic-level feature
—>instance segmentation branch—> learn the object-level local features
1.semantic segmentation branch
decoder of the global convolutional network (GCN) CVPR 2017
- large kernel global convolutional module=two 1D convolutional kernels in different orders (memory efficiency & a large receptive field)
- 使用GCN提高分类能力的同时,增加了一个Boundery Refinement(BR)的模块来增加边缘信息
2.instance segmentation branch
based on Cell R-CNN V2
-
feature maps 经FPN得到[ P 2 , P 3 , P 4 , P 5 , P 6 P_2,P_3,P_4,P_5,P_6 P2,P3,P4,P5,P6]经RPN得到ROIs(size不同)经过ROIAlign得14*14(same size)
-
所有ROIs—>box branch预测位置&class scores
-
—>dual stage mask generator for mask instance segmentation prediction
-
raff (residual attention feature fusion):在实例分割分支中可以学到语义特征 三个输入
-
mask quality predictor:根据iou&dice score 对每个ROI预测mask分割的质量(Mask Rcnn不足)
- low-quality mask predictions with high classification scores affect the performance when processing the overlapping objects during inference. ?
- C1:kernel size =1 conv
- C3:kernel size =3 conv
- UP/nx表示n倍上采样(最近邻插值)
- 最近邻插值计算量小,但是会造成图像灰度不连续,灰度变化地方会出现锯齿状。why not双线性插值?
2.1 raff mechanism
符号说明:
- K K K 表示在实例分割分支中ROIs的个数
- M i M_i Mi 表示对于每个ROI,mask predictions i ∈ [ 0 , K ] i ∈[0,K] i∈[0,K]
- B i B_i Bi 表示对于每个ROI,bounding box predictions B i = ( x i , y i , w i , h i ) B_i = (x_i,y_i,w_i,h_i) Bi=(xi,yi,wi,hi) , ( x i , y i ) (x_i,y_i) (xi,yi) 表示左下角坐标
-
- F 0 F_0 F0 表示Fig.2中 raw semantic feature map
算法流程:
- Mask probability predictions : P i = σ ( M i ) P_i = \sigma(M_i) Pi=σ(Mi) 表示每个pixel属于前景的概率 跟前面讲的feature map的 P i P_i Pi不同
- 每个 P i P_i Pi 和 F 0 F_0 F0根据 B i B_i Bi 进行融合,其中 R ( P i , ( w i , h i ) R(P_i,(w_i,h_i) R(Pi,(wi,hi)表示将 P i P_i Pi 根据双线性插值reshape成 ( w i . h i ) (w_i.h_i) (wi.hi)大小的形状
2.2 mask quality branch
- each mask prediction size = 2 x 28 x 28
- its foreground 1x 28 x 28 score map
- reshape to size 4 x 14 x 14
- concatenate with 256 x 14 x 14,形成260 x 14 x 14
- 3 conv + 3 FC ,predict the quality of the mask ∈ ( 0 , 1 ) ∈(0,1) ∈(0,1) table 1显示是四个conv?
- mask quality score S q u a S_{qua} Squa is defined as :
2.3 Semantic task consistency regularization
目的:robust
实例分割和语义分割都生成了semantic segmentation prediction,理想情况下两者应该相等并等于ground truth
semantic consistency regularization:
- P s e m ( i , j ) P_{sem(i,j)} Psem(i,j) 表示The softmax semantic segmentation prediction of the semantic ∈ ( 0 , 1 ) ∈(0,1) ∈(0,1)
- P i n s ( i , j ) P_{ins(i,j)} Pins(i,j) 表示The softmax semantic segmentation prediction of the instance
- N is the total number of activations in the P s e m ( i , j ) P_{sem(i,j)} Psem(i,j) ?
2.4 Training and inference details
loss:
- L ( s e m s e g 1 ) L_{(semseg1)} L(semseg1)和 L ( s e m s e g 2 ) L_{(semseg2)} L(semseg2) 分别表示语义分割和实例分割分支中的semantic loss
- L ( s e m − c o n s ) L_{(sem-cons)} L(sem−cons) 表示Eq.4中的semantic consistency regularization
- 实验中 α 1 \alpha_1 α1 = 0.1, α 2 \alpha_2 α2 = 1 用来平衡任务的重要性
inference
实例分割分支中的mask generator框架
步骤:
-
- classification score低于阈值 β \beta β 的部分首先丢弃
- 计算mask confidence score S c o n f = S c l s ∗ S q u a S_{conf} = S_{cls} * S_{qua} Sconf=Scls∗Squa
- S c l s S_{cls} Scls 表示objects’ classification score; S q u a S_{qua} Squa 表示objects’ mask quality prediction;
判断: S c o n f S_{conf} Sconf值越大,表示对于touching prediction,重叠部分属于预测的可能性越高
3.实验部分
3.1 数据集说明
3.1.1 TCGA-KUMAR
- 30张 1000*1000的组织病理学图片
- 该数据集涵盖了七个不同的器官,分别是乳房,肝脏,肾脏,前列腺,膀胱,结肠和胃,包括良性和病变组织样本。这30张经裁剪的图像包含超过21000个由医学专家注释说明的 细胞核。
data split 方式:
3.1.2 TNBC
- 30张 512x512的病理学图片,来自11个病人
- 3折交叉验证
- training:每张512x512图片 crop成5张256x256,之后数据增强(同上)
- testing:512x512直接输入网络
3.1.3 Fluorescence microscopy images
除了病理学图像,还使用了荧光显微镜图像
- 200张520x520,U2OS细胞,不同大小和形状
- 训练100;验证50;测试50
3.1.4 Plant Phenotyping
- 161张530*500图片
- training:100张,首先reshape 512*512,然后数据增强(同上)
- validation:28张,530*500直接送进网络
3.2 评价标准
3.3 补充细节
- ResNet 101 backbone采用在ImageNet上pretrain好的model;其它层采用kaiming初始化
- 优化器SGD
- weight_decay = 0.0001,momentum = 0.9,mini_batch size=1
- 初始化learning rate = 0.003 linear warm up for the first 500 iterations,3/4总迭代次数时,衰减到0.0003
- 两块1080Ti,GPU ; pytorch
3.4 Comparison with state-of-the-art methods
3.4.1 TCGA-KUMAR
several state-of-the-art nuclei instance segmentation methods
a strong generalization ability when testing on the cases from the unseen organs.
3.4.2 TNBC
背景很复杂,跟前景中的object会有相似的部分
3.4.3 BBBC039V1
除了组织病理学图片,荧光显微镜图像也有效。cell rcnn性能和mask rcnn差不多,此数据集背景简单。
Cell R-CNN V2通过设计一个双模态掩码生成器来改进Cell R-CNN,以提高实例分支中的掩码分割精度,并诱导掩码生成器学习全局语义级特征。然而,Cell R-CNN像素级Dice分数的改进还很有限。
3.4.4 CVPPP Challenge
在该数据集上述列出现有的方法都是task-specific design,泛化能力弱。
3.5 消融实验
在本节中,我们对TNBC、BBBC039V1和CVPPP数据集进行消融实验,以测试cell R-CNN V3细胞中新提出的三个模块在不同类型图像上的有效性。对于TNBC和BBBC039V1,我们的数据设置与之前的实验相同。对于CVPPP,我们对128张训练图像进行3次交叉验证。
3.5.1 Residual attention feature fusion mechanism
- cell rcnn v2特征融合机制采用的是(a),直接用mask代替semantic features,导致semantic-level信息丢失
- 通过这几种融合机制的比较,V3最终选了(d)
3.5.2 Mask quality branch
直接去掉mask quality branch,和V3进行对比
实验说明在object-level上的性能改进最大。
主要原因:exist low-quality mask predictions with a high classification score. low quality mask prediction?
3.5.3 Semantic task consistency regularization
语义一致性正则化的有效性在这三个模块中是最低的。
4 将来的工作
- 将该方法进行修改,适应更general 的图像
- 应用在3D图像中
over-all