This paper studies the problem of learning image semantic segmentation networks only using image-level labels as annotation efforts. Recent state-of-the-art methods on this problem first infer the sparse and discriminative regions for each object class using a deep classification network, then train semantic a segmentation network using the discriminative regions as supervision. Inspired by the traditional image segmentation methods of seeded region growing, we propose to train a semantic segmentation network starting from the discriminative regions and progressively increase the pixel-level supervision using by seeded region growing. The seeded region growing module is integrated in a deep segmentation network and can benefit from deep features. Different from conventional deep networks which have fixed/static labels, the proposed weakly-supervised network generates new labels using the contextual information within an image. The proposed method significantly outperforms the weakly-supervised semantic segmentation methods using static labels, and obtains the state-of-the-art performance, which are 63.2% mIoU score on the PASCAL VOC 2012 test set and 26.0% mIoU score on the COCO dataset.
使用CAMs来获取初始seed的位置信息:修改VGG-16的conv7,使用global average pooling代替全连接层,最后使用一个hard threshold来从CAMs得到的heatmap种得到目标区域。
除了前景中的种子线索外,我们还可以在背景中找到种子线索。在背景定位方面,我们利用了这篇文章中的显着性检测技术,在归一化显着性映射中选择像素值较低的区域作为背景。从前景和背景得到的种子线索被叠加成一个单一的通道分割掩码。
ℓ seed = − 1 ∑ c ∈ C ∣ S c ∣ ∑ c ∈ C ∑ u ∈ S c log H u , c − 1 ∑ c ∈ C ‾ ∣ S c ∣ ∑ c ∈ C ∑ u ∈ S c log H u , c \begin{aligned} \ell_{\text {seed}}=&-\frac{1}{\sum_{c \in \mathcal{C}}\left|S_{c}\right|} \sum_{c \in \mathcal{C}} \sum_{u \in S_{c}} \log H_{u, c} \\ &-\frac{1}{\sum_{c \in \overline{\mathcal{C}}}\left|S_{c}\right|} \sum_{c \in \mathcal{C}} \sum_{u \in S_{c}} \log H_{u, c} \end{aligned} ℓseed=−∑c∈C∣Sc∣1c∈C∑u∈Sc∑logHu,c−∑c∈C∣Sc∣1c∈C∑u∈Sc∑logHu,c
式子中, C C C是图像中除了背景以外其他类型的集合, C ‾ \overline{C} C是背景, S c S_c Sc是被分类到类别 c c c的locations的1集合, H u , c H_{u,c} Hu,c是分割图H中 u u u位置的像素分成类别c的概率。
此外,我们还使用了这篇文章中提出的边界损失 l b o u n d a r y l_{boundary} lboundary来鼓励分割映射与目标边界匹配。最后,通过最小化损失函数对分割网络进行优化:
ℓ = ℓ seed + ℓ boundary \ell=\ell_{\text {seed}}+\ell_{\text {boundary}} ℓ=ℓseed+ℓboundary
在引入的种子损失中,我们可以发现种子线索是稀疏的。实际上,大约有40%的像素有标签。在培训过程中,按照常规的训练深度网络设置,标签是固定的。我们的想法是将种子信号培育成未标记的像素。这样的话,我们可以有更密集的监督,以训练更好的分割网络。种子线索生长的基础是在图像中存在小的均匀区域,其中像素应该具有相同的标记。小的均匀区域通常用于低水平视觉,例如产生超像素。为了描述种子信号的生长问题,我们参考了一种经典的算法,Seeded Region Growing。
在SRG中,一些种子像素最初是根据一些简单的手工制作的标准(例如颜色、强度或纹理)来选择的。一旦初始种子被放置,生长过程就寻求获得均匀的图像区域,也就是说,它试图将图像分割成区域,该区域的每个连通分量都包含一个初始种子。
我们提出将SRG集成到深度分割网络中,用于弱监督的语义分割.该方法被称为“深种子区生长(DSRG)”。
一旦初始种子被分类网络初始化,然后根据区域相似性准则,从这些种子点生长到相邻的未标记点。相似性准则定义了是否应该将候选像素合并到特定区域。现在,在学习基于区域增长的语义分割网络时,必须考虑的主要问题是:应该采用哪种相似性准则来描述图像区域?在下面,我们详细介绍了处理这个问题的策略。
本文提出的相似准则P是分割网络生成的分割映射H中像素的简单概率阈值。
由于低层次图像特征对目标类间外观的鲁棒性较差,传统的SRG通常存在过分割现象。在DSRG中,我们使用已被证明具有高级语义的深度学习特征来计算像素相似度。因此,DSRG可以减少过分割,并且没有传统SRG的合并过程。
现在,我们得到了分割图H和种子S作为区域生长的输入,DSRG用一个迭代的过程访问每个类别,我们把类别 c c c的访问过程表示为 V c , c ∈ [ 0 , ∣ C ∣ ] V_c,c \in[0,|C|] Vc,c∈[0,∣C∣],其中c=0指的是背景类别,在一个迭代过程 V c V_c Vc中,按照行优先的规则遍历 S c S_c Sc的每一个位置,当遍历到Q像素时,将Q的八邻域没有标注的像素称为集合R,对于 R u ∈ R R_u\in R Ru∈R,它属于类别c的概率可以表示为 H u , c H_{u,c} Hu,c,之后 R u R_u Ru按照如下方式进行分类:
访问所有位置后,我们将所有新标记的像素附加到 S c S_c Sc中。一旦 S c S_c Sc被更改,我们将再次访问更新的 S c S_c Sc。否则, V c V_c Vc就停止了。终止标准与经典SRG不同,在SRG中,每个像素都必须有一个标签。由于分割网络预测的置信度低,很难分辨像素的标签。然而,随着网络分割能力的提高,未标记像素的数量减少,目标范围被正确的标签覆盖。此外,为了减少 V c V_c Vc中的冗余访问,我们首先计算满足上式要求的区域的连通分量,然后由包含初始种子区域的连通部件与初始种子使用相同的标记。
选择这些连通的部件作为训练分割网络的新的监控手段。我们用 D S R G ( S , H ) DSRG(S,H) DSRG(S,H)表示迭代访问过程,这意味着一个区域增长步骤。最后更新的 S = [ S 0 , ⋅ ⋅ ⋅ , S C ] S=[S0,···,SC] S=[S0,⋅⋅⋅,SC]作为监督,并应用于Eqn(1)中具有种子损失的分割网络的训练。在图2中, D S R G ( S , H ) DSRG(S,H) DSRG(S,H)插入到建议的分段网络的框架中。