Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割

本文记录下阅读 CVPR2020论文 其中的《基于自校正网络的半监督语义图像分割》,更新于2020.3.26 —— 阿波

目录

  • Abstract
  • Introduction
  • Related Work
  • Proposed Approach
    • 3.1.辅助分割模型
    • 3.2. 无自我纠正
    • 3.3. 线性自校正
    • 3.4 卷积自校正
  • Experiments
    • 4.1. 帕斯卡VOC数据集
    • 4.2.城市景观数据集
  • 5.Conclusion

Abstract

  1. 本文介绍了一种原理性的半监督框架。
  2. 使用线性函数或卷积函数引入了自校正模块的两种变体
  3. 等于或优于使用大的完全监督集训练的模型,同时需要的注释工作量减少了7倍

Introduction

  1. 本文提出了一种利用廉价的对象边界盒标签进行训练的半监督方法 来降低语义分割的数据需求。这种方法减少了数据注释需求,但代价是需要推断边界框内对象的遮罩标签。
  2. 提出了一个原则性的框架,在半监督环境下训练语义分割模型,使用一小组完全监督图像(带有语义对象遮罩和边界框)和一组弱图像(只有边界框注释)。
  3. 框架为自校正分割模型,因为它改进了弱监督标签的基础上,其当前的对象掩模概率模型。
  4. 在PASCAL-VOC和Cityscapes数据集上的实验表明,我们的模型使用一小部分完全监督集训练,其性能与使用所有完全监督图像训练的模型相当(在某些情况下甚至优于)。

Related Work

  1. 语义分割:使用DeepLabv3+ 作为我们的分割模型,因为它比以前使用简单阶乘输出的基于CRF的DeepLab模型更好。
  1. Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In EuropeanConferenceonComputerVision(ECCV),2018. 1, 2, 5, 6, 7
  1. 鲁棒训练:利用包围盒信息训练分割模型,可以归结为一个从带噪标记实例中鲁棒学习的问题。这些模型都局限于图像分类问题,尚未应用于图像分割。
  1. Andreas Veit, Neil Alldrin, Gal Chechik, Ivan Krasin, Abhinav Gupta, and Serge Belongie. Learning from noisy large-scaledatasetswithminimalsupervision. In2017IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6575–6583. IEEE, 2017. 2
  2. Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki, and Kiyoharu Aizawa. Joint optimization framework for learning with noisy labels. In Computer Vision and Pattern Recognition (CVPR), 2018. 2, 4
  3. LuJiang,ZhengyuanZhou,ThomasLeung,Li-JiaLi,andLi Fei-Fei. Mentornet: Regularizingverydeepneuralnetworks oncorruptedlabels. InInternationalConferenceonMachine Learning (ICML), 2018. 2
  4. Mostafa Dehghani, Arash Mehrjou, Stephan Gouws, Jaap Kamps, and Bernhard Sch¨olkopf. Fidelity-weighted learning. In International Conference on Learning Representations (ICLR), 2018. 2
  1. 半监督语义分割:**本文的重点是利用包围盒标注训练深度分割cnn。**帕潘德里欧等人。[41]在DeepLabv1[6]的基础上,提出了一种基于期望最大化的(EM)算法来估计弱图像集(仅含盒信息)的分割标签。在每个训练步骤中,以EM方式基于网络输出估计分割标签。Dai等人。[12] 提出一种迭代训练方法,在生成区域建议(来自固定建议池)和微调网络之间进行交替。同样,Khoreva等人。[26]使用迭代算法,但依赖GrabCut[47]和手工编制的规则在每次迭代中提取分割掩码。我们的工作与之前的方法有两个显著的不同

    i)我们用辅助CNN替换手工规则,以提取弱集盒中对象的概率分割标签。

    ii)在训练过程中,我们使用自校正模型来校正辅助CNN的输出与主分割模型之间的不匹配。

[41] George Papandreou, Liang-Chieh Chen, Kevin P. Murphy, and Alan L. Yuille. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation. In IEEE International Conference on Computer Vision (ICCV), 2015. 1, 2, 3, 4, 5, 6, 7
[12] Jifeng Dai, Kaiming He, and Jian Sun. Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. In IEEE International Conference on Computer Vision (ICCV), 2015. 1, 2, 3, 4, 7
[47] Carsten Rother, Vladimir Kolmogorov, and Andrew Blake. Grabcut: Interactive foreground extraction using iterated graph cuts. In ACM transactions on graphics (TOG). ACM, 2004. 2, 3

除了框注释之外,分割模型还可以使用其他形式的弱注释,例如图像像素级[60、62、22、3、17、61、15]、图像标签级[68]、涂鸦[64、31]、点注释[5]或web视频[20]。最近,基于对抗性学习的方法[2351]也被提出来解决这个问题。我们的框架是对其他形式的监督或对抗性培训的补充,可以与它们一起使用。

[60] Xiang Wang, Shaodi You, Xi Li, and Huimin Ma. Weaklysupervised semantic segmentation by iteratively mining common object features. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 2
[22] ZilongHuang,XinggangWang,JiasiWang,WenyuLiu,and Jingdong Wang. Weakly-supervised semantic segmentation network with deep seeded region growing. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 2
[3] Jiwoon Ahn and Suha Kwak. Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 2
[17] WeifengGe, SibeiYang, andYizhouYu. Multi-evidencefiltering and fusion for multi-label classification, object detection and semantic segmentation based on weakly supervised learning. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 2
[61] Yunchao Wei, Jiashi Feng, Xiaodan Liang, Ming-Ming Cheng,YaoZhao,andShuichengYan. Objectregionmining with adversarial erasing: A simple classification to semantic segmentation approach. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 2
[64] Jia Xu, Alexander G. Schwing, and Raquel Urtasun. Learning to segment under various forms of weak supervision. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015. 2
[31] Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He, and Jian Sun. Scribblesup: Scribble-supervisedconvolutionalnetworksfor semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2

Proposed Approach

3.1,我们给出了辅助模型,并在第二节中。3.2,我们展示了一种简单的方法来使用这个模型来训练主模型。在3.3节3.4节,我们提出了两种自校正模型。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第1张图片
图1:我们的分割框架由三个模型组成:
i)主分割模型生成给定图像的对象的语义分割。这是受培训的主要模型,在测试时使用。
ii)辅助分割模型输出给定图像和边界框的分割。该模型对弱集进行初始分割,有助于训练初始模型。
iii)自校正模块对辅助模型和当前弱集的主模型产生的分段进行细化。使用交叉熵损失训练主模型,该交叉熵损失将其输出与完全监督示例的正确标注分割标签或弱集的自校正模块生成的软精化标签相匹配。

3.1.辅助分割模型

带边界盒标注的分割模型的半监督训练的关键是推断出盒内物体的分割。解决这一问题的现有方法主要依赖手工编制的基于规则的过程,如GrabCut[47]或迭代标签优化[41、12、26]机制。后一个过程通常在从图像中提取分割和使用边界框信息(例如,通过将框外的遮罩归零)进行标签细化之间迭代。

[47] Carsten Rother, Vladimir Kolmogorov, and Andrew Blake. Grabcut: Interactive foreground extraction using iterated graph cuts. In ACM transactions on graphics (TOG). ACM, 2004. 2, 3
[41] George Papandreou, Liang-Chieh Chen, Kevin P. Murphy, and Alan L. Yuille. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation. In IEEE International Conference on Computer Vision (ICCV), 2015. 1, 2, 3, 4, 5, 6, 7
[12] Jifeng Dai, Kaiming He, and Jian Sun. Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. In IEEE International Conference on Computer Vision (ICCV), 2015. 1, 2, 3, 4, 7
[16] Mark Everingham, S. M. Ali Eslami, Luc J. Van Gool, Christopher K. I. Williams, John M. Winn, and Andrew Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision (IJCV), 2015. 6

这类程序的主要问题是:
i)边界框信息没有直接用于提取分割掩码
ii)由于是手工设计的,程序可能是次优的;
iii)当多个框重叠时,分割变得模糊。

在本文中,我们采用了不同的方法,设计了一个辅助的分割模型,在给定图像和边界框注释的情况下形成每像素的标签分布。该模型利用全监督集(F)易于训练,可作为W中图像的训练信号,在推理时,将图像及其边界盒都反馈到网络中,得到panc(y|x(w),b(w)),分割标签分布

我们在设计辅助模型时的关键观察是,基于编码器-解码器的分割网络通常依赖于从图像分类模型(例如,ImageNet预训练模型)初始化的编码器。这通常通过从大型图像分类数据集中转移知识来提高分割性能。为了保持同样的优势,我们使用一个并行包围盒编码器网络来扩充基于编码器-解码器的分割模型,该网络以不同的比例嵌入包围盒信息(见图2)。

边界框编码器的输入是表示边界框的二值化掩码的3D张量和表示编码器输出的目标尺寸的3D形状。将输入掩模张量调整到目标形状,然后通过一个带有sigmoid激活函数的3×3卷积层。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第2张图片
图2:辅助分割模型的概述。通过引入嵌入盒信息的包围盒编码器,改进了现有的编码器-解码器分割模型。边界框编码器通过sigmoid激活后的输出充当注意图。从编码器得到的不同尺度的特征图与注意图融合(使用元素相乘),然后传递给解码器。

激活:由此产生的张量可以被解释为注意图,该注意图按元素乘以由分割编码器生成的特征图。图2示出了在两个不同尺度下的这种特征映射的两个路径,如在DeepLabv3+架构中。对于每个尺度,生成一个注意图,使用元素乘法将其与相应的特征图融合,并馈送给解码器。对于大小为W×H×3的图像,我们使用大小为W×H×(C+1)的二值掩码表示其对象边界框,该二值掩码对C+1二值掩码进行编码。如果像素处的cth二进制掩码位于cth类的一个边界框内,则其值为1。如果背景遮罩中的像素未被任何边界框覆盖,则其值为1。

利用完整数据集F上的交叉熵损失训练辅助模型:
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第3张图片
它可以在阶乘分布假设下解析表示。这个模型是固定的,以便以后的实验

3.2. 无自我纠正

我们通过实验观察到,我们的辅助模型的性能优于没有盒子信息的分割模型。这主要是因为边界框信息引导辅助模型在推理时查找框内的对象。
训练主模型的最简单方法是训练它使用完全监督集F上的正确标注标签和弱集W上的辅助模型生成的标签进行预测。对于此“无自校正”模型,图1中的自校正模块仅复制辅助分割模型所做的预测。培训以优化为指导:
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第4张图片

其中第一项是以一个one-hot ground-truth标签为目标的交叉熵损失第二项是以panc生成的软概率标签为目标的交叉熵损失。注意,由θ参数化的辅助模型是固定的。我们称这种方法为无自校正模型,因为它直接依赖于辅助模型来训练W中的主要模型。(

3.3. 线性自校正

公式2依赖于辅助模型来预测弱集上的标签分布。然而,该模型仅使用F的实例进行训练,而不使用W中的数据。

Vahdat[56]引入了一个正则期望-最大化算法,使用线性组合的KL发散来推断一个分布在丢失的标签上的一般分类问题。**主要观点是,标签上的推断分布q(y|x,b)应接近辅助模型panc(y|x,b)和主模型p(y|x)生成的分布。**然而,由于主模型无法在训练早期准确预测分割掩码,因此使用正比例因子α对这两个项重新加权:

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第5张图片

由于panc(y|x,b)和p(y|x)都分解为y分量上概率的乘积,并且由于每个分量上的分布是分类的,所以也是因式的,其中通过对来自主模型和辅助模型的logits的线性组合应用softmax激活,计算每个组件上的分类分布参数。这里,σ(.)是softmax函数,是mth像素的主模型和辅助模型生成的logits。

在训练主模型的每次迭代中,在弱集上固定q(y|x(w),b(w))后,我们可以使用以下方法训练主模型:

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第6张图片

注意等式3中的α控制q与p(y|x)和panc(y|x,b)的接近度。当α=∞时q=panc(y|x,b),方程5中的线性自校正坍缩为方程2,而α=0则恢复q = p(y|x)。有限α保持q接近p(y|x)和panc(y|x,b)。训练开始时,panc(y|x,b)不能准确预测分割标签的分布。因此,我们为α定义了一个时间表,其中α在主模型的训练期间从一个大值减少到一个小值。

这种校正模型被称为线性自校正模型,因为它使用KL发散的线性组合(等式3)的解来推断潜在分割标签上的分布。由于在训练过程中优化了主模型的参数,α使自校正机制偏向于主模型。

3.4 卷积自校正

线性自校正的一个缺点是训练过程中需要超参数搜索来调整α调度。

我们提出了一种克服这一困难的方法,即用学习自校正机制的卷积网络来代替线性函数。因此,当训练主要模型时,网络会自动动态地调整机制。如果主模型准确地预测标签,则该网络可以将其预测移向主模型。

为此,我们在目标函数中引入了一个附加项,该项使用F中的训练示例训练子网,同时在整个数据集上训练主模型:

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第7张图片
其中第一项和第二项训练F和W上的主模型(在第二项中我们不通过q反向传播),而最后一项训练卷积自校正网络。

由于子网是随机初始化的,因此在训练过程中不能准确预测W上的分割标签。为了解决这一问题,我们建议采用以下预培训程序:

1.辅助模型的初始训练:与之前的自校正模型一样,我们需要训练辅助模型。这里,全监督集(F)的一半用于此目的。

2.转换自校正网络的初始训练:用全监督数据(F)训练主模型和卷积自校正网络。这是用等式6中的第一项和最后一项来完成的。

3.主要训练:利用全部数据(F和W)利用等式6中的目标函数对前一个模型进行微调。

在第一阶段使用一半F的基本原理是,如果我们使用所有F训练panc(y | x,b)模型,它将训练以几乎完美地预测该集合上的分割掩模,因此,卷积自校正网络的后续训练将只学习依赖panc(y | x,b)。为了克服这一训练问题,提出了F的后半部分来帮助自校正网络学习如何将panc(y | x,b)和p(y | x)结合起来。

Experiments

我们将对PASCAL VOC 2012和城市景观数据集上的模型进行评估。两个数据集都包含对象分段和边界框批注。我们将完整的数据集注释分成两部分来模拟完全和半监督的设置。与[9,41]类似,性能是使用可用类的平均交超并(mIOU)来度量的。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第8张图片

图3:卷积自校正模型学习细化输入标签分布。子网从主模型和辅助模型接收登录,然后连接并将输出馈送到两层CNN。>

Logit一词的分解,对它(it)Log(取对数),这里“it”就是Odds——概率

训练:我们使用DeepLabv3+[9]的public Tensorflow[1]实现作为主要模型。我们使用0.007的初始学习率,从ImageNet预训练的Exception-65模型[9]训练模型30000步。对于所有其他参数,我们使用其他作者建议的标准设置。在评估时,我们对图像应用翻转和多尺度处理,如[9]。我们使用4个GPU,每个GPU有一批4个图像。

我们在所有实验中定义了以下基线:

  1. 辅助模型( Ancillary Model):这是辅助模型,在3.1节中介绍,预测给定图像及其对象边界框的语义分割标签。由于该模型使用了边界框信息,因此其性能有望优于其他模型。

  2. 无自校正( NoSelf-correction):这是使用3.2节中介绍的模型训练的主要模型。

  3. 林.自校正( Lin. Self-correction):这是用线性自校正训练的主要模型,如3.3节所示。

  4. 转换自校正(Conv. Self-correction):用3.4节中的卷积自校正训练的原始模型。

  5. EM固定基线(EM-fixed Baseline):由于我们的线性自校正模型来自于正则化EM模型[56],我们将我们的模型与Papandreou等人进行了比较。[41]这也是一个基于EM的模型。我们使用DeepLabv3+实现了它们的EM固定基线,以便进行公平比较。这一基线在[41]的半监督学习中取得了最好的结果。

线性自校正,α控制KL散度偏差的权重,大α有利于辅助模型,小α有利于主模型。我们探索了α的不同起始值和结束值,两者之间呈指数衰减。我们发现,对于这两个数据集,起始值α=30和最终值α=0.5表现良好。该参数设置是稳健的,因为这些值的适度变化几乎没有影响。

4.1. 帕斯卡VOC数据集

在本节中,我们将评估PASCALVOC 2012细分基准上的所有模型[16]。该数据集由1464个训练、1449个验证和1456个测试图像组成,包括20个前景对象类和一个背景类用于分割。[18]提供了9118幅训练图像的辅助数据集。然而,我们怀疑[18]的分割标签包含少量噪声。在本节中,我们将原始PASCAL VOC训练集和辅助集的并集称为训练集。我们主要在验证集上评估模型,而使用在线评估服务器只在测试集上评估一次最佳模型。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第9张图片

在表1中,我们展示了我们模型的不同变体在不同大小的完全监督集F中的性能。训练集中的其余示例用作W。我们从表1中观察到:

i)即使在以下情况下,预测给定图像的分割标签及其对象边界框的辅助模型也表现良好它是用一个小到200个图像的训练集训练的。这说明该模型也能为缺乏分割标签的弱集提供良好的训练信号。

ii)线性自校正模型通常比无自校正模型表现更好,支持我们的观点,即结合用于推断分割标签的主模型和辅助模型可以更好地训练主模型

iii) 卷积自校正模型的性能相当于或优于线性自校正,同时消除了定义α调度的需要。图4示出了这些模型的输出。
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第10张图片表2:PASCAL VOC 2012验证和测试集的结果。最后三行报告具有相同注释的先前半监督模型的性能。

表2将我们的模型的性能与不同的基线和发布的结果进行了比较。在本实验中,我们使用1464幅图像作为F,使用9118幅来自辅助数据集的图像作为W,两种自校正模型都取得了相似的结果,并且优于其他模型

令人惊讶的是,我们的半监督模型优于完全监督模型。我们假设这一观察有两种可能的解释。首先,这可能是由于9k辅助套件[18]中的标签噪音对香草DeepLapv3+的性能产生负面影响。作为证据,图5将辅助模型的输出与地面真值注释进行比较,并且突出显示一些未正确标记的实例。其次,性能的提高也可能是由于标签不确定性的显式建模和自校正。为了验证这一假设,我们在最初的PASCAL VOC 2012训练集中仅对1.4K实例进行vanilla DeepLabv3+训练,并在验证集中获得68.8%的mAP。然而,如果我们在同一训练集上训练卷积自校正模型,并允许该模型使用自校正来细化地面真值标签,则得到的地图高达76.88%(包围盒顶部的卷积自校正得到75.97%的地图)。这表明,采用鲁棒损失函数和允许自校正的噪声模型可以显著提高分割模型的性能。这与自校正方法一致,自校正方法已被证明对边缘检测是有效的[66,2],并且与使用交叉熵和一个热注释掩模训练模型的常见分割目标相反。与我们的方法和推理非常相似,[67]使用logits来训练使用知识蒸馏技术的轻量级姿势估计模型。

不幸的是,最先进的模型仍然使用老版本的DeepLab。对于我们来说,要么使用DeepLabv3+重新实现这些方法中的大多数,要么使用旧版本重新实现我们的工作是不可行的。唯一的例外是EM固定基线[41]。我们使用DeepLabv3+的重新实现在验证集上达到79.25%,而最初的论文报告使用DeepLabv1的比例为64.6%。在表2的下半部分,我们记录了以前发布的结果(使用旧版本的DeepLab)。对结果的仔细检验表明,我们的工作优于以前的工作,因为我们的半监督模型优于完全监督模型,而以前的工作通常没有。

最后,比较表1和表2,我们发现,当F=200和W=10382时,我们的线性自校正模型的性能类似于使用整个数据集训练的DeepLabv3+。使用[5]中报告的标签成本,这在理论上转化为注释成本的7倍减少。

4.2.城市景观数据集

评估了城市景观数据集[11]的性能,该数据集包含从不同季节在城市中行驶的汽车收集的图像。此数据集具有高质量的注释,但是有些实例被过度/欠分段。它包括2975个训练、500个验证和1525个测试图像,覆盖19个前景对象类(东西和对象),用于分割。

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第11张图片
Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第12张图片

表3:我们的模型在城市景观验证集上的消融研究,使用不同大小F的mIOU。对于最后三行,训练集中的剩余图像用作W,即W+F=2975

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第13张图片

表4:城市景观验证集结果。30%的训练示例用作F,其余的用作WDRVBVREo=,size_16,color_FFFFFF,t_70)
图4:PASCAL VOC 2012验证集的定性结果。最后四列表示表1第1464列中的模型。Conv.自校正模型通常比其他模型更好地分割对象。

Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割_第14张图片
图5:PASCAL VOC 2012辅助设备(弱集)的定性结果。辅助模型的单个类的热图显示了几个示例。辅助模型可以成功地纠正这些图像中丢失或过分割对象的标签(用椭圆标记)——over-segmented

5.Conclusion

在本文中,我们提出了一个半监督的框架来训练深CNN分割模型,该框架使用一小组完全标记和一组弱标记图像(仅框注释)。我们引入了两种机制,使底层主模型能够更正辅助模型提供的弱标签。提出的自校正机制结合了主模型和辅助模型的预测,无论是使用线性函数还是可训练CNN。实验表明,我们提出的框架在PASCAL VOC 2012和Cityscapes数据集上都优于以前的半监督模型。我们的框架也可以应用于实例分割任务[21,74,72],但是我们将对此的进一步研究留给未来的工作。

[21] Ronghang Hu, Piotr Dollr, Kaiming He, Trevor Darrell, and Ross Girshick. Learning to segment every thing. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 8
[74] Yanzhao Zhou, Yi Zhu, Qixiang Ye, Qiang Qiu, and Jianbin Jiao. Weakly supervised instance segmentation using class peakresponse. InIEEEConferenceonComputerVisionand Pattern Recognition (CVPR), 2018. 8
[72] Xiangyun Zhao, Shuang Liang, and Yichen Wei. Pseudo mask augmented object detection. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 8

你可能感兴趣的:(Semi-Supervised Semantic Image Segmentation with Self-correcting Networks:基于自校正网络的半监督语义图像分割)