语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割

下载地址

FCNs in the wild: Pixel-level adversarial and constraint-based adaptation

  • 0.摘要
  • 1.概述
  • 2.相关工作
    • 2.1.语义分割
    • 2.2.领域自适应
  • 3.全卷积适应模型
    • 3.1.全局域对齐
    • 3.2.类特定的适应
  • 4.实验
    • 4.1.数据集
    • 4.2.定量和定性结果
      • 4.2.1.大转变:合成到真实适应
      • 4.2.2.中等成都迁移:跨季节适应
      • 4.2.3.小转移:跨城市适应
    • 4.3.BDDS适应
  • 5.结论
  • 6.参考文献

0.摘要

用于密集预测的全卷积模型已被证明适用于广泛的视觉任务。这样的模型在有监督的环境中表现良好,但在人类观察者看来温和的领域转移下,表现可能会出奇地差。例如,在一个城市进行训练并在不同的地理区域和/或天气条件下对另一个城市进行测试可能会由于像素级分布的变化而导致性能显着下降。在本文中,我们介绍了第一个域自适应语义分割方法,提出了一种无监督的对抗性方法来解决像素预测问题。我们的方法包括全局和特定类别的适应技术。全局域对齐是使用具有完全卷积域对抗性学习的新型语义分割网络执行的。这个最初适应的空间然后通过约束弱学习的泛化实现类别特定的适应,空间布局从源域到目标域的显式转移。我们的方法在多个大型数据集的不同设置上优于基线,包括适应各种真实的城市环境、不同的合成子域、从模拟环境到真实环境,以及新的大型行车记录仪数据集。

1.概述

语义分割是各种应用程序的关键视觉识别任务,从机器人导航和自动驾驶汽车等自主代理任务,到绘制和分类自然世界。因此,最近已经引入了大量的工作来解决使用像素级标注图像来训练卷积网络的监督语义分割问题。
虽然在同一数据源上训练和评估的分割模型的性能正在提高,但对这些模型在新的相关领域的适用性的研究还很有限。在考虑适应视觉域进行分类时,面临的许多挑战,如外观、光照和姿势的变化,也在考虑适应语义分割时出现。此外,在考虑本地化任务的识别时,一些新因素显得更加突出。在分类和分割中,类的流行程度可能在不同的领域之间有所不同,但是这种差异在语义分割应用程序中可能会被夸大,因为一个单独的对象类现在可能在一个单独的场景中出现多次。例如,自动驾驶应用的语义分割将聚焦于具有不同大小对象的户外街景,这些对象的分布可能因城市或行车路线而异;此外,外观统计数据在调整仅使用室内场景图像训练的人识别模型时可能会有相当大的差异。此外,像素级的注释收集起来既昂贵又繁琐,这使得学习在相关设置之间共享和传递信息变得特别有吸引力。
在本工作中,我们提出了第一种无监督域自适应方法,用于跨图像域传输语义分割模糊神经网络。我们的方法的第二个贡献是将全局和局部联合方法结合起来,使用全局和局部类别的适应技术,这些技术本身就是创新贡献。我们使用卷积域对抗训练技术,使用先前图像级别分类方法的一种新扩展,对源数据和目标数据的全局统计数据进行对齐。给定一个域对齐表示空间,我们引入了一个可推广的约束多实例丢失函数,该函数扩展了弱标签学习,但可以应用于目标域而不需要任何额外的注释,并显式地从带标签的源数据集传输类别布局信息。
我们使用多个大规模的数据集来评估我们的方法。我们首先利用最近发布的GTA5和SYNTHIA数据集的合成驱动器摄像头数据,以检查cityscape中从模拟图像到真实图像的巨大适应性转变。接下来,我们在SYNTHIA数据集中探索跨季节适应的领域转移。然后我们将重点放在现实世界中不同城市的适应性上。我们在cityscape数据集内对跨城市适应进行了详细的定量分析。
本文的最后贡献是介绍了一个新的无约束驱动凸轮数据集的语义分割,伯克利深度驱动分割(BDDS)。下面我们展示了从城市景观城市到BDDS中城市的初步定性适应结果。在所有这些研究中,我们证明了我们的自适应算法在没有任何目标标注的情况下提高了目标语义分割的性能。

2.相关工作

2.1.语义分割

语义分割是计算机视觉的一个关键任务,已经在大量的出版物中进行了研究。随着大规模图像分类的成功,目前大多数语义分割模型都使用了一些卷积网络结构,最近很多方法都使用全卷积网络将输入的RGB空间映射到语义像素空间。这些模型很有吸引力,因为它们具有直接的端到端功能,可以使用反向传播进行训练。原始的FCN公式后来使用扩展卷积和后处理技术(如马尔可夫/条件随机场)进行了改进。
由于收集像素级监督的高成本,相关的工作已经探索了使用弱标签(通常是定义每个类存在/不存在的图像级标签)来提高语义分割性能。Pathak等人[26]和Pinheiro等人[27]将这个问题建模为多实例学习(MIL),并在学习过程中加强自信预测。[24]提出了一种改进方法,利用EM算法更好地建模图像分割的全局属性。Pathak等人反过来推广了这项工作,他们提出了一种约束CNN,能够对标签空间(即存在/不存在,百分比覆盖)[25]上的任何线性约束进行建模。在最近的另一篇论文[15]中,Hong等人使用辅助切分将语义切分推广到只有弱标签信息的类别
从域自适应的角度来看,这些方法都假设在训练过程中源域和目标域都存在弱标签。在这项工作中,我们考虑了一个相关的,但不同的学习场景:在源领域中可以使用强监督,但在目标领域中不可以使用监督

2.2.领域自适应

计算机视觉中的领域适应主要集中在图像分类上,大量工作致力于在物体的库存照片和在世界上拍摄的相同物体之间的领域转移中进行泛化[30,17,8]。最近的工作包括[32,6,7],它们都学习了一种特征表示,这极大地混淆了两个领域。其他研究的目标是通过最小化特征在两个域的分布之间的距离来对齐特征[21,22]。Liu等人在生成式对抗网络[9]的基础上,提出了耦合生成式对抗网络来学习源数据集和目标数据集[18]图像的联合分布。
而对于其他重要的计算机视觉任务,如检测和分割,则关注较少。在检测方面,Hoffman等人提出了一个领域适应系统,通过明确地建模分类模型和检测模型之间的表示转移[11],以及后续的工作,包括使用多实例学习[12]的每个类别的适应。随后将检测模型转化为fns评估语义分割性能[13],但本工作没有提出任何特定的分割自适应方法。据我们所知,我们的方法是第一个引入领域自适应技术的语义分词模型。

3.全卷积适应模型

在本节中,我们描述了使用全卷积网络跨域语义分割的自适应算法,这些网络共享一个公共标签空间。在不失一般性的前提下,我们的方法可以应用于其他分割模型,但由于其广泛的影响,这里我们主要关注FCN。我们考虑使用图像IS和标签LS访问源域S。我们训练一个纯源的语义分割模型,该模型生成逐像素的类别分图φs(IS)。
我们的目标是学习一种语义分割模型,它适应于使用在无标记的目标领域,图像IT,但没有注释LT。我们将诸如网络的参数表示为φt(·)。如果源域和目标域之间没有域转移,那么可以简单地将源模型直接应用到目标,而不需要自适应方法。然而,源标记域和目标测试域的分布通常是不同的
因此,我们提出了一种无监督的适应方法。我们首先要指出,领域转移有两个主要的机会。首先,两个域之间可能会发生全局变化,导致对应特征空间的边缘分布发生偏移。这可能发生在任何两个不同的域之间,但在非常不同的域之间的大规模转移将是最明显的,例如在模拟域和真实域之间的适应。第二次主要转移是由于类别特定参数的变化。这可能是由于个别类别在这两个领域有特定的偏见。例如,当在两个不同的城市之间适应时,汽车的分布和标志的外观可能会改变。
我们提出了一个无监督的领域适应框架来适应语义分割模型,该框架直接解决了最小化全局偏移和特定类别偏移的需求。对于我们的模型,我们首先做出必要的假设,即源域和目标域共享相同的标签空间,并且源模型在目标域上获得的性能优于随机性能。然后,我们引入了两个新的语义分割损失目标,一个是最小化全局分布距离,该目标同时作用于源图像和目标图像,Lda(IS, IT);另一种是利用目标图像适应类别特定参数,并从源域PLS, Lmi(IT, PLS)传输标签统计信息。最后,为了保证我们不会偏离源解决方案太远,我们继续在源域Lseg ( Is, LS)上优化标准监督分割目标,而源解决方案已知对最终的语义分割任务是有效的。我们的自适应学习方法是优化以下联合目标:
L(IS , Ls , IT )=Lseg(Is,Ls)+Lda(Is,IT)+Lmi(IT,PLs)
我们在图2中说明了总体的适应框架。源域数据用于更新标准监督损失目标,使用源像素级注释进行训练。在全卷积领域对抗训练中,源数据和目标数据都不需要任何类别标注,以最小化两个领域之间的特征空间的全局距离。最后,使用受约束的像素级多实例学习目标对目标图像执行特定类别的更新,并使用源类别统计信息来确定约束。注意,我们的方法通常适用于任何基于fcn的语义分割框架。在我们的实验中,我们使用了最近提出的基于16层VGGNet[31]的前端扩展全卷积网络[33]作为我们的基础模型。有16个卷积层,其中最后三个卷积层由全连接层转换而来,称为fc6, fc7, fc8,然后是8倍双线性上采样层,以与输入图像相同的分辨率产生分割.
语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第1张图片

图2:我们的像素级对抗和基于约束的适应概述

3.1.全局域对齐

我们首先更详细地描述我们的全局领域对齐目标Lda(IS, IT)。回想一下,我们寻求最小化源数据和目标数据表示之间的域转移。 最近的一项研究表明,可以通过对抗性学习程序最小化域差异距离,同时训练域分类器以最好地区分源和目标分布,并根据逆目标更新表示空间 [32, 2, 7]。 迄今为止,已经为分类模型引入了这些方法,其中域中的每个单独实例都与图像完全对应。
在此,我们提出了一种新的领域对抗学习目标,该目标可用于像素化方法,以帮助学习语义分割模型的领域不变表示。要回答的第一个问题是,在密集预测框架中应该由什么组成实例。由于识别是在像素级进行的,全图像表示的对齐将会边缘化太多的分布信息,限制了对抗学习方法的对齐能力
相反,我们将最终表示层(例如fc7)中每个空间单元的自然接受域对应的区域视为单个实例。在此过程中,我们直接向对抗训练程序提供与最终像素预测相同的信息。因此,这提供了需要最小化的整体源和目标像素空间表示分布距离的更有意义的视图
设φl−1(θ, I )表示根据网络参数θ进行像素预测前最后一层的输出。 然后,我们的域对抗性损失 Lda(Is, IT ) 由交替的最小化目标组成。 一个关于表征空间θ的参数,在该参数下我们希望最小化观察到的源和目标距离,min d(φl−1(θ, IS ),φl−1(θ, IT),对于一个 给定距离函数d(·)。第二个关于通过训练域分类器来估计距离函数以区分源域和目标域的实例。我们将域分类器参数表示为θD,然后我们寻求学习域分类器来识别 源和目标区域之间的差异,并使用该分类器来指导源和目标表示的距离最小化。
令σ(·)表示softmax函数,令域分类器预测表示为pθD(x) = σ(φ(θD, x))。假设层l−1的输出有H×W空间单元,则可以定义域分类器损耗LD,如下所示

语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第2张图片
RShwl−1(θ, IS )hw and RThwl−1(θ, IT )hw分别表示各单元之源及目标表示。

为方便起见,我们也定义逆域损耗LDinv如下:
语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第3张图片
最后,有了这些定义,我们现在可以描述交替最小化过程了。
语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第4张图片
迭代优化这两个目标,学习最好的域分类器相关的图像区域(Eq(6)),然后使用该域分类器的损失通知训练图像的表示,以减少源和目标之间的距离域(Eq(7))。

3.2.类特定的适应

鉴于我们的表示通过全卷积对抗训练目标最小化了全局域分布距离,下一步是通过修改类别特定的网络参数来进一步调整我们的源模型。为了做到这一点,我们借鉴了最近的弱学习文献[25,26],其中引入了一个全卷积约束的多实例学习目标。这项工作使用大小和存在约束产生一个预测的目标标记,用于进一步的训练。我们提出了这种领域适应方法的新应用,并将该技术推广到我们的无标记设置中。
首先,我们考虑新的约束对我们的像素无监督自适应问题是有用的。特别地,我们开始计算每个图像在源域的标记统计数据,PLS。具体来说,对于每个包含类别 c的源图像,我们计算具有与该类对应的ground truth标签的图像像素的百分比。然后,我们可以计算出这些百分比的直方图,并将下面10%的边界表示为αc,平均值表示为δc,而上面10%的边界表示为γc然后,我们可以使用这种分布来告知我们的目标域大小约束,从而明确地将场景布局信息从源域传输到目标域。例如,在驾驶场景中,道路通常占据图像的很大一部分,而街道标识则占据相对较少的图像空间。这些信息对于受限的多实例学习过程是至关重要的。相比之下,之前的工作使用了图像中已知的类的单一大小阈值。
我们首先针对已知图像级标签的情况展示我们的受限多实例损失。 因此,对于存在某个类别 c 的给定目标图像,我们对输出预测图施加以下约束,p = argmax φ(θ, IT)。
在这里插入图片描述
因此,我们的约束鼓励将像素分配给 c 类,使得标有 c 类的图像的百分比在源域中观察到的预期范围内。 实际上,我们使用下限松弛优化此目标,以允许 c 仅占用比源域中的平均值更少的图像的异常情况。 然而,我们不允许在上限约束上松弛,因为重要的是没有单个类占据任何给定图像的太多。 请注意,我们更新的约束是通用的,可以等效地应用于所有类,无论它们对应于传统的对象概念(例如自行车或人)还是物体概念(例如天空或植被)。
有了这个约束条件,我们现在可以优化一个新的类预测空间来用于未来的学习。有关具体的优化细节,请参阅Pathak等人的[25]。我们提供了一个重要的修改。当我们寻求对对象和物品类别进行优化时,我们注意到每个类别的相对像素数量可能会显著不同,这可能会导致模型发散,过度拟合那些在图像中高度代表的类别。相反,我们使用一个简单的大小约束,即如果源类分布的下面10%的边界αc大于0.1,那么我们将这些类的梯度加权为0.1倍。这种重新加权的方法可以看作是对类别的重新抽样,以便更接近一个平衡的集合,让相对较小的类别有潜力告知学习目标。
虽然上面描述的方法描述了一个广义的多实例约束目标,但它依赖于已知的图像级标签。由于我们在无监督自适应设置中缺乏此类信息,我们现在描述预测图像级标签的过程。因此,我们的完整方法可以描述为,首先预测图像级标签,然后优化像素预测,以满足源转移类大小约束
与弱监督设置相比,我们不会使用已知的图像级注释从头学习分割模型。相反,我们可以访问完全监督的源数据集,并使用域转移约束来促进向非监督目标域的转移。因此,我们有一个更强的初始模型,完全监督使用来自源域的像素级注释,并且能够通过训练目标域上的弱标签损失来正则化学习过程。同样,给定一个目标图像,IT,我们计算当前输出类预测映射,p = argmaxφ(θ, IT)。为每个类计算像素的比例分配给这个类在我们当前的预测,dc = 1 H·W P H∈H P W W∈(物理加工= c)。
最后,我们指定一个映像级别标签类c如果dc> 0.1∗αc,这意味着如果我们目前标记的像素数量至少与图像中出现的真实类别的预期数量的 10% 一样多。(没看懂)

4.实验

在本节中,我们报告了在三个不同的领域适应任务上的实验结果:城市→城市、季节→季节和合成→真实,研究了四种不同的数据集。我们分析了我们的总体适应方法以及子组件,以验证我们的全球和特定类别的对齐都提供了有意义的贡献
对于所有的实验,我们都使用前端空洞卷积的全卷积网络[33]作为我们方法的初始化和比较的基线模型。所有的代码和模型都是在Caffe[16]框架中进行训练和评估的,并将在摄像机就绪之前提供
为了进行公平的比较,我们对所有的实验使用交叉于联合(IoU)的评价指标。对于城市→城市和合成→真实任务,我们遵循[3]的评价协议,用19个Cityscapes语义标签训练我们的模型。对于季节→季节任务,我们使用13个SYNTHIA的语义标签代替。

4.1.数据集

Cityscapes:包含34个类别的高分辨率,2048 × 1024。整个数据集被分为3部分:2975个训练样本,500个验证样本和1 525个测试样本。这个数据集的分割是城市层面的,它涵盖了不同地理和人口分布的单个欧洲城市。
SYNTHIA:包含13个类,包含不同的场景和子条件。对于季→季任务,我们将synthia - video - sequence作为游戏场地。有7个序列,涵盖不同的场景(高速公路,环岛,山路,纽约市,老欧洲镇),几个子序列,如季节(春,夏,秋,冬),天气(雨,软火车,雾),照明(日落,黎明,夜晚)。这些帧被8个RGB相机捕获形成一个双目360◦视场。为了最小化视点的影响,我们一直只拾取像行车记录仪一样的帧。对于合成→真实任务,我们采用synthiarand - cityscape作为源域数据,从所有序列中提供9000张随机图像,并添加与cityscape兼容的注释。
GTA5:包含24,966个高质量标签帧,来自真实的开放世界电脑游戏,侠盗猎车手V (GTA5)。每一帧的高分辨率为1914 × 1052,都是由位于南加州的洛杉矶的虚构城市洛斯桑托斯生成的。我们将整个数据集贴上与城市景观类别兼容的标签,以适应合成→真实的适应。
BDDS:包含数千密集注释的行车记录仪视频帧和数十万未标记的帧。每个样本具有1280 × 720高分辨率,提供34类兼容城市景观标签空间。大部分数据来自纽约和旧金山,这是东西海岸的代表。与现有的其他驾驶数据集不同的是,该数据集涵盖了不同条件下的不同驾驶场景,如城市夜间街景、雨中高速公路场景等,提供了具有挑战性的域适应设置。

4.2.定量和定性结果

我们广泛地研究了三种类型的迁移。首先,我们研究了从模拟图像到真实图像的巨大分布变化。接下来,我们通过在SYNTHIA数据集中观察到的跨季节模式的适应来研究中等规模的转变。最后,我们探索了相对较小的领域转移情况,在cityscape数据集中探索了不同城市之间的适应。

4.2.1.大转变:合成到真实适应

我们开始评估我们的方法通过研究模拟驾驶数据和真实世界的drive-cam数据适应之间的的大领域转移。表1显示了GTA5到cityscape以及SYNTHIA到cityscape之间转换的语义分割性能。这说明,即使有这么大的域差异,我们的无监督自适应解决方案也能够改善源膨胀模型的性能。注意,对于这个更大的转移设置,如《GTA5→城市场景》,领域对抗训练贡献了4.4%的原始和~ 20%的相对百分比mIoU提高,多实例丢失贡献了1.6%的原始和~ 6%的相对百分比mIoU提高。至于SYNTHIA→城市景观,我们的方法也提供了一个可衡量的改进。语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第5张图片

从合成到真实的适应。我们研究的性能使用GTA5和SYNTHIA作为源标签的训练数据调整和城市火车作为一个标记目标领域,而评估我们的cityscape适应算法。与此同时,我们表现出的消融组件方法以及每个有助于我们方法的整体性能。其中GA表示全局域对齐,CA表示特定类别的适应。

4.2.2.中等成都迁移:跨季节适应

作为我们的下一个实验,我们试图分析跨季节模式的适应性。为此,我们使用SYNTHIA数据集,该数据集具有与季节注释一起可用的合成图像。我们首先为每个季节标签生产一个域名:夏天,秋天和冬天。然后,我们对6个偏移的每一个进行适应性调整,并将我们的方法的性能与表2中的源膨胀模型进行比较。平均而言,季节→季节适应的mIoU提高了约3个百分点,并发现在12/13个对象类别中,我们的适应方法提供了更高的mIoU。有一类我们在适应后没有看到任何改进,那就是汽车类。我们假设,这一结果的事实,汽车有很少或没有外观差异的季节在这个合成数据集。例如,考虑图3中所示的秋季到冬季转变的定性结果。道路和人行道被渲染成白色,以模拟冬天的雪,而汽车的外观被渲染成与秋天相同。事实上,从我们的方法中,我们看到了一些最大的性能改进,比如从秋季到冬季的道路,我们的方法能够克服这种巨大的外观变化。
语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第6张图片

表2:适应跨季节。我们使用SYNTHIA数据集的子序列来研究跨季表现。我们报告了一个季节训练适应前后的量化比较,并对另一个未标注的新赛季进行了评估。(平均:从一个人到另一个人适应的平均表现。)

语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第7张图片

图3:图从合成SYNTHIA秋季到冬季城市适应的定性结果。

4.2.3.小转移:跨城市适应

对于我们的第三个定量实验,我们将在城市景观数据集内研究跨城市适应。在表3中,我们报告了在cityscape序列中有标签的城市与两个cityscape val中没有标签的城市之间适应任务的性能。第一行显示了前沿扩张模型[33]的性能。在通过领域对抗训练进行全局对齐之后(表示为我们的方法(GA only)),以及在与受约束的多实例丢失进行类别特定对齐之后(表示为我们的方法(GA+CA)),我们报告性能。我们注意到,在这个自适应实验中,我们方法的大部分改进是由于领域对抗训练的结果(3.6%的mIoU),而类别特定对齐后,**仅对交通灯、车手和火车类别有显著的改进。**一个原因可能是train和val之间的域转移主要是由于城市的差异导致的全局外观的变化,而特定的类别外观可能不会有显著的变化。由于在数据集适应性方面的性能已经相当高,主要的改进来自于产生更一致的对象分割。语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第8张图片

表3:跨城市适应。研究了以cityscape训练城市为自适应源标记训练数据的自适应性能,并对以cityscape为无标记目标域的自适应算法进行了评价。同时,我们展示了我们方法的组件的消融,以及每个组件如何对我们方法的整体性能做出贡献。这里GA表示3.1节中的全局域对齐,CA表示3.2节中的特定类别适配。

4.3.BDDS适应

最后,利用新的大规模驱动图像数据集BDDS对另一个真实世界城市→城市适应性进行了分析。为了理解这个困难并更广泛地评估我们的方法,我们创建了一个新的基于仪表盘摄像机视频的图像数据集。虽然cityscape涵盖了德国及周边国家的多个城市,但我们观察到其他地方的城市有不同的视觉外观和街道布局。他们可能会对从cityscape中学到的模型提出严峻的挑战。到目前为止,我们已经收集了超过10万张图片,涵盖了不同时间和地点的户外场景。根据目前的标注进度,在2017年CVPR之前,将有5000 ~ 10000张图像进行精细分割标注。我们的目标是最终获得1万~ 2万张精细分割的街景图像
我们从BDDS中拍摄了旧金山地区的6万张图像,并研究我们如何将在城市景观中学习到的模型应用到旧金山。由于我们的方法在目标域中不需要标签,所以我们可以在自适应训练中使用所有的新图像。一些结果如图4所示。从这些定性的结果来看,我们发现在BDDS中直接使用在城市景观上训练的模型时,分割质量有明显的下降。它通常表现为有噪声的分割或错误的上下文。经过调整后,分割结果通常会变得更加清晰。我们希望在注释准备就绪时进行广泛的定量评估。语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割_第9张图片

图4:城市景观中的城市适应BDDS中的城市的定性结果。

5.结论

本文提出了一种基于全卷积网络的无监督领域自适应框架用于语义分割。我们提出了具有域对抗训练的全卷积网络,用于全局域对齐,同时利用类感知的约束多实例丢失来传递空间布局。实验证明了该方法在不同城市、季节和合成到真实的区域变换上的有效性,并给出了一种新的大规模真实城市驾驶图像数据集。虽然图像分类的任务在开发领域自适应方法上花费了大量的精力,但我们的实验也证明了自适应在像素级密集预测中的重要性。我们的方法是朝着这个方向迈出的第一步。

6.参考文献

1] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015. 1, 2
2] W. Chen, H. Wang, Y. Li, H. Su, D. Lischinsk, D. CohenOr, B. Chen, et al. Synthesizing training images for boosting human 3d pose estimation. In 3DV, 2016. 3
3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 2, 5
4] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016. 1
5] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. TPAMI, 2013. 2
6] Y. Ganin and V. Lempitsky. Unsupervised domain adaptation by backpropagation. In ICML, 2015. 2
7] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky. Domainadversarial training of neural networks. JMLR, 2016. 2, 3
8] B. Gong, Y. Shi, F. Sha, and K. Grauman. Geodesicflow kernel for unsupervised domain adaptation. In CVPR, 2012. 2
9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, 2014. 2
10] B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV, 2014. 2
11] J. Hoffman, S. Guadarrama, E. S. Tzeng, R. Hu, J. Donahue, R. Girshick, T. Darrell, and K. Saenko. Lsda: Large scale detection through adaptation. In NIPS, 2014. 2
12] J. Hoffman, D. Pathak, T. Darrell, and K. Saenko. Detector discovery in the wild: Joint multiple instance and representation learning. In CVPR, 2015. 2
13] J. Hoffman, D. Pathak, E. Tzeng, J. Long, S. Guadarrama, T. Darrell, and K. Saenko. Large scale visual recognition through adaptation using joint representation and multiple instance learning. JMLR, 2016. 2
14] S. Hong, H. Noh, and B. Han. Decoupled deep neural network for semi-supervised semantic segmentation. In NIPS, 2015. 2
15] S. Hong, J. Oh, B. Han, and H. Lee. Learning transferrable knowledge for semantic segmentation with deep convolutional neural network. In CVPR, 2016. 2
16] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the 22nd ACM international conference on Multimedia, 2014. 5
17] B. Kulis, K. Saenko, and T. Darrell. What you saw is not what you get: Domain adaptation using asymmetric kernel transforms. In CVPR, 2011. 2
18] M.-Y. Liu and O. Tuzel. Coupled generative adversarial networks. In NIPS, 2016. 2
19] Z. Liu, X. Li, P. Luo, C.-C. Loy, and X. Tang. Semantic image segmentation via deep parsing network. In ICCV, 2015. 1, 2
20] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2
21] M. Long, Y. Cao, J. Wang, and M. Jordan. Learning transferable features with deep adaptation networks. In ICML, 2015. 2
22] M. Long, J. Wang, and M. I. Jordan. Unsupervised domain adaptation with residual transfer networks. In NIPS, 2016. 2
23] H. Noh, S. Hong, and B. Han. Learning deconvolution network for semantic segmentation. In ICCV, 2015. 1
24] G. Papandreou, L.-C. Chen, K. P. Murphy, and A. L. Yuille. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation. In ICCV, 2015. 2
25] D. Pathak, P. Krahenbuhl, and T. Darrell. Constrained convolutional neural networks for weakly supervised segmentation. In ICCV, 2015. 2, 4, 5
26] D. Pathak, E. Shelhamer, J. Long, and T. Darrell. Fully convolutional multi-class multiple instance learning. In ICLR Workshop, 2015. 2, 4
27] P. O. Pinheiro and R. Collobert. From image-level to pixellevel labeling with convolutional networks. In CVPR, 2015. 2
28] S. R. Richter, V. Vineet, S. Roth, and V. Koltun. Playing for data: Ground truth from computer games. In ECCV, 2016. 2
29] G. Ros, L. Sellart, J. Materzynska, D. Vazquez, and A. M. Lopez. The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In CVPR, 2016. 2
30] K. Saenko, B. Kulis, M. Fritz, and T. Darrell. Adapting visual category models to new domains. In ECCV, 2010. 2
31] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 3
32] E. Tzeng, J. Hoffman, T. Darrell, and K. Saenko. Simultaneous deep transfer across domains and tasks. In ICCV, 2015. 2, 3
33] F. Yu and V. Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016. 1, 2, 3, 5, 6, 8
34] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr. Conditional randomfields as recurrent neural networks. In ICCV, 2015. 1, 2

你可能感兴趣的:(语义分割,无监督领域自适应,深度学习,计算机视觉,神经网络,迁移学习,生成对抗网络)