语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

  • 0.摘要
  • 1.介绍
    • 1.1.语义分割
    • 1.2.领域自适应:Domain Adaptation (DA)
    • 1.3.无监督领域自适应: Unsupervised Domain Adaptation (UDA)
    • 1.4.应用动机
    • 1.5.大纲
  • 2.语义分割的无监督域自适应算法
    • 2.1.问题表述
    • 2.2.语义分割中的无监督自适应:自适应空间
      • 2.2.1.在输入级别上进行调整
      • 2.2.2.在特征级别上进行调整
      • 2.2.3.在输出级别上进行调整
      • 2.2.4.在自组织网络(Ad-Hoc Network )级别上进行调整
  • 3.无监督领域适应策略综述
    • 3.1.弱监督和半监督学习方法
    • 3.2.域对抗鉴别
      • 3.2.1.对抗性学习
      • 3.2.2.特征对抗性调整
      • 3.2.3.输出对抗性适应
    • 3.3.基于生成的方法
    • 3.4.分类器差异
    • 3.5.自训练
    • 3.6.熵极小化
    • 3.7.课程式学习
    • 3.8.多任务
    • 3.9.新的研究方向

论文下载

0.摘要

本文的目的是对语义分割的深层网络的无监督域自适应(UDA)的最新进展进行综述。这项任务吸引了广泛的兴趣,因为语义分割模型需要大量的标记数据,而缺乏数据拟合的特定需求是这些技术部署的主要限制。这一问题最近得到了探讨,并随着大量临时方法的出现而迅速发展。这促使我们对提议的方法进行全面概述,并提供清晰的分类。在本文中,我们首先介绍这个问题,它的公式和可以考虑的各种场景。然后,我们介绍了适应策略可能应用的不同层次:即输入(图像)层次、内部特征表示和输出层次。此外,我们还对该领域的文献进行了详细概述,根据以下(非相互排斥的)类别划分了先前的方法:对抗式学习、生成式学习、分类器差异分析、自学、熵最小化、课程学习和多任务学习。还简要介绍了新的研究方向,以提示该领域有趣的开放性问题。最后,比较了各种方法在广泛使用的自动驾驶场景中的性能。

1.介绍

在过去几年中,深度学习技术已经显示出令人印象深刻的效果,并在许多可视化应用中取得了巨大成功。然而,它们通常需要大量与所考虑的场景匹配的标记数据才能获得可靠的性能。为每个新任务和域收集和注释大型数据集非常昂贵、耗时且容易出错。此外,在许多情况下,由于各种原因,可能无法获得足够的训练数据,但通常情况下,大量数据可用于其他领域和任务,这些领域和任务在某种程度上与所考虑的领域和任务相关。因此,使用在不同任务的相关样本上训练的模型的能力将极大地有利于缺少数据的实际应用。这些考虑对于语义分割尤其重要,因为学习体系结构需要大量手动标记的数据,因为需要每像素标记,所以获取这些数据的成本非常高。

1.1.语义分割

语义分割是自动视觉理解中最具挑战性的任务之一,与图像分类或目标检测等简单问题相比,语义分割可以加深对图像内容的理解。图1概述了最常见的视觉任务。在图像分类中,为整个图像指定一个标签,并表示场景中的前主导对象。在对象定位中,通过边界框标识对象,并为每个框指定标签。在图像分割中,场景被聚集到与各种对象和结构相对应的区域中,但这些区域没有标记。相反,语义分割的任务是为图像中的每个像素指定与其语义内容相对应的标签。由于这个原因,它通常被称为密集标记任务,与其他简单问题相反,在这些问题中,作为输出的标签较少。语义分割是一个非常广泛的研究领域,人们提出了大量的方法来解决它。特别是,深度学习体系结构最近得到了实质性的改进。
从历史上看,语义分割的起源在于丰富了对场景的表示和理解,而不是简单的图像分类任务:出现了新的问题,需要对场景进行更高层次的解释,并有可能完成这一任务,由于新的架构和范例(例如,深度学习),为语义图像分割的广泛成功铺平了道路。
虽然图像分类允许在宏观层次上对图像中包含的内容进行分类(即,为每个图像指定一个标签),但语义图像分割生成图像中每个对象的像素级掩码(即,为每个图像的每个像素指定一个标签)。前者是一项简单得多的任务,长期以来,它一直被传统技术(如SVM、LDA等)和最近的深度学习技术所解决。因此,一些语义切分的早期工作是在分类工作的基础上建立起来的,并对其进行了调整和扩展。最新的最先进的方法依赖于由编码器和解码器组成的自动编码器结构,以便在保留输入空间维度的同时提取全局语义线索。
从众所周知的全卷积网络(FCN)体系结构开始,提出了许多模型,如PSPNet、DRN[和各种版本的DeepLab体系结构。这些模型可以实现令人印象深刻的性能,但这与培训所需的大量标记数据的可用性密切相关。出于这个原因,尽管像素注释过程非常昂贵和耗时,但已经创建了许多数据集:例如用于常见环境中的视觉对象的Cityscapes 和Mapillary,用于具有深度信息的室内场景的NYUD-v2和SUN-RGBD。鉴于这些考虑,最近的许多工作试图利用从其他来源或领域提取的知识,这些来源或领域的标签丰富且易于访问,以减少所需的手动注释数据量。

1.2.领域自适应:Domain Adaptation (DA)

大多数机器学习模型,包括神经网络(NNs),通常假设训练和测试样本是根据相同的分布绘制的。然而,在许多实际问题中,训练和测试数据分布不同。在本次调查中,我们关注的是一个模型在一个或多个域(称为源域)中训练,然后应用于另一个不同但相关的域(称为目标域)。这种学习任务称为领域适应(DA),是机器学习中的一个基本问题。如今,它得到了科学界的广泛关注,并在许多实际应用中代表了一个长期存在的问题,如计算机视觉、自然语言处理、情感分析、电子邮件过滤等。
域自适应可以被视为
转移学习
(Transfer learning, TL)的一种特殊情况,它利用一个或多个相关源域中的标记数据来执行目标域中的新任务。DA方法的目的是解决分布变化或领域转移,这通常会大大降低模型的性能。在过去的几十年中,人们提出了各种DA方法来解决传统机器学习策略和最近的深度学习体系结构的源域和目标域之间的转换。源域和目标域的本质对DA算法的最终性能有很大影响。事实上,人们认为它们之间存在某种联系,但并不完全相同。它们之间的相关性越大,DA任务就越容易,从而能够在测试数据上获得较高的结果。因此,良好执行策略的一个关键要素是能够发现合适的源数据,从中提取有用的线索

1.3.无监督领域自适应: Unsupervised Domain Adaptation (UDA)

域适配任务可以仅使用来自源域的数据或同时使用来自目标域的一些样本来执行。可以采用的最简单的解决方案是只对来自源域的标记样本进行训练,而不使用来自目标域的数据,希望不需要自适应(仅源)。在实践中,这会导致较差的性能,即使只有很小的视觉域偏移。为了解决这个问题,UDA方法利用来自源域的标记样本和来自目标域的未标记样本(源到目标UDA)。
特别是在需要逐像素标记的语义分割任务中,样本标注是要求最高的任务,而数据采集则更简单、更便宜。出于这个原因,在本次调查中,我们将介绍以无监督域适配(UDA)为名的场景。事实上,这在我们的特定设置中是最有趣的,因为没有对目标域的直接监督(即,不需要目标域的标签)。在这种情况下,典型的假设是源域和目标域是不同的,但在某种程度上是相关的(例如,源可以是合成生成的数据,类似于目标域中的真实世界表示)。通常,**源域上的初始有监督训练通过各种无监督学习策略适应目标域,目的是在目标域(没有可用的标签)上实现良好的性能。**在标准设置中,目标类的集合是相同的,但是可以考虑目标标签更改的高级设置(参见第2.1节)。

1.4.应用动机

有大量的应用程序可能会从UDA中受益匪浅。一般来说,每个应用程序都将重点放在一个非常特殊的设置上,使用特定的相机和特定的环境拍摄图像,以解决一个前缀任务。第一个也是最简单的解决方案是为特定问题获取尽可能多的标记数据,但是,正如前面提到的,不幸的是,这非常耗时和昂贵,因此在许多实际环境中不可行。另一方面,**大型和公开可用的标记数据集通常包含通用数据,它们在特定应用程序中的直接使用不会在相关特定应用程序域中提供良好的性能。**第二种解决方案是转移在更广泛的场景中获得的源知识,并使其适应所针对的特定设置。例如,这种情况在工业应用中相当普遍。人脸识别是一个很有挑战性的应用,多年来一直在积极研究。当在受控条件下获取训练和测试图像时,当前的人脸识别模型表现得非常好。然而,当测试图像包含训练图像中不存在的变化时,其准确性会迅速下降。
例如,这些变化可能是姿势、照明或视点的变化,并且取决于训练集和测试集的组成,这可以被视为领域适应问题。另一个简单的应用是对象识别,其中人们可能有兴趣将对象检测能力从通常较大的集合调整到特定的小数据集。此外,计算机图形学领域的最新进展允许为许多与视觉相关的任务生成大量合成数据。这允许轻松获得大型训练集,但另一方面,需要解决合成数据和真实数据之间的领域转移问题。在该领域中,最主要的应用是在自动驾驶车辆场景中,这将在第4节中进一步讨论。

1.5.大纲

本文主要分析和讨论语义分割中的深层次UDA方法。最近,有大量的研究与这项任务有关。然而,这些方法背后的激励思想是不同的。连接现有工程,从而更好地理解这个问题,我们将当前的文献分为几个类别。我们希望为UDA在语义分割方面的研究提供一个有用的资源。
综述的其余部分组织如下:

  • 在第2A节中,给出了用于语义切分的UDA的简明而精确的公式,概述了适应过程可能发生的各个阶段。
  • 在第3节中,我们概述了关于这一主题的艺术文献的现状。我们从监管较弱的前兆技术开始,然后根据用于对齐源分布和目标分布的技术,提出了一种分类方法。
  • 在第4节中,我们介绍了一个用于道路场景语义理解的从合成到真实的无监督自适应的案例研究,并概述了按网络体系结构和评估场景分组的现有方法的结果。
  • 在第5节中,我们总结了对不同适应技术的一些最终考虑,并概述了一些可能的未来方向。

2.语义分割的无监督域自适应算法

2.1.问题表述

图像分类和图像分割都可以归结为寻找函数h的问题:X→ Y,从输入图像的域空间X到标签空间Y,分别包含分类标签或语义映射。从数学角度来看,可以假设所有真实世界的标记图像(x,y)∈ X×Y是从X×Y上的潜在、固定和未知概率分布中提取的。函数的搜索应限于预定义的函数空间,称为假设类,根据问题的先验知识进行选择。在有监督的环境中,样本数据集被使用,以找到最佳映射h∈ H(即,使训练集上的成本函数最小化的解决方案)。另一方面,在DA中,考虑了X×Y上两种不同且相关的分布,即源分布Ds和目标分布DT。源域训练集从Ds数据中采样,目标域训练集从DT数据中采样或从其在X上的边缘分布中采样。DA的主要目的是使用来自源域的标记的数据样本或未标记的样本,或两者的混合物,找到在目标域的样本上表现良好的最佳映射h

  • 目标域中的标签可用于所有样本,则被称作监督DA任务;
  • 标签仅适用于部分样品,则为半监督;
  • 目标样本完全未标记(即,它们是从X的边际分布DT中提取的),则它是无监督的。

领域适应可以根据源(CS)和目标(CT)领域的类别(即类别或标签)以及学习过程中考虑的类别(CL)进一步细分:

  • 闭集DA:所有可能的类别都出现在源域和目标域中(CS=CT);
  • 部分DA:所有类别都显示在源域中,但只有一个子集显示在目标域(CT∈CS
  • 开放集DA:某些类别显示在源域中,而所有类别显示在目标域(CS∈CT);
  • 开放部分DA:某些类别仅属于源集合或目标集合,而其他类别则属于这两个集合(CS≠CT & CS∩CT≠∅);
  • 无边界DA:一种开集DA,其中所有目标域类别分别学习(CS∈CT & CL=CS∪CT

值得注意的是,在开集DA中,通常情况下,不属于源域的目标集类别通过模型作为一个未知额外类进行学习,而在无边界DA中,它们是单独学习的。上述分类的概述如图3所示。
语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述_第1张图片

图3

2.2.语义分割中的无监督自适应:自适应空间

如前所述,源数据集和目标数据集之间存在协变量转移现象,这使得网络无法在无监督的目标数据上产生令人满意的结果。因此,解决域适应问题的主要策略是**弥合源分布和目标分布之间存在的差距。**这样做,影响预测模型的性能下降应该减少,从而在成功消除原始形式的统计差异时进行有效预测。在下文中,将对可能进行适应的不同级别进行回顾,这对于第3节中的论文分类也很有用。图4显示了可能的适应水平的视觉表示。

2.2.1.在输入级别上进行调整

一种方法是在输入级处理统计匹配,以实现输入图像样本视觉外观的跨域一致性。即使源图像和目标图像在场景内容和布局上具有很强的高层语义相似性,域间的低层统计差异尽管大多缺乏语义意义,但也可能导致对目标样本的预测效果降低。鉴于这些考虑,大量的作品集中于风格转换技术,以从原始图像水平集关闭源图像和目标图像的边缘分布。常用的方法是发现一个函数,该函数将源图像映射到一个新的空间,在该空间中,投影的样本应与目标样本具有增强的感知相似性。然后,图像分割网络可以在训练过程中从域不变的输入空间访问样本。最近,另一方面的翻译也得到了探索,即目标图像在被送入分割网络之前先传输到源域。
尽管该策略原则上完全独立于任务(通常在与任务预测器训练无关的阶段执行),但在其普通方案中使用该策略时,在没有任何额外正则化约束的情况下,缺少足够的辨别能力。事实上,边缘分布的对齐可以完全实现,但语义上的一致性可能无法保持,**类条件分布(在无监督目标域的训练时不可访问)在域之间仍然不同。**换句话说,人们可能会发现许多领域不变的表示,它们都缺乏语义区分性,无法解决目标领域中的分割任务。例如,当某个类的对象映射到不同的类别时,可能会发生这种情况,这些类别可能完全符合统计对齐约束,而实际上忽略了内容保留。为了绕过这些问题,已经设计了多种方法来加强图像翻译的语义一致性,例如借助图像重建约束、分割预测的一致性或特殊工程技术来安全地处理低级统计数据。

2.2.2.在特征级别上进行调整

另一种方法是寻求网络潜在嵌入的分布对齐。其核心思想是通过调整源域和目标域的潜在表示的分布(全局和类),强制特征提取器发现域不变特征。通过这种方式,网络分类器应该能够学习从公共潜在空间中分割源和目标表示,仅依靠源数据的监督。与已经成功应用特征域自适应的分类任务相比,语义分割需要一个更复杂、高维的特征空间,它应该编码局部和全局视觉线索。因此,在特征层面以最简单的方式进行对齐可能在语义分割中效果较差,因为特征嵌入具有结构和语义的复杂性,很难完全捕获和处理(例如,通过对抗性鉴别器)。此外,尽管自适应特征原则上应保持语义区分性,但它们实际上对应于分割过程中的中间表示,并且不能保证联合图像标签分布在域之间对齐,由于未标记的目标图像仅从边缘分布中提取。这会导致对无监督目标表示的错误知识概括。基于上述原因,在语义分割中采用了特征自适应技术,并结合其他补充技术或具体安排来仔细克服这些主要问题。

2.2.3.在输出级别上进行调整

为了避免处理过度卷积的潜在空间,一组不同的自适应方法求助于在语义分割的输出空间跨域分布对齐。在保留足够复杂和丰富的语义线索的同时,来自分割网络输出(或最后一层的每类输出)的预测图确定了一个低维空间,在该空间中,**可以非常有效地执行自适应,例如重复使用对抗策略。**此外,在未标记的目标数据上可以很容易地推断分割图上的标签统计信息,从而为分割任务引入了一种自建的弱监督形式。来自标签分布的源先验信息也可以在适应过程中有利地施加,因为它们通常涉及与特定域无关的高级结构属性。

2.2.4.在自组织网络(Ad-Hoc Network )级别上进行调整

除了上述技术外,其他作品在网络激活时,还采用了在自组织空间上的分布对齐。此类方法旨在更好地捕获解决分割任务所必需的高级模式,并最终实现源嵌入和目标嵌入的更好匹配,这得益于在不同层次上通过分割网络回流的梯度。因此,自适应不仅限于特定的网络级别,比如在特征提取网络的末尾实现,也属于在中间级别实现。

3.无监督领域适应策略综述

本节回顾了与语义分割最相关的无监督领域自适应方法。本节首先介绍一些用于语义分割的弱监督和半监督学习方法。这些方法并不是严格意义上的UDA方法,因为它们需要对通常比较简单的任务进行一些最小程度的注释监督,但它们代表了处理域适应问题的起点。
然后,我们将UDA方法分为7个主要类别,如图5中的视觉概述所示。

  • 领域对抗性鉴别方法(第3.2节)通过对抗性学习计划,学习生成与训练样本的统计分布类似于的数据。
  • 基于生成的方法(第3.3节)通常使用生成网络在域之间转换数据,以便从源数据生成类似目标的训练集,或者将源数据转换为更接近目标域特征的表示,然后将其反馈给网络。
  • 第3.4节介绍了分类器差异方法,在单个编码器上使用多个密集分类器来捕获不太适应的目标表示,进而通过类似于对抗的策略鼓励改进远离决策边界的跨域特征对齐。
  • 第3.5节中的自训练方法(自我监督),根据当前估计生成某种形式的伪标签(通常使用一些置信度估计方案来选择最可靠的预测),以自动指导学习过程(自我监督)。
  • 第3.6节中的熵最小化方法旨在最小化目标输出概率图的熵,以模拟源预测的过度自信行为,从而促进良好的聚集目标特征表示
  • 第3.7节为课程学习方法,首先处理一个或多个简单任务,以便推断目标域的一些必要属性(例如,全局标签分布),然后训练分段网络,以便目标域中的预测遵循这些推断属性。
  • 第3.8节中的多任务方法,同时解决多个任务,以改进不变特征表示的提取。
  • 最后,在第3.9节,我们在结束我们的离题时,对近期有趣的研究方向进行了一些思考,以便在未来进一步扩展

3.1.弱监督和半监督学习方法

考虑到空间成分(在分类方法中完全缺失)和密集(像素级)任务的特定属性,直接针对语义分割任务的方法很快开始出现。同时,在无监督领域适应之前,历史上曾有过弱监督或部分监督的技术,这是本节的重点。
一些工作建议仅使用弱标记样本来训练分割任务中的模型(弱监督学习),或者使用多个弱标记样本和少量样本的混合以及更昂贵的像素级语义映射(半监督学习)。解决该问题的第一种方法是将弱监督语义分割转换为多实例学习问题,如25:Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning和 26:Fully convolutional multi-class multiple instance learning.所示。以语义文本森林(STF)为基本框架,介绍了一种从图像标签概率估计未观测像素标签概率的算法。然后,通过在多任务学习框架中使用几何上下文估计任务作为正则化器的新算法,改进了STF的结构。27:Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation.中提出的另一种策略是实施期望最大化(EM)方法,在弱监督和半监督的环境中为语义分割任务训练深层网络。该算法在估计像素级标注(受弱标注约束)和优化分割网络本身之间交替进行。在28:Constrained convolutional neural networks for weakly supervised segmentation.中,引入了约束CNN(CCNN)作为框架,将弱监督纳入训练。在输出空间中添加线性约束,以描述图像级标签和标签的存在和预期分布,并引入一个新的损失函数来优化约束集。
在29: STC: A simple to complex framework for weakly-supervised semantic segmentation.中,引入了一个从简单到复杂的框架,用于弱监督语义分割。本文对简单图像和复杂图像进行了区分:前者在前景中只包含一个类别的单个对象,而后者在背景杂乱的情况下可以包含多个类别的多个对象。首先,使用显著目标检测技术从弱注释的简单图像中计算语义图,然后从这些图像开始,依次训练三个不同的网络,以便逐渐实现复杂图像的分割。
30:Decoupled deep neural network for semi-supervised semantic segmentation提出了一种半监督方法,其体系结构由三个主要结构组成:分类网络、分割网络和连接两个网络的桥接层。所提出的训练是解耦的:首先用弱注释样本训练分类网络,然后用强注释样本联合训练桥接层和分割网络。首先将输入图像馈送至分类网络,然后桥接层从分类网络的中间层提取特定于类别的激活图,该激活图用作分割网络的输入。通过这种方式,可以减少分割网络的参数数量,并使仅使用少量语义注释样本进行训练成为可能。事实上,相关标签和空间信息从分类网络中获取,并通过桥接层进行细化,从而大大简化了分割网络的任务。
在 31:Boxup:Exploiting bounding boxes to supervise convolutional networks for semantic segmentation.中,提出了一种迭代程序,仅使用
边界框标注的样本来训练分割网络
。首先,使用区域建议方法为每个图像生成多个候选分割模板(在整个训练过程中固定)。定义了一个重叠目标函数,以选取与地面真值边界框尽可能重叠的候选遮罩,并使用正确的标签。在每个迭代步骤中,为每个边界框选择一个候选掩码,然后使用生成的语义标签来训练分割网络。然后,分割网络的输出通过反馈通道用于改进下一步候选标签的选择。在每次迭代之后,选定的候选标签和分割网络输出都会一起改进。
从32:Semi and weakly supervised semantic segmentation using generative adversarial network开始,生成性对抗网络在该领域已被证明是有效的,在该领域中,鉴别器网络被修改以完成语义分割任务。鉴别器为输入图像的每个像素指定一个语义类的标签或假标签。鉴别器使用伪(生成的)数据、用于正则化目的的未标记数据以及具有像素级语义映射的标记数据进行训练。另一个建议的解决方案是采用条件GAN,并在弱监督设置中在生成器和鉴别器输入端合并弱图像级注释。
从33: Three principles for weakly-supervised image segmentation.开始,人们提出了许多自我监督学习的方法。常见的原理是利用推断的像素级激活作为伪地面真实值,以获得更精确的像素级分割图。34:Weakly-supervised semantic segmentation network with deep seeded region growing中使用了带有分类激活图的图像分类网络。作者强调了使用该方法的鉴别区域是如何小而稀疏的,并建议将其用作种子线索。然后,使用经典的种子区域生长(SRG)算法将区域扩展到具有相似特征(例如颜色、纹理或深度特征)的相邻像素,以获得用于训练分割网络的精确像素级标签。SRG算法使用分割网络的输出计算种子和相邻像素之间的相似度。因此,在每次迭代中,分割网络和使用SRG计算的动态标签一起改进。35:Object region mining with adversarial erasing: A simple classification to semantic segmentation approach.中介绍了一种类似的方法,该方法引入了一种新的对抗性擦除方法,用于逐步定位和扩展目标区域。36:Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation.、37:FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference和38:Weakly supervised learning of instance segmentation with inter-pixel relations中介绍了其他基于自学习的技术。
.Learning Across Tasks and Domains中介绍了跨任务和领域转移知识的更通用框架。假设有两个任务和两个域,该方法分为4个步骤:(1)建立单任务网络对两个域的样本进行训练以解决第一个任务,为了找到域的公共特征表示,(2)对第二个网络进行训练以解决第一个域上的第二个任务,(3)在第一域上训练第三网络,以将适合于第一任务的深度特征映射为用于第二任务的特征(4)最后,使用第三网络在第二域上求解第二任务。该框架能够使用两个域的深度图从合成域调整到真实域,以完成图像分割任务。深度图相对于语义图可以被视为弱注释,因为深度相机和3D扫描仪更容易获取深度图。

3.2.域对抗鉴别

3.2.1.对抗性学习

对抗性学习以生成性对抗网络(GAN)40:Generative adversarial nets的形式引入,以解决生成性目标(即生成类似于真实世界的假象)。求解生成性任务可以看作是寻求对生成训练数据的未知概率分布的评估。在生成环境中,引入对抗性学习具有开创性意义,因为不需要对潜在目标分布进行显式建模,更重要的是,不需要特定目标来训练模型。在对抗方案中,生成器必须学习生成具有相同训练样本统计分布的数据。为此,它与鉴别器配对,鉴别器的目标是**了解输入数据是来自原始集合,还是已生成。**同时,对生成器进行了优化,通过生成与原始样本相似的样本来愚弄鉴别器。最后,生成数据的统计信息应与训练集的统计信息相匹配 。GAN模型能够以可学习鉴别器的形式学习结构化损耗,从而指导生成网络的优化过程。因此,可以将目标函数视为自动适应特定环境,实际上消除了手动设计复杂损失的必要性。因此,在(GAN)中引入的对抗性学习方案可以在仔细调整的情况下进行扩展,以解决通常需要不同类型应用程序特定目标的多个任务。

3.2.2.特征对抗性调整

为了利用GAN模型可以实现的统计匹配,对抗式学习已成功扩展到领域适应任务41:Unsupervised Domain Adaptation by Backpropagation.、42:Domain-adversarial training of neural networks、43:Adversarial discriminative domain adaptation。特别是,重新访问了原始对抗框架中的真假鉴别网络,将其转化为源-目标域分类器。因此,在使用源监督训练分割网络以实现对语义分割任务的判别时,域鉴别器提供的监控信号应引导预测器达到域不变性,并减少对源域的固有偏差。换句话说,在对抗性竞争中,领域差异的度量是同时学习和最小化的。
虽然对抗适应策略最初被引入到图像分类任务中,但后来被扩展到图像语义分割[41,42]。Hoffman等人44:FCNs in the wild: Pixel-level adversarial and constraint-based adaptation是第一个在语义分割中解决领域适应性问题的人,他们采用对抗的方法。特别是,他们设计了一个全局域对抗性对齐,基于一个域鉴别器,将来自全卷积分割网络中间激活的特征表示作为输入。此外,他们提出了一种特定类别的分布对齐,前提是假定高级(high-level )的场景布局通常在源图像和目标图像之间共享的,通过对从源注释推断的目标预测施加图像级别的标签分布约束来实现的。遵循与[44]相似的方法,许多作品进一步诉诸于网络潜在嵌入的对抗性对齐。如前所述,域鉴别器能够推断出一种结构损失来捕获跨域图像表示的全局分布不匹配。然而,边缘分布的全局对齐并不一定会导致从源到目标的正确语义知识转移。因此,对抗学习通常被用于更复杂的框架中,这些复杂框架也对网络的内部特征表示起作用,包括多个互补模块,以实现更有效的适应。例如,Chen等人 45:Road: Reality oriented adaptation for semantic segmentation of urban scenes通过在训练阶段将来自目标输入的网络激活与来自ImageNet数据集的预训练版本的网络激活相匹配,使用了额外的目标引导蒸馏损失。他们认为,通过这种方式,可以减少对源数据的过拟合。此外,对抗适应特征在输入图像的不同空间区域独立执行,从而利用了输入场景的底层空间结构。相反,Zhang等人46:. Fully convolutional adaptation networks for semantic segmentation.通过向域鉴别器提供一个Atrous空间金字塔池(ASPP)模块来捕获多尺度表示,从而提高特征级适应性能。最近,Luo等人51:Significance-Aware Information Bottleneck for Domain Adaptive Semantic Segmentation.提出了一个意义感知信息瓶颈(SIB)来过滤编码在特征表示中的任务无关信息,这样,当执行对抗适应时,只**保留领域不变的判别线索。**他们还引入了一个意义感知模块,以帮助预测频率较低的类,这可能会因其原始形式的信息瓶颈而受到惩罚。
另一组研究47:Bidirectional Learning for Domain Adaptation of Semantic Segmentation.、49:CyCADA: Cycle-Consistent Adversarial Domain Adaptation.、50:CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency、52:Unsupervised domain adaptation for mobile semantic segmentation based on cycle consistency and feature alignment 将生成方法与对抗特征对齐结合起来。具体来说,在输入图像空间中,通过源-目标、图像-图像的平移函数匹配源和目标的边缘分布,然后通过域对抗性匹配源原始和类目标嵌入,进一步拉近跨域潜在表示。
为了完成分类改编,一些作品[53,54]重新审视了Hoffman等人的原始方法,通过帮助全球分布对齐与分类对抗学习。Chen等人53:Cross City Adaptation of Road Scene Segmenters提出使用
多个特征鉴别器(每个类一个),以便在域桥接过程中有效避免不同类之间的负迁移。此外,由于缺乏地面真实掩模,他们使用来自网络预测的网格级软伪标签来计算目标的对抗损失。最近,Du等人54:SSF-DAN: Separated Semantic Feature Based Domain Adaptation Network for Semantic Segmentation提出了一种类似的类别对抗技术,该技术通过在优化多个鉴别器时强加独立性而得到改进。他们认为,软标签导致对类别边界的错误适应,不同的类别的discriminators 可能同时提供他们的指导。最后,他们设计了一个额外的模块来自适应地重新加权每个类组件在对抗性损失中的贡献,以避免具有较高预测概率的类的固有优势,从而更容易适应跨域。
与上述技术不同的是,其他作品56:Penalizing top performers: Conservative loss for semantic segmentation adaptation.、57:Image to Image Translation for Domain Adaptation、58:Learning from synthetic data: Addressing domain shift for semantic segmentation通过应用
重构约束来寻求特征空间内的域对齐,以确保潜在嵌入具有足够的信息来恢复已提取的输入图像。为此,将对抗性学习应用于重建图像级空间。为了实现跨域的特征分布对齐,对特征提取器进行训练,生成可以模糊地投影回源图像和目标图像空间的潜在表示。在这些框架中,分割网络的主干编码器对域鉴别器进行最小-最大博弈。实际上,编码器试图通过观察投影回图像空间的相应重建图像,来欺骗实际原始特征域上的鉴别器。换句话说,目标是学习能够成功生成类目标(类源)图像的源(目标)特征,以提高这些表示的领域不变性。

3.2.3.输出对抗性适应

为了避免高维特征空间自适应的复杂性,另一系列的工作[59–66]在分割网络所跨越的低维输出空间上采用对抗性自适应,这仍然需要编码足够的语义信息,以便进行有效的自适应。域鉴别器提供了来自源和目标输入的预测映射,并对其进行了优化,以识别它们来自的域。相反,分割网络必须通过调整预测的密集标签在域之间的分布来愚弄它。
Tsai等人59:Learning to adapt structured output space for semantic segmentation.首先提出了这种类型的自适应:为了通过分段网络改善敌对竞争的信号流,他们在不同深度部署了多个密集分类模块,在这些模块上应用了尽可能多的输出级鉴别器。
根据[59]中提出的技术,其他作品采用了输出空间对抗性自适应和附加模块。例如,Chen等人60:. Learning Semantic Segmentation from Synthetic Data: A Geometrically Guided Input-Output Adaptation Approach将语义分割和深度估计结合起来,以提高自适应性能。特别是,它们联合为领域鉴别器提供分割和深度预测图,以便充分利用两个视觉任务之间的强相关性。此外,Luo等人62: Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation.通过一种联合训练策略增强了对抗方案,该策略突出了具有高预测可信度的输入图像区域。通过这种方式,通过平衡每个空间单元的贡献,可以有效地调整对抗损失,从而将更多的注意力集中在适应性较差的区域
其他工作64:Unsupervised Domain Adaptation for Semantic Segmentation of Urban Scenes.、65: Adversarial Learning and Self-Teaching Techniques for Domain Adaptation in Semantic Segmentation. 、66:Unsupervised Domain Adaptation with Multiple Domain Discriminators and Adaptive Self-Training. 重新探讨了对抗性输出级方法。特别是,它们利用鉴别器网络,该网络必须区分源地面真值图和从源数据和目标数据生成的语义预测。在这样做时,跨域统计对齐不会直接执行,但分割网络输出被强制作为源和目标输入的地面真值标签分布,会导致两个域之间的间接但有效对齐。
最近,基于从分割输出空间中提取有意义模式的新方法[67-69]被提出用于适应过程。这样做是为了显式地引导域鉴别器对源和目标表示形式有更实用和更重要的了解,从而最终实现更好的对齐。
在这方面,Vu等人67: Adversarial entropy minimization for domain adaptation in semantic segmentation.、68:DADA: Depth-Aware Domain Adaptation in Semantic Segmentation.设计了一种熵最小化策略(将在3.6节更详细地描述),以促进更置信的目标预测。他们提出了一种间接的方法,该方法依赖于基于源和目标预测计算的自我信息地图统计数据的对抗性对齐。特别是,域鉴别器必须检测加权的自信息图是来自源预测还是来自目标预测,而试图欺骗鉴别器的分割网络被迫产生低熵的目标图,以模仿源的可信Tsai等人69:Domain Adaptation for Structured Output via Discriminative Patch Representations.采用了一种不同的方法,通过在输出预测空间上添加一个patch聚类模块来发现分割地图上的patch模式,从而在输出预测空间上构造一个聚类空间。首先,该模块通过利用可用的注释对源数据进行监督训练,然后利用它在集群源和目标表示之间实施敌对的跨域适应,从而实现patch式分布对齐。这种方法背后的思想是捕获高层次的结构化模式,这些模式对于解决语义分割任务至关重要,并提供给域识别器以改进域统计对齐。因此,在patch级别上实现的域均匀性原则上应保证在目标域中也能有效地解决分割任务。

3.3.基于生成的方法

无监督图像到图像的翻译是一类生成技术,其目标是学习跨域映射图像的函数,完全依赖于从所考虑的域中采样的未配对训练数据提供的监督。其思想是提取特定图像集特有的特征,并将这些特性传输到不同的数据集合。在更正式的定义中,图像到图像的翻译任务旨在发现来自不同领域的图像的联合分布。请注意,由于问题实际上是不正定的,因为可以从边际分布推断出一组无限的联合分布,因此必须应用适当的约束以获得可接受的解。
域适应中可以有效地利用图像到图像的平移:发现目标集相对于源集的条件分布,原则上应允许弥合源和目标像素级统计之间的统计差距,从而消除导致分类器性能下降的原始协变量移位。实际上,其目标是将视觉属性从目标域转移到源域,同时保留源语义信息。根据这一想法,许多作品提出了一种基于生成模块的输入级适应策略,生成模块在源域和目标域之间翻译图像。这些作品虽然手法各异,但都有一个共同的理念,即通过减少图像布局和结构的跨域差异,在视觉外观上实现一种域不变性的形式。这允许学习翻译源域数据(应该具有类似目标的统计分布)上的分割网络,从而可以使用源注释。
相当数量的研究已经求助于成功的CycleGAN75:Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks.无监督图像到图像的翻译框架来完成输入级域适配。CycleGAN提出的框架建立在一对生成对抗模型之上,在源到目标和目标到源的方向上,同时执行两个域集之间的条件图像转换。这两个对抗性模块通过一个循环一致性约束进一步联系在一起,这鼓励跨域投射成为另一个的倒数。这种重建要求对于保持输入场景的结构几何属性至关重要,但不能保证翻译的语义一致性。实际上,映射函数在保持几何一致性的同时,会完全破坏输入数据的语义分类。
考虑到这一点,许多著作[47,49,50,52,70]利用分段网络的语义辨别能力来解决语义一致性问题。特别是,跨域图像翻译必须保留语义预测器所感知的语义内容,语义预测器表示原始图像与其翻译对应图像之间的语义差异的度量,该度量在翻译网络的优化中最小化。尽管如此,由于预测映射本身存在缺陷,特别是在缺少注释的目标域,提供给生成模块的不准确语义信息可能会影响图像投影的学习。因此,一些工作建议在单个阶段同时优化生成框架组件和区分框架组件52:Unsupervised domain adaptation for mobile semantic segmentation based on cycle consistency and feature alignment ,甚至将分割网络拆分为单独的源和目标预测器50:CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency。Li等人47:Bidirectional Learning for Domain Adaptation of Semantic Segmentation.进一步扩展了基于CycleGAN的适应策略,形成了一个双向学习框架。在优化方案中,图像到图像的转换和分割模块交替训练,每个模块都从另一个模块获得正反馈。分割网络得益于原始监督下类似目标的翻译源图像,而生成网络则借助预测器保持语义一致性。这种闭环结构有效地允许渐进适应,图像到图像的翻译质量和语义预测精度逐渐提高.
其他作品72:Semantic-aware Grad-GAN for Virtual-to-Real Urban Scene Adaption、73:Phase Consistent Ecological Domain Adaptation采用不同的方法为基于CycleGAN的改编提供语义感知。Li[72]等人提出通过一种
软梯度敏感损失
来帮助循环一致的图像到图像的翻译框架,以在关注语义边界的跨域投影中保留语义内容。这种方法背后的思想是,无论域之间的低级视觉特征如何变化,两个域边缘都应该易于检测,这个边缘定义了语义信息一致的区域,而不管图像是从哪个分布中绘制的。因此,基于梯度的边缘检测器应该发现原始图像与其转换版本之间的一致边缘映射。此外,根据一般情况,图像的语义不同区域应面临不同适应,他们设计了一个语义感知鉴别器结构。这样,鉴别器可以从语义上评估原始样本和转换后样本之间的相似性
最近,73:Phase Consistent Ecological Domain Adaptation对CycleGAN像素级自适应模块引入相位一致性约束,观察到图像的语义内容大多编码在其
傅里叶变换的相位中
,而改变频率所表示的振幅不会改变其组成。
Gong等人74:DLOW: Domain Flow for Adaptation and Generalization采用不同的适应视角,通过使用表示域的连续变量调节生成网络,对CycleGAN模型进行适应,以生成从源域到目标域的连续域流。检索跨越两个原始域之间的中间域的原因是,通过逐步描述影响输入数据分布的域转移来简化适应任务。此外,他们认为,借助于来自不同类目标域分布的类目标训练数据,可以提高分割网络的泛化能力。
为了减少CycleGAN双向结构的计算负担(这需要在语义预测器中添加至少四个神经网络),其他工作放弃了反向源到目标投影分支,寻求更轻的输入级自适应模块,仍然基于生成性对抗框架。例如,翻译一致性是通过与相关任务的相关性(例如深度估计)[60,76]来实现的,这与语义切分一起解决。Choi等人77:Self-Ensembling With GAN-Based Data Augmentation for Domain Adaptation in Semantic Segmentation.改进了原始GAN框架的生成器,在多个深度使用特征规范化模块,为源表示提供样式信息,同时保留源内容。此外,来自预先训练的分割网络的语义一致性损失促进了图像翻译的一致性,事实上,在缺乏周期一致性的情况下提供了一种正则化效果。Hong等人78:Conditional Generative Adversarial Network for Structured Domain Adaptation.用条件生成函数对源和目标特征图之间的残差表示进行建模,该模型在对抗性框架中进行了优化。在这样做的过程中,它们避免了对共享域不变潜在空间假设的任何依赖,这类假设可能由于语义分割的高度结构化性质而无法满足。生成器将低级别源特征图与噪声样本一起作为输入,并通过鉴别器生成具有类似目标分布的高级别特征图,该鉴别器表示原始和再现目标表示之间的统计距离度量。源原始表示和域变换表示都提供给稠密分类器以计算交叉熵损失。
为了减少对源域的偏见,Yang等人63:Label-Driven Reconstruction for Domain Adaptation in Semantic Segmentation.采用目标到源、图像到图像的翻译,而不是更常见的源到目标的翻译,通常用于从源翻译数据生成表单或目标监控。然后利用伪标记技术将源类目标图像用于预测器的监督训练。此外,直接在源域中训练分割网络可以充分利用原始源注释,避免源到目标像素级自适应场景中可能发生的语义变化风险。此外,为了在域之间对齐特征表示,它们引入了标签驱动的重建网络。然而,与基于特征的重建技术[Zhu、Murez](第3.2节)不同,输入图像的生成性重建是从分割输出的语义映射开始执行的。在这样做的过程中,他们试图指导分段网络嵌入的分类对齐,因为偏离目标的重构会受到惩罚,从而为网络预测提供语义一致性。
另一类适应策略探索了
风格转换技术
,以实现源域和目标域之间的图像级外观不变性。这些方法基于这样一个原则,即每幅图像都可以分解为两种不同的表示形式,即内容和风格。由于风格编码了低级的特定域的纹理信息,因此内容表示高级结构属性中的域不变量。(也就是说,风格是低级的,内容是高级的)因此,如果能够将目标数据的样式属性与语义保留的源内容结合起来,应该就能够有效地构建目标分布式训练数据,同时仍然保留最初的源注释。一些技术61:All About Structure: Adapting Structural Information Across Domains for Boosting Semantic Segmentation、79:Domain bridge for unpaired image-to-image translation and unsupervised domain adaptation. 涉及潜在空间中的内容和风格分解。因此,变换源图像意味着提取其特征内容表示,并将其与随机目标样式表示重新组合。在最近的一项工作[79]中,作者基于MUNIT体系结构执行多模态源到目标图像转换80:Multimodal Unsupervised Image-to-Image Translation.。原始数据集通过额外的网络爬网数据得到增强,以缩小数据集之间那些与任务无关数据属性的差距,同时突出显示待匹配的相关任务相关视觉特征。此外,样式转换方法允许多模态转换,因此可以将多个目标样式转换为单个源图像,从而增加训练数据的多样性,进而增强自适应鲁棒性
其他工作24:FDA: Fourier Domain Adaptation for Semantic Segmentation. 、46:Fully convolutional adaptation networks for semantic segmentation、81:DCAN: Dual Channel-Wise Alignment Networks for Unsupervised Scene Adaptation.、82:Adapting to Changing Environments for Semantic Segmentation、83:Domain Stylization: A Strong, Simple Baseline for Synthetic to Real Image Domain Adaptation通过利用不同类型的样式转换技术,完全避免了使用GANs生成高分辨率图像的计算复杂性。Zhang等人[46:Fully convolutional adaptation networks for semantic segmentation]采用传统的神经风格转换技术 84:Texture Synthesis Using Convolutional Neural Networks.、85:Image Style Transfer Using Convolutional Neural Networks.将风格(低级特征)与图像内容(高级特征)分离。特别是,利用预先训练好的CNN的多级响应图进行图像合成,其中图像样式由特征图之间以Gram矩阵形式的相关性表示。替代方法77:Self-Ensembling With GAN-Based Data Augmentation for Domain Adaptation in Semantic Segmentation、82:Adapting to Changing Environments for Semantic Segmentation选择源特征图的重新标准化,以便通过AdaIN模块86:Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization.使其一阶和二阶统计数据与目标统计数据相匹配。不同的是,Dundar等人83:Domain Stylization: A Strong, Simple Baseline for Synthetic to Real Image Domain Adaptation.利用照片真实感风格转换算法进行迭代优化,从而不断提高分割网络和翻译算法的性能。最后,Yang等人24:FDA: Fourier Domain Adaptation for Semantic Segmentation. 在不影响高级语义可解释性的情况下,通过用目标图像的低频频谱替换源图像的低频频谱,从源图像中去除依赖于域的视觉属性。他们认为,这种简单的方法,尽管不需要任何额外的可学习模块,但当嵌入到多波段框架中时,会产生非常稳健的自适应性能,该框架平均预测的光谱变化程度不同

3.4.分类器差异

如第3.2节所述,原始形式的特征级对抗性领域适应需要任务特征提取器和领域鉴别器之间的竞争,其监督行为原则上应指导特征表示的跨领域对齐。相反,任务区分性是由源监督的任务目标(即语义分割的标准交叉熵损失)授予的
正如87:Adversarial Dropout Regularization. 、88:Maximum Classifier Discrepancy for Unsupervised Domain Adaptation.所强调的,这种对抗性适应的主要形式的主要缺点在于缺乏来自领域鉴别器网络的语义意识。即使当鉴别器设法掌握边缘分布的清晰表达,从而有效地导致全局统计对齐时,类别级联合分布也必然不为领域鉴别器所知,因为它在鉴别特征表示时没有提供语义标签。这种语义不敏感调整的一个副作用是,特征可以放在靠近类边界的位置,增加了不正确分类的机会。此外,由于在自适应过程中忽略了决策边界,目标表示可能被错误地转移到与域不变自适应空间中的实际语义类别不同的语义类别(负转移)。
为了克服这些问题,Saito等人[87 ]边界的跨域特征对齐。为了做到这一点,他们通过为特定于任务的密集分类器(即编码器)提供区分角色,完全重新审视了原始的域对抗方案。特别是,通过丢失,对分类器进行扰动,以便在同一编码器输出上获得两个不同的预测。由于
预测变化(Prediction variability)与决策边界的接近度成反比关系
(越接近边界,变化越大),因此通过最小化两个输出概率图的差异,特征提取器被迫产生远离这些边界的表示。同时,分类器必须最大化其输出变化,以提高其检测适应性较差特征的能力。在这个重新设计的对抗性方案中,密集分类器被训练为对目标特征的语义变化敏感,从而捕获存储在其神经元中的所有信息,而对抗性最大化又鼓励这些神经元彼此尽可能不同。另一方面,编码器的重点是为提取的目标特征提供分类确定性,因为去除任务无关的线索会削弱从相同潜在表示中获得不同预测的可能性。
遵循对抗性丢弃(Dropout)正则化(ADR)方法的相同原则,其他方法采用基于分类器差异的自适应技术,以实现语义一致性对齐62:Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation、71:Generatively Inferential Co-Training for Unsupervised Domain Adaptation.、88:Saito:Maximum Classifier Discrepancy for Unsupervised Domain Adaptation.、89:Multichannel Semantic Segmentation with Unsupervised Domain Adaptati、90:Learning Discriminative Features for Unsupervised Domain Adaptation.。Saito等人改进了ADR中的框架,修改了在同一潜在空间中访问多个预测的方式。为了取代分类器权重的缺失,他们引入了两个独立的解码器,这些解码器与源监督同时进行训练,同时被迫通过最大化差异损失来生成不同的预测。目标是避免ADR中单个分类器获得的噪声敏感性,这对于单个解码器捕获目标样本的支持度非常重要,但需要额外的训练阶段才能正确地学习整个分割模型
Luo等人将利用两个不同分类器推断目标适应程度的联合训练策略进一步合并到更传统的生成器-鉴别器对抗框架中62:Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation。他们使用两个分类器输出的差异图来衡量敌对目标。因此,由强预测可变性所突出的语义不一致区域成为目标的主要焦点,因为它们应该受到更显著的领域转移的影响。此外,Lee等人90重新提出了一种对抗性丢弃的形式,以从单个分类器获得不同的预测。然而,他们放弃了非随机虚拟丢弃机制的对抗性方案,以发现最大化预测差异的最小距离对抗性丢弃掩码。最后,他们求助于单一的统一目标,对编码器和解码器进行组合优化,以对齐域之间的特征,同时逐步将密集区域和决策边界推离彼此很远。

3.5.自训练

自我训练策略需要使用在未标记数据上推断出的高度可信的网络预测来生成伪标签,从而使用自学监督来加强预测者的训练。这种方法通常用于半监督学习(SSL)91:Semi-supervised Learning by Entropy Minimization.,以利用额外的未标记数据来提高预测精度。最近,自训练技术已扩展到解决无监督域自适应问题,因为UDA可被视为SSL任务的一种变体,即使必须进一步考虑未标记目标数据的统计变化导致的UDA的额外复杂性。事实上,同时从源注释和目标伪标签学习可以隐式地促进功能级别的跨域对齐,同时仍然保持任务的特定性。相反,由于缺乏统一的损失,作为最成功的对抗性方法,其他适应方法必须考虑任务相关性和额外的训练目标。关键的一点是,这种策略是自参考的,因此必须采取谨慎的安排,以避免灾难性的错误传播。事实上,自我训练自然会促进更可信的预测,因为网络概率输出会一直被激励达到接近一个热伪标签的峰值分布(在狄拉克分布的极限处)。由于无法对未标记的目标数据进行任何形式的外部监控,网络可能会错误地对不确定像素进行分类,从而产生过于自信的预测。反过来,迭代式自我教学策略通过传播来强化预测错误,尽管传播机制会使输出逐渐偏离正确的解决方案。因此,大多数基于自训练的自适应方法依赖于各种形式的伪标签过滤, 只允许从最高可信目标预测中进行自学习,而这些预测隐含地被认为有更高的正确率。
第一类基于自训练的自适应解决方案 47:Bidirectional Learning for Domain Adaptation of Semantic Segmentation.、92:Unsupervised Domain Adaptation for Semantic. Segmentation via Class-Balanced Self-Training、93:Confidence Regularized Self-Training采用离线技术进行伪标签计算:在每个更新步骤,通过查看整个训练集计算置信阈值。然后根据基于置信度的阈值策略直接过滤目标分割图,并结合原始源注释数据用于分割网络的监督学习。
在这方面,Zou等人[92]提出了第一个基于自我训练的UDA技术。 他们设计了一个迭代的自训练优化方案,该方案交替对源原始和目标人工监控以及目标伪标签估计进行分段网络训练。特别地,目标伪标签被视为离散的潜在变量,通过最小化统一的训练目标来计算。此外,由于类无关伪标签置信度过滤本质上偏向于简单(即更自信)的类,他们通过设置类别置信阈值设计了一种类平衡策略。这将促进类间的平衡,因为每个类都考虑了相同数量的最高置信像素,从而导致类对学习过程的统一贡献。最后,由于源域和目标域应该共享高级布局特征,因此它们还利用源标签统计中的空间先验信息,这些先验信息针对每个语义类别进行推断并纳入训练目标。最近,Zou等人[93]通过将伪标签空间从独热特征图射扩展到由概率单纯形定义的连续空间,重新回顾了他们在[92]中的先前工作。这样,通过在整个输入图像中避免明显的过度自信自我监督,应该有效地减少固有的误导性错误像素预测的影响。连续伪标签空间进一步允许它们在训练目标中引入置信正则化项,以伪标签(视为潜在变量)和网络权重为目标,目的是实现输出平滑度,以代替稀疏分割映射。
为了避免离线数据集处理缓慢,Pizzati等人79:Domain bridge for unpaired image-to-image translation and unsupervised domain adaptation引入了带加权伪标签的自训练。采用可学习的置信阈值对伪标签进行细化和加权,从而使伪标签属于连续空间,同时平衡不确定像素的影响。目标加权自生标签在单个批次上计算,但仍保留全局视图,因为置信阈值在整个训练阶段都学习
另一组研究64:Unsupervised Domain Adaptation for Semantic Segmentation of Urban Scenes、65:Adversarial Learning and Self-Teaching Techniques for Domain Adaptation in Semantic Segmentation、66:Unsupervised Domain Adaptation with Multiple Domain Discriminators and Adaptive Self-Training.在应用于分割网络输出的对抗性辨别适应模块的基础上构建了一种自我训练策略。特别是,基于完全卷积鉴别器可被视为执行网络估计的可靠性度量的信念,他们利用鉴别器输出来识别可靠的目标预测,然后将其保存在伪标签滤波操作中。Michieli等人[65]通过区域增长策略进一步改进伪标签选择机制。此外,Spadotto等人[66]建议采用类自适应阈值方法。他们通过查看鉴别器概率输出的分批分布,为每个语义类选择相同比例的高度自信目标像素。通过这样做,他们在培训阶段为适应框架提供了类内置信度以更多的灵活性和时间适应性
另一系列工作70:Uncertainty-Aware Consistency Regularization for Cross-Domain Semantic Segmentation.、77:Self-Ensembling With GAN-Based Data Augmentation for Domain Adaptation in
Semantic Segmentation.、94:Domain Adaptation for Semantic Segmentation With Maximum Squares Loss利用各种形式的预测加密,对目标数据进行更可靠的预测,在此基础上进行伪标记。Chen等人[94]通过引入额外的ASPP密集分类模块,增强了对低级特征的适应性。因此,利用低水平和高水平目标预测的组合知识,以伪标签形式自制制导,作为额外的训练目标。Yang等人[24]利用多频带频谱自适应对分割网络的多个实例进行训练,以获得不同的语义预测器。然后,从不同分割器实例的平均预测生成目标伪标签,从而在处理多轮自训练时产生更稳健的适应。
其他自训练方法[70,77]不是直接对预测输出进行操作,而是借助额外的网络对未标记样本进行自我指导。Choi等人[77]提出了一种自感知适应技术,通过该技术,从学生网络的权重中衍生出学生网络必须遵从的教师网络。换句话说,辅助预测器(教师网络)提供了一种伪标签,然后通过对目标数据的监督训练将可靠的知识传递给实际预测器(学生网络)。为了达到正则化的目的,在输入的目标图像上额外注入高斯噪声,并在分割网络中应用丢弃权重扰动,以提高自适应鲁棒性,因为即使在不同的随机扰动下,学生-教师预测一致性也得到了加强。最近,Zhou等人[70]扩展了师生自我认知适应方法,引入了不确定性模块,通过查看自我信息图过滤掉不可靠的教师预测。

3.6.熵极小化

正如已经指出的,半监督学习和无监督领域适应是密切相关的任务:事实上,一旦源分布和目标分布匹配,UDA任务只会缩小到从训练数据的未标记子集学习。因此,SSL(半监督学习)方法可以激发领域适应策略是很自然的,正如为自训练所讨论的(第3.5节)。在用于解决半监督学习的成功技术中,最近已将熵最小化引入UDA67: Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation.。最小化目标熵以执行域自适应的原则遵循以下观察结果,即源预测可能显示出更大的可信度,这反过来转化为高熵概率输出。相反,分割网络可能在目标分布样本上表现出更不确定的行为,因为目标预测熵映射总体上相当不稳定,通常是噪声模式,而不仅仅局限于语义边界。因此,当将分割网络应用于目标域时,强制分割网络模仿过度自信的源行为,可以有效地减少域之间的精度差距。换句话说,熵最小化的目的是惩罚跨越高密度区域的潜在空间中的分类边界,同时共同鼓励通过决策边界正确分类的良好聚集目标表示。
以其最简单的方式[67]在像素级执行熵最小化,以便预测图的每个空间单元为最终目标带来独立的贡献。然而,基本方法存在一些固有的局限性,需要进一步安排以提高适应性能[24,67,94]。为了利用语义图的结构信息,Vu等人[67]提出了一种全局对抗性优化,以加强源熵图和目标熵图的分布对齐。在这样做的过程中,他们依靠一个域鉴别器来捕获区分不同域的样本的全局模式,从而实现更具语义意义的熵行为跨域匹配。从源注释推断出的标签分布上的类先验信息进一步强制用于目标预测,以避免类向简单类的不平衡。
在随后的一份出版物中,Chen等人[94]观察到,熵最小化目标可能会受到更自信预测的梯度优势的严重阻碍。事实上,从高不确定性区域移动到低不确定性区域,梯度迅速增加,其值趋于无穷大,因为输出概率分布趋于δ函数。这种概率不平衡通常会阻止分割网络在精度很低的区域上进行学习,这些区域的梯度比易于转换的图像区域的梯度低得多。为了解决这个问题,他们设计了一个最大平方损失,它产生一个梯度信号,该信号随输入概率线性增长。他们还面临着类别不平衡,引入了基于预测图目标分布的类别权重因子,以代替源注释,因为他们认为源类别统计可能会显著偏离目标类别统计。最近,Yang等人[24]将熵最小化技术作为一个附加模块添加到他们的自适应方案中。其目的是通过将决策边界推离目标潜在空间中的高密度区域来实现对未标记目标数据的训练的正则化效果,基本上不会对实际框架造成开销。通过组合应用其他自适应模块来实现域对齐,增强了该方法的强度。事实上,这将UDA任务转向SSL,从而使熵最小化更加有效。此外,为了避免过度强调低熵预测,他们采用了惩罚函数,增加了对目标图像不易适应的高熵区域的关注

3.7.课程式学习

另一个研究领域涉及课程学习方法,首先解决一些简单的任务,推断与目标领域相关的一些重要和有用的属性。然后,这些信息用于支持网络训练,以处理更具挑战性的任务,如图像分割。这一系列方法在原理上与自训练有许多相似之处。这两种方法的主要区别在于伪标签的内容。在自训练方法中,伪标签是对目标集上所需注释的估计,并在训练期间使用,而在课程方法中,伪标签由目标域的一些推断统计特性表示(不同于任务的标签),并且网络经过训练,可以在目标预测中重现这些推断的属性。
该系列的第一个工作是95:Curriculum domain adaptation for semantic segmentation of urban scenes.及其扩展96:A curriculum domain adaptation approach to the semantic segmentation of urban scenes,其中解决了对域差异不太敏感的两个简单任务:即全局图像上的标签分布和局部地标超像素上的标签分布。前一个属性在源域中作为与每个类别关联的标签中的像素数进行评估,并通过像素总数进行归一化。另一方面,目标标签在无监督领域自适应中不可用,因此需要在源领域训练机器学习模型来估计它们。在论文中,有人认为这项任务比图像分割更容易解决,并且其结果可以用来指导分割任务的适应。为了估计目标域上的第一个属性,采用了logistic回归模型。虽然第一个属性有助于确保不同类别之间的比率与目标域的比率相匹配,但语义映射不遵循目标域上估计的标签分布的样本仍然会受到惩罚。为了解决这个问题,引入了第二条线索。将图像划分为超像素,使用支持向量机分类器选择最具代表性的锚超像素,并估计其上的标签分布。最终目标是混合源样本的像素级交叉熵和之前讨论的目标域上两个属性的交叉熵。在97:Model adaptation with synthetic and real data for semantic dense foggy scene understanding.和98:Curriculum model adaptation with synthetic and real data for semantic foggy scene understanding中,介绍了一种将分割模型的域从晴天图像调整为浓雾图像的技术。提出了一种称为课程模型自适应(CMAda)的新方法,该方法可以逐渐自适应该模型以分割雾量递增的图像。介绍了一种在图像中加入合成雾的新方法和一种新的雾密度估计器。请务必注意,雾发生器有一个可调参数β,用于控制要添加到图像中的雾的密度。这使得从具有不同合成雾密度的数据集城市景观生成样本成为可能,并使用它们训练AlexNet模型[99],通过执行回归问题从图像中发现β。训练后的雾密度估计器也可以用来估计真实雾图像的雾密度。该算法从晴朗天气图像的源域开始,经过逐渐浓雾的中间目标域,最后到达浓雾图像的目标域。在训练阶段,源域的标签和合成雾的图像的标签是可用的,影像真实的雾是没有被标注的。
分割模型首先在源域上进行预训练,然后根据密集雾步骤的数量,使用尽可能多的自适应训练步骤,逐渐向目标域移动。从雾较轻的图像更容易分割的假设出发,利用当前步长模型对强度小于当前步长的真实雾图像进行标签评价。然后将这些样本与下一步的合成雾密度为β的图像一起使用,以便在监督下训练模型。对目标数据集的所有步骤重复此过程,模型以无监督的方式(不使用真实雾图像的标签)自适应分割真实浓雾图像。100:Learning semantic segmentation from synthetic data: A geometrically guided input-output adaptation approach.强调了课程学习和自训练之间的联系,并介绍了一种使用和融合这两种技术的方法(称为自我激励金字塔课程领域适应,PyCDA)。作者提醒,在自训练中,有两个主要的交替训练步骤:(1)评估目标域的伪标签;(2)使用标记的源域图像和带有伪标签的目标域图像对分割网络进行监督训练。在课程学习中,还有两个交替的步骤:(1)推断目标域的属性(例如,全局图像或图像区域上的频率标签分布,如超像素)和(2)使用标记的源域和目标域推断属性更新网络参数。在PyCDA中,两种方法被合并:在自训练中使用的伪标签被视为课程方法的一种属性。论文还将[95]中使用的超像素替换为小平方区域,以提高算法效率,并且所有课程属性都是通过分割网络本身推断出来的,不需要额外的模型(例如支持向量机或逻辑回归模型)。

3.8.多任务

有些作品利用源域数据集中可用的其他类型的信息,例如深度图,以提高目标域中的性能。换言之,训练模型以同时解决图像分割的附加任务(例如深度回归),从而构建图像的不变和通用嵌入。在76: SPIGAN: Privileged Adversarial Learning from Simulation.中,作者强调,当源域由合成数据构成时,我们可以包含语义映射以外的关于数据集样本的其他信息,例如深度图。这称为特权信息(PI),它包括可能对训练有用的所有属性。[76]中提出的方法被称为模拟器特权信息和生成性对抗性网络(SPIGAN),该方法使用对抗性学习方案执行源到目标的图像转换,以及在源图像和自适应图像上训练的网络,该网络试图预测其特权信息(例如,深度图)。特别是PI被用作域自适应的正则化。在源域中使用额外深度信息来增强外观特征改进源-目标域的对齐在68: DADA: Depth-Aware Domain Adaptation in Semantic Segmentation.中提出,介绍的方法称为深度感知域自适应(DADA)并包括一个特定的体系结构和学习策略。该体系结构以现有的分割网络为基础,加入了一些额外的模块来预测单目深度,并将该任务的信息反馈到主流中。剩余的辅助块用于此目的。为了执行域适配,来自源域和目标域的图像被送入网络,以计算类概率和深度图。然后,将前者处理成自信息地图,并与后者合并,生成深度感知地图。最后,这些图被用于对抗性训练,以适应源域。重要的是,要注意深度信息不用作正则化,但在推导主要任务的预测时直接考虑了它。本文认为,与[76]中提出的方法相比,这是一种更明确、更有用的利用深度信息的方法。
在101:Learning semantic segmentation from synthetic data: A geometrically guided input-output adaptation approach.中介绍了深度图的第三种不同用法,其中提出了一种称为几何引导输入-输出适应(GIO-Ada)的方法。利用几何信息在输入和输出两方面提高了适应能力。前者试图减少源域和目标域图像的视觉差异。转换网络接受源图像及其语义映射和深度映射作为输入,以计算适应的图像,在视觉上类似于目标域的图像。在与变换网络对抗学习中使用鉴别器来区分真实目标域图像和自适应目标域图像。本文在这方面的主要贡献是使用语义映射和深度映射作为转换网络的额外输入。输出级自适应通过一个任务网络来构建,该任务网络计算每个输入的语义图和深度图。这样的输出被输入到一个附加的鉴别器,这个鉴别器试图区分它们是从真实图像还是自适应图像中计算出来的。在89:Multichannel Semantic Segmentation with Unsupervised Domain Adaptation.中,一个由特征生成器和两个分类器(用于计算语义映射)组成的网络被采用,并使用最大分类器差异方法来实现从合成源域到真实目标域的无监督自适应。提出了两种改进网络性能的方法:数据融合方法和多任务方法。前者将RGB图像信息与深度信息进行合并,并将结果作为网络的输入。后者仅使用RGB图像作为输入,而不同的网络在特征生成后同时解决3个任务,以提高网络在目标域的整体性能:语义分割、深度回归和边界检测。

3.9.新的研究方向

无监督域适配在其最初的解释中,旨在通过传递与源数据和目标数据共享的特定且定义良好的语义类别集合相关的表示来解决域转移问题。这遵循的假设是,目标域只包含可以在源示例中找到的类的实例。然而,尽管这是一个合理的假设,并不妨碍适应任务的普遍性,但在实践中,来自新领域的图像可能包含来自未见类别的物体是常见的。
在适应目标的更广义定义方向上,一些工作已经着手于应用于图像分类任务的开放集域适应102: Open Set Domain Adaptation,它包含了源域中不存在的目标域特有的未知类别,但是他们仍然保留了一个稍微严格的适应设置类的定义。最近,一些新方法103:Universal Domain Adaptation through Self Supervision.、104:UODR:Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization.提出放宽领域适应设置的共同前提,有效地转向更现实的场景,在这种场景中,几乎不能推断出目标数据属性的先验,从而扩大了对现实解决方案的适用性。
例如,Saito等人[103]引入了通用域适应问题,基本上不允许预先描述目标类。特别是,他们利用邻域聚类技术,在没有任何监督的情况下,将每个目标样本分配给源类或未知类别。然后,通过熵最小化实现跨域表示的匹配,实现域对齐。
更进一步的是通过解决未知目标类别的识别,这些类别必须单独学习,而不是简单地承认为未知。Zhuo等人[104]解决了他们所称的无监督开放领域识别任务,其目标是学习如何正确地对未知类别的目标样本进行分类。为此,他们通过实例匹配差异最小化来减少源和目标集之间的域位移,并根据特征相似度进行加权。一旦语义预测器实现了领域不变性,分类知识就可以通过图CNN模块安全地从已知类别转移到未知类别。
尽管上述的自适应方法已被证明对图像分类任务相当有效,但还需要做进一步的调整,以处理语义分割网络特征表示的额外复杂性。在这方面,Bucher等人提出了一种新颖的无监督域适应(Boundless Unsupervised Domain Adaptation, BUDA)任务,专门用于语义分割。与UODR类似,标准的域适配问题是没有限制边界的,以显式处理新的看不见的目标类的实例,同时仅依赖于类名形式的最小语义先验,这些类名应该事先已知。因此,在领域适应和零镜头学习问题上,整体任务是解耦的。首先,通过精心设计的熵最小化技术来执行源域和目标域之间共有类别的域适应,以避免不可见的目标类的不正确对齐。然后,利用零镜头学习策略105:Zero-Shot Semantic Segmentation.,通过生成模型能够综合受类描述符约束的视觉特征,将知识从看得见的类转移到看不见的类。
另一个密切相关的研究方向是持续学习任务,该方向目前在研究界正获得越来越广泛的兴趣。持续学习可被视为迁移学习的一种特殊情况,其中数据域分布在每个增量步骤都会发生变化,并且模型应在所有域分布上都表现良好。例如,在课堂增量学习中,学习的模型会更新以执行新任务,同时保留以前的能力。最初提出用于图像分类[106107]和目标检测[108],最近还对语义分割109: Incremental learning techniques for semantic segmentation.、110: Knowledge Distillation for Incremental Learning in Semantic Segmentation. 、111: Modeling the Background for Incremental Learning in Semantic Segmentation.进行了探索。该问题的另一个表述涉及语义级别上的从粗到精的细化,在语义级别上,利用在较粗任务上获得的先前知识来执行较细的任务,从而修改标签分布112:Incremental and Multi-Task Learning Strategies for Coarse-To-Fine Semantic Segmentation.。

你可能感兴趣的:(语义分割,深度学习,transformer,人工智能)