论文下载
在本文中,我们提出了DRANet,这是一种网络体系结构,它将图像表示分离,并在潜在空间中传输视觉属性,以实现无监督的跨域自适应。与现有的学习共享一个域的相关特征的域自适应方法不同,DRANet保留了每个域特征的独特性。我们的模型对源图像和目标图像的内容(场景结构)和风格(艺术外观)的单独表示进行编码。然后,它通过将转换的样式因子和为每个域指定的可学习权重合并到内容因子中来调整域。该学习框架允许使用单个编码器网络进行双向/多向域自适应,并调整其域转移。此外,我们还提出了一个内容自适应域传输模块,该模块有助于在传输样式的同时保留场景结构。大量实验表明,我们的模型成功地分离了内容风格因素,合成了视觉上令人愉悦的域转移图像。该方法在标准的数字分类任务和语义分割任务上都表现出了最先进的性能。
深度神经网络(DNN)的使用在许多领域都带来了显著的性能改进,包括计算机视觉[6]、机器学习[13]和自然语言处理[7]。然而,问题依然存在,尤其是数据之间的领域差距,这会显著降低模型性能。人们已经做出了大量努力,使用无监督的领域适应来推广跨领域的模型[1,38,23,36,9,32,37,21,2,15,39]。无监督域自适应尝试将标记源数据中的分布偏移与未标记目标数据对齐。已经探索了各种策略来弥合跨领域的差距,例如,通过特征学习和生成像素级适应。
特征级方法[38,23,32,36,9,32,37]学习结合任务区分和领域不变性的特征,这两个领域都映射到一个公共特征空间。域不变性通常涉及最小化某些特征距离度量[38,23,32]或对抗性鉴别器精度[9]。像素级方法[21,2]通过利用生成性对抗网络(GAN)[14,24,28,30,4]的力量,在原始像素空间而非特征空间中执行类似的分布对齐[14,24,28,30,4]。它们调整源域图像,使其看起来像是从目标域绘制的。一些研究[15,35,39]结合了像素级和特征级方法,以实现互补优势。
最近,通过将分离的表示学习到潜在特征空间中的专有和共享组件,研究领域得到了进一步的发展[3,12,22,45]。他们证明,表示解纠缠提高了模型提取领域不变特征的能力,以及领域自适应性能。然而,这些方法仍然关注两个域之间的关联特性,例如共享和独占组件,因此它们需要多个专门用于各个域的编码器和生成器。此外,除了领域分类器之外,网络训练还严重依赖于带有地面真相类标签的任务分类器。
为了解决这些问题,我们提出了DRANet,这是一个单一的前馈网络,跨域适应不需要任何地面真相任务标签。与图1-(a)中先前将所有域图像映射到共享特征空间的方法不同,我们侧重于提取保留图1-(c)中单个域特征的特定于域的特征。然后,我们使用分隔符将各个领域的区分性特征分解为内容和样式组件,然后使用分隔符生成领域自适应特征。与之前的特征分离工作[42]不同,之前的特征分离工作将潜在向量线性划分为图1-(b)中的两个分量,我们的分离器专门用于分离非线性流形中的潜在变量。我们在网络设计背后的直觉是,不同领域的内容和风格可能有不同的分布,这无法通过潜在向量的线性分离来有效处理。因此,为了处理这种差异,我们的网络采用了非线性分离和特定于域的尺度参数,专门用于处理这种域间差异。
据我们所知,DRANet是第一种完全基于单个域特征的无监督跨域自适应方法。它使我们能够应用单个编码器-解码器网络,从完全未标记的数据进行多向域传输。我们的方法的特点总结如下:
特征级领域自适应方法通常通过修改区分性表示空间来调整学习分布。该策略通过最小化源和目标的特征空间统计数据之间的差异来指导特征学习。早期的深度自适应方法最小化了域偏移的一些测量,例如最大平均差异[38,23]或相关距离[32]。最近的作品[9,36,37]学习了源标签的区别性表示,同时无法通过作品[1]激发的对抗性损失来区分域。域不变特征是通过标准的反向传播训练发现的,其中包含极大极小损失[9]、域混淆损失[36]或GAN损失[37]。
无监督域自适应的另一种方法是生成像素级域自适应,它使用对抗性训练将图像与源图像的内容和目标图像的样式进行合成[14]。Liu和Tuzel[21]使用负责解码抽象语义的特定层,通过权重共享来学习源和目标表示的联合分布。Bousmalis等人[2]使用GANs学习像素空间中从一个域到另一个域的变换。Hoffman等人[15]在像素和特征级别上调整表示,同时使用循环一致性损失来实现结构和语义的一致性。Y e等人[39]还结合了像素级和特征级域分类器,以校准目标域图像,其表示接近源域。
对于艺术风格的转移,人们广泛研究了潜在空间中风格和内容成分的分离[33,8,11,42,43]。Tenebaum和Freeman[33]展示了感知系统如何分离内容和风格因素,并提出了解决这两个因素的双线性模型。Elgammal和Lee[8]介绍了一种在表示动态对象的流形上分离样式和内容的方法。Gatys等人[11]展示了CNN学习的通用特征表示如何操纵自然图像的内容和风格。Zhang等人[43]提出了一种神经网络,用一小组图像来表示每种风格和内容,同时分离表示。Zhang等人[42]将特征表示分为内容和风格两部分。
在关于领域适应的研究中,最近人们对探索内部表征的方法越来越感兴趣。Bousmalis等人[3]学习提取被划分为两个子空间的图像表示:私有和共享组件,并表明独特特征的建模有助于提取域不变特征。Gonzalez-Garcia等人[12]试图理清两个领域中的排他性因素,以及跨领域共享的因素。Liu等人[22]提出了一种跨域表示解纠缠器,用于跨数据域连接信息并传输属性。Zou等人[45]介绍了一个联合学习框架,该框架将身份相关\不相关的特征分离出来,用于人员重新识别任务。我们讨论了我们的工作和第一节列出的工作之间的主要区别。
图2。我们模型的概述。(左)包含编码器E、分隔符S和生成器g的图像平移块。源图像和目标图像IX、IY为输入,重构图像IˋX、IˋY和域传输图像IX→Y、IY→X为输出。(右)训练损失包括重建LRec,一致性LCon,感知LPer和对抗性LGAN损失。
我们的方法的整个流程如图2所示。我们的框架可以扩展到跨三个域的域转移,如图3所示,尽管该示例仅展示了两个域的情况。该网络由编码器E、特征分割器S、生成器G、源域和目标域的两个鉴别器DX、DY和感知网络P组成。在训练阶段,我们学习这些网络的所有参数,以及补偿两个域分布的特征缩放因子wX→Y, wY→X。给定源图像和目标图像IX, IY,编码器E提取单独的特征FX, FY,然后通过生成器G来重建原始输入图像IˋX、IˋY。分隔符S将每个特征FX, FY分解为场景结构和艺术外观的组成部分,本文分别将内容称为CX、CY和风格称为SX、SY。然后,利用可学习的尺度参数wX→Y, wY→X合成转移域特征FX→Y、FY→X。生成器G将原始特征FX、FY和转移特征FX→Y、FY→X分别映射到其图像空间IˋX、IˋY、IX→Y、IY→X。预先训练的感知网络P,提取感知特征,对内容相似度和风格相似度施加约束。我们使用DX和DY两个鉴别器来对两个域施加对抗损失。在测试阶段,给定源图像和目标图像IX, IY,仅使用编码器E、分隔符S、发生器G和域权值w生成域传输图像IX→Y, IY→X。通过单前馈网络E-S-G,我们的方法实现了输入图像的双向域转移。
在本小节中,我们描述了分隔符S的设计动机。我们首先使用权重共享编码器提取单个图像特征FX, FY:
FX=E(IX), FY=E(IY) (1)
分离器将这些特征分解为场景结构和艺术外观因素。我们假设非线性流形学习仍然是必要的,以便将每个特定领域的表示映射到[8]中演示的内容或风格空间中。因此,我们学习了一个非线性投影函数S,它将特征FX分割成内容CX和风格SX因素,如下所示
CX = wXS(FX), SX = FX − wXS(FX) (2)
其中wX是标准化内容空间分布的权重参数,这有助于补偿分布位移。利用非线性函数和可学习的特征尺度参数获得内容组件,通过从整个特征中减去内容组件来定义样式组件。目标表示FY也通过相同的分隔符S传递,并输出目标内容和样式CY、SY,但为了简单起见,这里我们只表示源域用例
解纠缠表示用来跨域传递特征域,具体如下:
在我们的实现中,我们直接学习相对尺度参数wX→Y, wY→X以及所有的模型参数。最后,我们将涉及域自适应特征FX→Y, FY→X的所有表示以及原始源和目标特征FX, FY通过生成器G投影到图像空间中,如下所示:
其中IX→Y, IY→X为域适应图像,IˋX、IˋY为重构图像
样式转换往往难以处理包含各种对象的复杂场景,例如驾驶场景。这是因为这些图像由不同的场景结构以及不同的对象组成。为了解决这个问题,我们提出了一种内容自适应域转移(CADT)。本模块的核心思想是搜索内容成分与源特征最相似的目标特征。然后,通过从更合适的目标特征中反映更多样式信息来进行域转移。为了实现这一点,我们为数据库设计了一个小批量的内容相似性矩阵,如下所示:
其中σrow是row维度中的softmax操作。内容因子CX的大小由批次大小B和特征维度N定义。矩阵Hrow包含有关小批次中成分之间相似程度的信息。基于相似度矩阵,我们构建了一个内容自适应风格特征,如下所示:
由于内容特征更有可能被包含类似结构和对象组成的场景所风格化,因此可以比使用正常的传递方法得到更赏心悦目的结果。我们在图8中实证地证明了这一点。采用反方向的内容自适应域转移,简单得到内容相似度矩阵:
其中σcol是列方向上的softmax。
我们用编码器E、分隔符S和生成器G来训练我们的网络,方法是最小化损失函数Ld,而鉴别器Dd则试图使其最大化:
其中,域d是源域X, Y或目标域Y。我们的框架的总体损失包括重建LRec、一致性LCon、感知Lper和对抗LGAN损失,每个损失都有对应的权重系数αi:
以下是每次损失的详细信息。
我们使用L1损失来学习E和G,以最小化输入图像Id和重建图像Iˋd之间的差异:
我们使用两个鉴别器Dd∈{X,Y}分别评估源域和目标域上的对抗损失。以下是X到Y域适配的对抗性损失:
对于Y到X的适应,我们也施加相同的对抗性损失LXGAN。我们将光谱标准化(Spectral Normalization)[25]应用于G和D中的所有层,并将PatchGAN鉴别器[17]与敌对损失[20,34,26,41]的铰链版本(hinge version)一起用于驾驶场景自适应
一致性损失试图在将域传输的图像重新投影到表示为以下内容的表示空间后保留内容和样式组件:
其中内容CX→Y,CY→X和风格SX→Y, SY→X因素通过传输领域转换图像IX→Y, IY→X中提取,分别通过相同的编码器E和分离器S。这个损失明确鼓励场景结构一致性和艺术领域适应前后外观一致性。
传统上,在(半)监督训练中,GT类标签是作为语义线索提供的,用于指导表示的解纠缠 。然而,我们的框架在没有任何标记数据的情况下训练解纠缠表示。为了以无监督的方式学习解纠缠,我们施加了一种感知损失[18],这被广泛认为是风格转换的典型框架,定义为:
其中LXContent,LYContent是内容损失,LXStyle,LYStyle是风格损失,定义如下:
其中,层集LC、LS是感知网络P的子集。权重参数λ平衡了这两个损失,而G是建立Gram矩阵的函数,给出了每层l的特征[10]。我们还应用了Batch Instance规范化[27],以实现更好的样式化。补充材料中描述了架构的细节。
我们评估了DRANet在第4.1节数字分类和第4.2节驾驶场景分割上的无监督域自适应能力。我们将我们的双向/三向域转移结果与多种最先进的非/半监督域自适应方法进行了比较。我们还在4.3节中进行了一项广泛的消融研究,以证明每个建议模块的有效性。对于评估,我们使用与现有无监督域适配相同的训练和测试集的标准分割[2,39]。我们使用DRANet生成的程式化的源训练集训练一个任务分类器,并评估其在目标域测试集上的性能。我们在补充材料中描述了训练细节。
表1。数字自适应网络与最先进的数字分类方法的结果比较。我们报告了双向和三向域适应的性能。请注意,我们的(双向)和(三方)分别使用两个模型(MNIST-USPS, MNIST-MNISTM)和一个模型(MNIST-USPS- mnistm)来评估所有四个领域适应任务。
图4。从MNIST到MNIST- m的各个领域的例子转移。(a)左上角图像为数字2的源图像,其余为目标图像。(b)域传输图像。
图5,MNIST与MNIST- m的内容相似度。
与现有的单个模型负责一个方向上的领域自适应方法不同的是,而我们的单个模型能够处理多方向的领域自适应。我们通过使用三个数字数据集(MNIST[19]、MNIST- m[9]和USPS[16])跨多个域传输图像,证明了DRANet的多功能性。我们训练我们的模型进行双向域适应(MNIST到MNIST- m或USPS,及其相反方向),如图2所示。我们还对自适应模型进行了三向训练(MNIST到MNISTM和USPS,以及它们的相反方向),结果如图3所示。请注意,在训练过程中,我们没有明确地将mist - m和USPS之间的域转移,但结果表明,DRANet也适用于两者之间的适应
如表1所示,我们的模型无论在两个或三个领域训练,都优于所有竞争方法[39,15,2,21,37,3,9]。结果还表明,除了USPS对MNIST的实验外,我们的模型甚至比只对目标训练的模型具有更高的性能。这是因为DRANet使用一个源图像增加的图像数量与目标图像数量相同,如图4所示。基于dranet的数据增强使得分类器比仅针对目标的模型更加健壮。此外,我们在图5中显示了内容相似度矩阵,它揭示了我们的模型如何很好地将表示分解为内容和样式组件。我们分别使用MNIST和MNIST- m中10张内容相似的图像,观察到混淆矩阵的对角线值最高。我们还观察到,两个数字1的样本中,两个较高的值都在50%左右。结果表明,我们的模型在保持各领域特征的同时,解决了内容和风格的表示问题。
图6。在驾驶场景中,领域适应性是由单一的车载网络引起的。(a)、©原始图像。(b)、(d)传输图像。
表2。将DRANet与最先进的语义分割领域自适应方法的结果进行比较。我们也报告了有和没有内容自适应域转移(CADT)的DRANet的性能。
图7。从GTA5到cityscape的语义分割结果。请注意,我们没有使用任何GT分割标签训练DRANet。
为了展示DRANet在复杂现实场景中的适用性,我们使用了GTA5[29]和cityscape[5],其中包含了带有密集注释的驾驶场景图像。我们使用GTA5中的24966张图像和cityscape训练集中的2975张图像来训练我们的模型,并使用19个常见的类来训练DRN-26[40]以适应真实环境。从图6的结果可以看出,我们的模型在保持源图像场景结构的同时,按照目标图像的艺术外观生成风格化的图像。我们还评估了语义分词的领域自适应性能。表2中的定量结果表明,我们的模型在三个主要的语义分割指标上都取得了最先进的性能:mIoU、fwIoU和像素精度。在19个分类标签中,我们的方法在14个类别上优于竞争对手的方法。特别是天空标签的精度有了很大的提高。我们认为,我们为保持场景结构而设计的模型可以稳定地生成如图6所示的域传输图像,并引领了如图7所示的性能提升。
表3。对分离器设计进行烧蚀研究,以验证非线性在表征解缠(非线性)和分布尺度参数(归一化)方面的有效性。
我们结合特征映射的非线性和域归一化因子两个关键思想设计了分离器。为了显示这些关键贡献的有效性,我们在我们的框架中设置了4个有/没有非线性和标准化因子的实验设置。我们评估DRANet在每个集合中的两个双向域转移任务(一个在MNIST和USPS之间,另一个在MNIST和MNIST- m之间)。我们比较了在无监督域自适应下每个案例的分类结果。如表3所示,我们的模型在四种不同的设置下,同时考虑非线性和归一化因子的性能最好。在MNIST和MNIST- m之间的适配任务中,由于两个数据集包含相同的内容表示,所有的模型,即使没有非线性和归一化因子,也能产生合理的性能。请注意,MNIST- m是针对无监督域自适应提出的MNIST的一种变体,它在保持每个MNIST数字[9]的同时替换了图像的背景。然而,MNIST和USPS在每一种情况下的适配都有很大的差距,它们有明显不同的内容表示。没有这两个组件的模型会导致其中一个组件的分类性能较差。这意味着该模型只能适应方向域适应(MNIST适应USPS或USPS适应MNIST),就像现有方法所做的那样。非线性和归一化两种情况下的模型性能都有所提高,而两种情况下的模型性能最好。我们的经验证明,非线性映射提供了更好的表示解纠缠和急剧的性能改进。由于在[31]中证明了特征的非线性映射函数的优点,我们认为非线性对表示的清晰分离有相当大的作用。我们还表明,标准化因子进一步提高了自适应性能。我们可以得出结论,这两个因素在表征解纠缠和无监督域适应中发挥重要作用。
图8。基于内容自适应域转移(CADT)和普通域转移(DT)的图像合成比较
本小节展示了我们的CADT在领域适应方面的两个优势。一是它防止了模型被不良的训练样本训练,二是它鼓励模型生成更好的程式化的图像。在培训的早期阶段,分隔符不能清楚地将内容和样式组件分开,这意味着每个分隔符并不仅仅包含其相同的信息。因此,模型在训练早期会生成内容混合的图像,特别是当两幅图像的内容相差很大时,可能会欺骗判别器,干扰训练。这些优势可以在图8中观察到,图8显示了在少于1000次迭代的情况下,有无CADT训练的模型的结果的对比。图8-(a)为源图像(GTA5),图8-(d)包含多个小批量目标图像(cityscape)。右下角的数字表示与源图像的内容相似度。我们分别在图8-(b)、©中展示了使用/不使用CADT时的域传输图像。图8-©的结果是通过对图8-(d)中最右边的目标图像的域进行调整,得到的相似度最低的图像。结果表明,在合理合成图像的同时,由于正常的区域转移,在训练早期会产生明显的伪影。这意味着,即使只是几个迭代,CADT也可以帮助分解表示。通过比较使用和不使用CADT的域适应结果,我们还在表2中显示了使用CADT对总体性能的改善。该表显示了我们的内容自适应域转移的有效性。
本文提出了一种新的网络结构DRANet,它将单个特征表示分解为内容和风格两个因素,并通过应用另一个领域的风格特征来转移领域。与传统的专注于领域间特征关联的方法不同,我们先学习每个领域的特征,然后将特征分离为两个组成部分。这种设计使我们能够用单一的模型进行多方向的域转换。此外,我们的方法不需要任何用于适应域的类标签。本工作的另一个贡献是提出了一种内容自适应域传输方法,从复杂的场景结构中合成更真实的图像。大量实验表明,该模型综合了跨域传输的视觉愉悦图像,提高了分类和语义分割的性能。我们也证明了所提出的方法优于最先进的领域自适应方法,尽管没有任何标记数据用于训练。
我们在算法1中总结了我们的训练算法。我们首先学习所有鉴别器D∈D,使对抗损失最大化,其中D是鉴别器的集合。然后,我们学习编码器E、分隔符S和生成器G,以最小化重构函数、一致性函数、对抗函数和感知函数。为了学习的平衡,我们对E、S和G运行两次学习迭代,而对D运行一次学习迭代。
经过训练的网络生成从源域X传输到目标主域Y的域适应图像IX→Y,用于训练任务网络T。在本文中,我们训练了一个分类网络或一个分割网络
其中YX是源图像IX对应的ground-truth标签。注意,我们没有使用目标域Y的ground-truth标签来训练任务网络,训练后,我们使用目标域测试集来评估任务网络的性能。我们使用一个典型的softmax交叉熵损失作为分类和分割的任务损失。为了进一步提高任务网络的性能,我们在每一次DRANet训练中都对任务网络进行训练。我们使用学习速率为1e-3的Adam优化器来学习局域网中的所有网络。为了学习分类网络,我们使用了随机梯度下降(SGD)优化器,学习率为5e-4,动量为0.9。为了学习分割网络,我们使用了学习率为2.5e-4和动量为0.9的SGD优化器。
我们使用32批调整大小为64 × 64的样本进行数字适配,使用2批调整大小为512 × 1024的样本进行驱动场景适配。我们的网络架构如图2所示。为了稳定训练,我们将谱归一化[6]应用于生成器和鉴别器中除残差块外的所有层。我们发现,在我们的框架中,批处理实例规范化(batch instance normalization)[7]比批处理规范化(batch instance normalization)[4]和实例规范化(instance normalization)[10]更有效。我们使用imagenet预处理的VGG-19网络[9]作为感知网络,计算relu4 2层的内容感知损失和relu1 1、relu2 1、relu3 1、relu4 1层的风格感知损失。我们设置与特征F相同大小的特定于领域的尺度参数,并对尺度进行逐元素乘法。
图3为本文对图8的放大视图,便于比较。具体来说,图的第一行显示了来自GTA5数据集[8]的源图像,它分别是使用CADT和不使用CADT变换后的图像,以及来自cityscape数据集[1]的随机选择的目标图像。第二行和第三行显示第一行中相应图像的放大视图。如主文图8所示,在推理时刻使用四幅目标图像进行CADT,得到图3-(b),而使用图3-(d)中不使用CADT的目标图像,得到图3-©。如图3-(b)所示,采用CADT的模型成功地生成了视觉上令人满意的结果,无伪影。另一方面,图3-©显示了图3-(d)中目标图像与源图像语义上的距离。这一结果表明,图3-(d)中的样式特征具有内容相关信息。我们发现,CADT在训练我们的网络方面特别有效。具体来说,它可以帮助网络更好地学习图像内容与风格的分离,最终得到更好的域自适应结果,如图3所示。
图3。基于内容自适应域转移(CADT)和普通域转移(DT)的图像合成比较。
[1] Shai Ben-David, John Blitzer, Koby Crammer, and Fernando Pereira. Analysis of representations for domain adaptation. Advances in Neural Information Processing Systems (NIPS), 19:137–144, 2006. 1, 2
[2] Konstantinos Bousmalis, Nathan Silberman, David Dohan, Dumitru Erhan, and Dilip Krishnan. Unsupervised pixellevel domain adaptation with generative adversarial networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3722–3731, 2017. 1, 2, 5, 6
[3] Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, and Dumitru Erhan. Domain separation networks. In Advances in Neural Information Processing Systems (NIPS), pages 343–351, 2016. 2, 5, 6
[4] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), pages 2172–2180, 2016. 1
[5] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3213–3223, 2016. 2, 6
[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 248– 255. Ieee, 2009. 1
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, volume 1 (Long and Short Papers), page 4171–4186, 2018. 1
[8] Ahmed Elgammal and Chan-Su Lee. Separating style and content on a nonlinear manifold. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages 478–485. IEEE, 2004. 2, 3
[9] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Franc ¸ois Laviolette, Mario Marchand, and Victor Lempitsky. Domain-adversarial training of neural networks. The Journal of Machine Learning Research, 17(1):2096–2030, 2016. 1, 2, 5, 6, 7
[10] Leon Gatys, Alexander S Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 262–270, 2015. 5
[11] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, 2016. 2
[12] Abel Gonzalez-Garcia, Joost V an De Weijer, and Y oshua Bengio. Image-to-image translation for cross-domain disen tanglement. In Advances in Neural Information Processing Systems (NIPS), pages 1287–1298, 2018. 2, 3
[13] Ian Goodfellow, Y oshua Bengio, Aaron Courville, and Y oshua Bengio. Deep learning. 1(2), 2016. 1
[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Y oshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), pages 2672– 2680, 2014. 1, 2
[15] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei Efros, and Trevor Darrell. Cycada: Cycle-consistent adversarial domain adaptation. In International Conference on Machine Learning (ICML), pages 1989–1998. PMLR, 2018. 1, 2, 5, 6, 7
[16] Jonathan J. Hull. A database for handwritten text recognition research. IEEE Transactions on pattern analysis and machine intelligence, 16(5):550–554, 1994. 5
[17] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1125– 1134, 2017. 5
[18] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In Proceedings of European Conference on Computer Vision (ECCV), pages 694–711. Springer, 2016. 5
[19] Yann LeCun, Léon Bottou, Y oshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 5
[20] Jae Hyun Lim and Jong Chul Ye. Geometric gan. arXiv preprint arXiv:1705.02894, 2017. 5
[21] Ming-Y u Liu and Oncel Tuzel. Coupled generative adversarial networks. In Advances in Neural Information Processing Systems (NIPS), pages 469–477, 2016. 1, 2, 5, 6
[22] Yen-Cheng Liu, Y u-Ying Yeh, Tzu-Chien Fu, Sheng-De Wang, Wei-Chen Chiu, and Y u-Chiang Frank Wang. Detach and adapt: Learning cross-domain disentangled deep representation. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8867–8876, 2018. 2, 3
[23] Mingsheng Long, Y ue Cao, Jianmin Wang, and Michael Jordan. Learning transferable features with deep adaptation networks. In International Conference on Machine Learning (ICML), pages 97–105. PMLR, 2015. 1, 2
[24] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014. 1
[25] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Y uichi Y oshida. Spectral normalization for generative adversarial networks. International Conference on Learning Representations (ICLR), 2018. 5
[26] Takeru Miyato and Masanori Koyama. cgans with projection discriminator. International Conference on Learning Representations (ICLR), 2018. 5
[27] Hyeonseob Nam and Hyo-Eun Kim. Batch-instance normalization for adaptively style-invariant neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 2558–2567, 2018. 5
[28] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. International Conference on Learning Representations (ICLR), 2016. 1
[29] Stephan R Richter, Vibhav Vineet, Stefan Roth, and Vladlen Koltun. Playing for data: Ground truth from computer games. In Proceedings of European Conference on Computer Vision (ECCV), pages 102–118. Springer, 2016. 2, 6
[30] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. In Advances in Neural Information Processing Systems (NIPS), pages 2234–2242, 2016. 1
[31] Bernhard Schölkopf, Alexander Smola, and Klaus-Robert Müller. Kernel principal component analysis. In International conference on artificial neural networks, pages 583– 588. Springer, 1997. 8
[32] Baochen Sun and Kate Saenko. Deep coral: Correlation alignment for deep domain adaptation. In Proceedings of European Conference on Computer Vision (ECCV), pages 443–450. Springer, 2016. 1, 2
[33] Joshua B Tenenbaum and William T Freeman. Separating style and content with bilinear models. Neural computation, 12(6):1247–1283, 2000. 2
[34] Dustin Tran, Rajesh Ranganath, and David M Blei. Deep and hierarchical implicit models. arXiv preprint arXiv:1702.08896, 2017. 5
[35] Luan Tran, Kihyuk Sohn, Xiang Y u, Xiaoming Liu, and Manmohan Chandraker. Gotta adapt’em all: Joint pixel and feature-level domain adaptation for recognition in the wild. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2672–2681, 2019. 2
[36] Eric Tzeng, Judy Hoffman, Trevor Darrell, and Kate Saenko. Simultaneous deep transfer across domains and tasks. In Proceedings of IEEE International Conference on Computer Vision (ICCV), pages 4068–4076, 2015. 1, 2
[37] Eric Tzeng, Judy Hoffman, Kate Saenko, and Trevor Darrell. Adversarial discriminative domain adaptation. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7167–7176, 2017. 1, 2, 5, 6
[38] Eric Tzeng, Judy Hoffman, Ning Zhang, Kate Saenko, and Trevor Darrell. Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474, 2014. 1, 2
[39] Shaokai Ye, Kailu Wu, Mu Zhou, Y unfei Yang, Sia Huat Tan, Kaidi Xu, Jiebo Song, Chenglong Bao, and Kaisheng Ma. Light-weight calibrator: a separable component for unsupervised domain adaptation. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 13736–13745, 2020. 1, 2, 5, 6, 7
[40] Fisher Y u, Vladlen Koltun, and Thomas Funkhouser. Dilated residual networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 472–480, 2017. 6
[41] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In International Conference on Machine Learning (ICML), pages 7354–7363. PMLR, 2019. 5
[42] Rui Zhang, Sheng Tang, Y u Li, Junbo Guo, Y ongdong Zhang, Jintao Li, and Shuicheng Yan. Style separation and synthesis via generative adversarial networks. In Proceedings of the 26th ACM international conference on Multimedia, pages 183–191, 2018. 1, 2
[43] Yexun Zhang, Ya Zhang, and Wenbin Cai. Separating style and content for generalized style transfer. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8447–8455, 2018. 2
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. In Proceedings of IEEE International Conference on Computer Vision (ICCV), pages 2223–2232, 2017. 6
[45] Yang Zou, Xiaodong Yang, Zhiding Y u, BVK Kumar, and Jan Kautz. Joint disentangling and adaptation for crossdomain person re-identification. Proceedings of European Conference on Computer Vision (ECCV), 2020. 2, 3