【读书笔记】DA-GAN: Instance-level Image Translation

Abstract

旨在翻译两组独立图像的无监督图像翻译在没有配对数据而找到正确对应方面上具有挑战性。基于GAN展开的研究工作使得翻译图像的分布与目标集合的分布无法区分。然而,这样的集合约束不能学习实例级别的对应关系(例如对象配置任务中对齐的语义部分)。这种限制常常导致误报(例如几何或语义伪像),并进一步导致模式崩溃问题。为了解决上述问题,我们提出了一个由Deep Attention GAN(DA-GAN)提供的用于实例级图像转换的新框架。这样的设计使DA-GAN能够将翻译两个集合的样本任务分解成翻译高度结构化的潜在空间中的实例。具体来说,我们共同学习一个深入关注的编码器,通过参加学习的实例对可以发现实例级别的对应关系。因此,可以在集合级别和实例级别上利用约束条件。与几种现有技术的比较证明了我们的方法的优越性,并且拥有广泛的应用能力(例如,变形,数据增强等),大大推动了域翻译问题的研究进展。

Introduction

研究人员开发无监督学习方法,这种方法仅依赖于未配对的数据。 在无人监督的环境下,我们只有两套独立的样本。 配对关系的缺乏使得寻找正确的对应关系变得更加困难,因此更具挑战性。 现有研究通常建立在生成敌对网络(GAN)上,使得翻译样本的分布与目标集合的分布无法区分。 但是,我们指出数据本身是结构化的。 这样的集合级别限制妨碍了他们找到有意义的实例级别的对应关系。

在这个重要问题的推动下,出现了一个问题:我们可以寻找一种能够在无人监督环境下从集合级别和实例级别中找到有意义对应关系的算法吗? 为了解决这个问题,在本文中,我们介绍了一种专用的无监督域翻译方法,它建立在DA-GAN上,该方法在各种翻译任务中取得成功,并取得了引人注目的结果。

  • 我们将任务分解为实例级别的图像转换,以便通过采用建议的复合损失,可以在实例级别和集合级别上利用约束。
  • 据我们所知,我们是第一个将关注机制整合到生成敌对网络中的研究人员。
  • 我们引入了一个新颖的框架DA-GAN,它产生了引人注目的结果,并且适用于各种各样的任务。

GAN(生成式对抗网络):是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN 理论中,并不要求 G 和 D 都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法,否则可能由于神经网络模型的自由性而导致输出不理想。

GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是:
G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。
D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。
在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。
最后博弈的结果是什么?在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。
这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。
(摘自百度百科)

Approach

【读书笔记】DA-GAN: Instance-level Image Translation_第1张图片
该图用于说明DA-GAN流水线的姿态变形示例。给定从源域S和目标域T两个鸟类的图像,姿态变形的目标是将源姿态转换为目标姿态,同时仍然保持s的身份。
(a)中显示了前馈过程,其中两个输入图像被送到DAE中,并将它们投影到一个潜在空间(用虚线框标记)。然后,G从潜在空间中取出这些高度结构化的表示(DAE(s)和DAE(t)),以生成转换后的样本,即s0 = G(DAE(s)),t0 = G(DAE(t))。
(b)中显示了上述DAE的细节(以橙色块标记)。给定图像X,定位函数floc将首先根据X的特征图(即E(X),其中E是可以以任何形式使用的编码器)预测N个关注区域的坐标。然后在X上产生并激活N个注意掩模以产生N个关注区域。最后,每个区域的功能由实例级别的表示组成。通过在S和T上操作相同的方式,可以在潜在空间中找到实例级别的对应关系。我们利用实例级别和集合级别上的约束条件进行优化,如(c)所示。(d)中列出了所有符号。

Deep Attention Encoder

为了将样本投射到潜在空间中,我们整合了注意机制以共同学习DAE。 给定输入图像X(其中E是可以以任何形式使用的编码器)的特征映射E(X),我们首先采用定位函数floc(·)来预测一组关注区域的位置,即由:

floc(E(X))=[xi,yi]Ni=1 f l o c ( E ( X ) ) = [ x i , y i ] i = 1 N ′

其中[xi,yi]表示区域的中心坐标,N’表示预测区域的数量。

然后我们可以通过以下方式来采用参加区域的参数化:
【读书笔记】DA-GAN: Instance-level Image Translation_第2张图片

然后,在潜在空间中的X的实例级表示被定义为:
这里写图片描述

利用sigmoid函数,得到Mi如下:
这里写图片描述

Instance-Level Image Translation

由于DAE将s和t投射到一个共享的潜在空间中,我们可以让它们在这个潜在空间中相互匹配。 因此,我们对源域样本 {Si}Ni=1 { S i } i = 1 N 和相应的翻译样本 {Si}Ni=1 { S i ′ } i = 1 N 采用一致性损失:
这里写图片描述

另一方面,我们也考虑来自目标域的样本以进一步强制映射为确定性的。理论上,如果一个映射是双射的(一对一对应的),则从一个集合到它自身的操作形成一个对称组。 然后可以将映射视为对其本身的置换操作。 因此,我们利用对称性损失来强制F可以将样本从T映射到它们自身,即ti ≈ F(ti)。 损失函数被定义为:
这里写图片描述

Set-Level Image Translation

使用鉴别器D1直接区分目标域 {t}Mi=1 { t } i = 1 M 中的翻译样本 {Si}Ni=1 { S i ′ } i = 1 N 和实际样本,并且生成器被迫翻译与目标域中的真实样本不可区分的样本,其由以下给出:
【读书笔记】DA-GAN: Instance-level Image Translation_第3张图片

这里写图片描述

Full Objective and Implementation Details

【读书笔记】DA-GAN: Instance-level Image Translation_第4张图片

我们采用由多个残余块组成的发生器[12]。 对于生成器,实例级别表示沿着通道维度级联并馈送到多个残余块。 最后,使用一系列上采样层来生成翻译图像。 对于鉴别器,生成的图像通过一系列下采样块输入。 最后,使用一个节点的完全连接层来产生决策分数。 上采样块由最近邻居上采样,然后是3×3步长1卷积组成。 批量标准化和ReLU激活在除最后一个之外的每个卷积之后应用。 残差块由3×3步长1卷积,批量归一化和ReLU组成。 所有网络均使用Adam解算器进行训练,批量大小为64,初始学习率为0.0002。

Conclusion

在本文中,我们提出了一种新的无监督图像翻译框架。 我们的直觉是将翻译两个集合中的样本的任务分解成翻译高度结构化的潜在空间中的实例。 通过将关注机制集成到GAN中,可以找到实例级的对应关系。 广泛的定量和定性结果证实,上述的DA-GAN可以显著提高图像到图像平移的艺术水平。 它在应用程序的可扩展性方面具有优势,并成功生成引人注目的图像。 我们发现,一些失败案例是由不正确的关注结果造成的。 这是因为这些实例是通过弱监督的注意机制来学习的,有时候这种机制与完全监督下的学习有很大差距。 为了应对这一挑战,我们可能会在未来寻求更健壮和有效的算法。

你可能感兴趣的:(科研实训)