《INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION》阅读笔记

INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION 2019 ICLR

Abstract:

当前的方法无法解决多目标或者转化尺度太大,为了解决这个问题,本文提出实力感知分割和改善多实例目标。该方法既转换了图像,又转换了相应的实例属性集,同时保持了实例的排列不变性。通过引入了一种上下文保持损失,使网络在目标实例之外学习身份函数。还提出了一种顺序小批量推理/训练技术,它使用有限的GPU内存处理多个实例,并增强网络以更好地推广多个实例。

1、Introduction:

当前关于GAN的研究是多样性的,本文重点是换装和多目标。提出了一种新的方法,将多个目标对象的实例信息整合到生成对抗性网络(GAN)的框架中,称之为实例感知GAN(Instagan)。使用对象分割掩码作为实例信息,这可能是实例形状的良好表示,因为它包含对象边界,而忽略其他细节,例如颜色。
主要贡献:
(1)实例增强神经体系结构
(2)上下文保持损失
(3)顺序小批量推理/训练技术
具体来讲:
(1)体系结构可以翻译任意数量的实例属性,条件是输入,并被设计为排列不变的实例顺序。
(2)上下文保持损失使网络专注于翻译中的目标实例,并在它们之外学习一个身份函数。通俗地说,它旨在保持背景上下文,同时转换目标实例。
(3)提出了一种顺序小批量推理/训练技术,即顺序翻译实例属性的小批量,而不是一次完成整个集合。(不是很理解)此外,它还提高了图像的翻译质量,因为它在训练过程中通过产生多个中间样本来增强数据。
此外,之前的工作对于形状不能改变,而本文可以,例如将山羊换成长颈鹿。

2、InstaGan: instance-aware image-to-image translation

给定两个图像域X和Y,图像到图像的转换问题旨在学习不同图像域之间的映射,GXY:X→Y或GYX:Y→X,即转换目标场景,同时保存原始context信息。使用原始数据边缘属性来处理数据的不对称性。
方法的主要和独特的思想是包含附加的实例信息,即增加一组实例属性A的空间到原始图像空间X,以改进image-to-image的翻译。 本文,只使用实例分割掩码,但可以为属性合并任何有用类型的实例信息。
方法可以描述为属性增广空间X×A和Y×B之间的学习联合映射。这导致在图像中分解不同的实例,并允许生成器执行精确和详细的翻译。

2.1、InstaGan Architecture

本文基于CycleGAN来建立InstaGan。但是不是采用对称的x→y和y→x,而是单一的结构。

整体网络结构图,其中实例属性次序不会影响生成结果,但是要一一对应,具体讲a和b一一对应。
提取的特征都有contextual信息
特别注意,图像x和实例属性a对每个神经成分的联合编码是至关重要的,因为它允许网络学习x和a之间的关系。
通过使用联合编码和鉴别器,生成器可以生成与其分割掩码一致的区域上正确描述的实例的图像。所以这是本文的一个亮点

2.2、Training Loss

1、初始GAN损失

domain loss(LLSGAN) == GAN loss (baseline CycleGAN)

2、为保持内容不变,提出content loss

content losses == cycle-consistency loss + identity mapping loss

3、强制翻译实例,通常是保留背景,提出context preserving loss

逐像素L1 loss, 1是背景,0是实例。只考虑非零权重。
we let the weight w(a, b0), w(b, a0) be one minus the element-wise minimum of binary represented instance masks(不是很理解这里的操作)一个减去二进制表示的实例掩码的元素最小值

2.3、Sequential Mini-Batch Translation

为提高泛化能力,提出mini-batch,可以在不增加GPU 内存的前提下训练任意数量的实例。

整个的损失,加上中间迭代的损失。个人觉得是亮点部分,处理多实例采取多次逐步迭代,并且每次迭代都有对应的损失函数。

3、Experimental Results

3.1、Image-To-Image Translation Results

与基准CycleGAN进行比较,在多个数据集上进行比较(CCP,MHP,MS COCO)。通过实验证明,本文的方法在空间布局上和背景信息是更好的。作者还通过微调ImageNet预训练VGG16上最后一层的参数,作为每个域的二进制分类器。(暂时不是很理解,后续通过代码看)

3.2、Ablation Study

逐步加入三个组件 InstaGAN architecture,the context preserving loss Lctx,and the sequential minibatch inference/training technique,证明效果。

Conclusion
提出了一种新的方法,结合一组实例属性的图像到图像的翻译。在不同数据集上的实验表明方法是成功的。

你可能感兴趣的:(《INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION》阅读笔记)