Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks 马尔科夫生成对抗网络

Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks

马尔可夫生成对抗网络(MGANs)用于训练有效纹理合成的生成神经网络

 

摘要

本文提出了马尔可夫生成对抗网络(MGANs),一种用于训练有效纹理合成的生成神经网络的方法。尽管深度神经网络方法最近在合成质量方面表现出显着的结果,但它们仍然具有相当大的计算成本(低分辨率图像运行时间的分钟数)。我们的论文解决这个效率问题。我们预先计算了一个前馈跨步卷积网络,该网络捕捉马尔可夫块的特征统计量,并能够直接生成任意维度的输出,而不是先前的工作中的数值反卷积。这种网络可以直接将棕色噪音解码为纹理质感,或者将照片直接解码为艺术画。通过对抗训练,我们获得的质量可与近期的神经纹理合成方法相媲美。由于不再需要进行优化,因此我们的运行时性能(25MHz下的0.25M像素图像)显着优于先前的神经纹理合成器(速度提高至少500倍)。我们将这个想法应用于纹理合成,样式转换和视频风格化。

 

1 简介

图像合成是计算机图形学和视觉中的一个经典问题[6,33]。关键的挑战是以简明,可学习的模式捕捉复杂类别图像的结构,并找出用于学习这些模型和合成新图像数据的高效算法。大多数传统的“纹理合成”方法使用马尔科夫随机场(MRF)模型来解决复杂性约束,该模型通过局部像素块的统计来表征图像。

 

最近,基于深度神经网络的生成模型已经展示了图像合成的新视角[10,8,11]。深层体系结构捕捉对象类中的外观变化,超出了像素级方法的能力。但是,从有限的培训数据中可以学到多少结构还有很大的局限性。目前,我们有两类主要的“深层”生成模型:1)生成完整图像的全图像模型[10,3]; 2)也合成纹理的马尔可夫模型[8,21]。

 

第一类的全图像模型通常被设计为经过特殊训练的自动编码器[16,11]。结果令人印象深刻,但局限于相当小的图像(通常约64×64像素),细节保真度有限。第二类是深马尔可夫模型,仅捕获局部块的统计信息,并将它们组装成高分辨率图像。因此,细节的保真度是好的,但如果应该重现非平凡的全球结构,则需要额外的指导[6,12,1,8,21]。我们的论文讨论了深马尔可夫纹理合成的第二种方法。

 

以前的这种类型的神经方法[8,21]建立在去卷积框架之上[37,25]。这很自然地提供了块和复杂的复用的混合,允许重用像VGG网络[30]这样的大型,受过判别训练的神经网络的错综复杂的多层次特征表示,并将它们重新用于图像合成。作为一个方面说明,我们稍后会观察到,这对高质量结果是非常重要的(图10)。 Gatys等人[8]通过用更高级的特征向量的全局高斯模型建模块统计来开创这种方法,并且Li等人[ [21]利用扩展的局部神经激活块字典,视觉现实主义的折衷灵活性。

 

深马尔可夫模型能够产生显着的视觉效果,远远超过传统的像素级MRF方法。不幸的是,反卷积方法的运行时成本仍然非常高,需要迭代反向传播以估计特征激活(更高网络层)的pre-image(像素)。在对高级功能修补程序的MRF进行建模的最昂贵的情况下,高端GPU需要几分钟才能合成低分辨率图像(例如512×512像素图像)。

 

因此,我们的论文的目的是提高深马尔可夫纹理合成的效率。关键的想法是通过将一个跨越式卷积网络[31,29]应用于反演过程来预先计算网络的反演,该反演过程纯粹以前馈方式进行。尽管接受了固定大小的块的训练,但生成的网络可以生成任意维度的连续图像,而无需任何额外的优化或混合,从而生成具有特定风格和高性能的高质量纹理合成器2。

 

我们使用对抗训练来训练卷积网络[29],它可以保持图像质量,类似于原始的昂贵的优化方法。因此,我们获得了显着的提速:我们的GPU实现在40ms内(在nVidia TitanX上)计算512 512个图像。关键的限制当然是为每种纹理风格预先计算前馈卷积网络。尽管如此,对于许多潜在的应用来说,这仍然是一个有吸引力的交换,例如来自艺术形象或视频风格的领域。我们在我们的实验中探索一些这些应用。

 

2相关工作

 

已经引入反卷积神经网络来可视化深度特征和对象类。 Zeiler等人反向投影(首先计算某一特征的直方图模型,然后使用模型去寻找图像中存在的该特征)神经激活到像素。马亨德兰等人。 [23]从中间层的神经编码重建图像。最近,努力提高深度可视化的效率和准确性[36,26]。 Mordvintsev et al。已经引起了广泛关注,展示了类特异性激活的解卷积如何能够从判别网络中产生致幻图像[25]。获得的视觉模式令人惊讶的复杂性立即激发了新的生成模型的希望:Gatys et al。 [8,7]通过更高网络层上的特征向量的全局协方差统计驱动反卷积,在艺术风格转移中获得前所未有的结果。统计模型具有一些局限性:强化每个特征向量的统计特性允许将实际图像中从不出现的特征模式混合在一起,并限制学习纹理的合理性。这可以通过用特征激活的空间块的统计来替换逐点特征统计来部分解决[21]。这允许在某些情况下进行照片般真实的合成,但也会降低不变性,因为简单化的修补程序字典会引入刚性。在理论方面,谢等人。 [34]已经证明,一个生成的随机场模型可以从使用的判别网络中导出,并且可以显示非导向纹理合成的应用。

 

全图像方法采用经过特殊训练的自动编码器作为生成网络[16]。例如,生成敌对网络(GANs)使用两个网络,一个作为判别器,另一个作为发生器,通过玩极小型游戏来迭代地改进模型[10]。该模型被扩展为与拉普拉斯金字塔[9]以及条件设置[3]一起工作。最近,Radford等人[29]提出了一组架构优化3,稳定了这个模型的性能,并且证明了这些生成器具有向量算术性质。对抗网络的一个重要优势是它提供了感知指标[20,4],可以使自动编码器更有效地进行训练。这些模型也可以是增强的语义属性[35],图像标题[24],三维数据[5,17],空间/时间状态[11,13,27]等。

 

在最近的两个同时工作中,Ulyanov等人[32]和约翰逊等人。 [14]提出了Gatys等人的方法的快速实现。他们的两种方法都采用预先计算的解码器进行训练,感知纹理损失,并获得显著的运行时间优势(更高的解码器复杂度会降低它们的速度)。本文的主要概念差异是利用Li等人[21]的特征块统计学,而不是学习单个特征向量的高斯分布,这在更忠实地再现纹理方面提供了一些益处。

 

1:动机:真实世界的数据并不总是符合高斯分布(第一),而是一个复杂的非线性流形(第二)。 我们对对方学习了一个映射,以便将与上下文相关的补丁映射到该多方面。

 

3 模型

 

让我们首先从概念上激发我们的方法。基于统计的方法[8,32]将源(输入的照片或噪声信号)和目标(纹理)的分布与高斯模型(图1,第一)相匹配。一旦两个分配匹配,他们不会进一步改进结果。然而,真实世界的数据并不总是符合高斯分布。例如,它可以遵循复杂的非线性流形。对抗训练[10]可以通过其判别网络识别这种流形(图1,第二),并通过对流形上的投影来增强其生成能力(图1,第三)。我们使用上下文对应的马尔可夫块改进对抗训练(图1,第四)。这使得学习可以专注于同一背景下不同描述之间的映射,而不是混合上下文和描述。

 

2显示了我们的流水线,它扩展了Li等人基于块的合成算法。 [21]。我们首先用连续的判别网络D(绿色块)替换他们的块字典(包括迭代最近邻居搜索),该网络学习可以从不适当合成的块中判别实际特征块(在VGG 19Relu3 1,紫色块)。在较高的,更抽象的层Relu5 1上的第二比较(低于D的管线)与VGG19编码相同的图像可以可选地用于指导。如果我们对VGG网络(来自判别器和可选的引导内容)执行反卷积,我们获得反卷积图像合成器,其我们称之为马尔可夫解卷积对抗网络(MDANs)。

 

MDAN仍然非常缓慢;因此,我们的目标是增加一个生成网络G(蓝色块;一个跨步卷积网络)。它需要对图像进行VGG 19Relu4 1编码,并将其直接解码为合成图像的像素。在所有的训练过程中,我们不改变VGG19网络(灰色块),并且只对DG进行优化。重要的是,DG都被同时训练以最大化G的质量; D作为G的对手。我们用马尔可夫生成敌对网络(MGAN)来表示整体架构。

 

2:我们的模型包含一个生成网络(蓝色块)和一个判别网络(绿色块)。 我们对马尔可夫神经块(紫色块作为判别网络的输入)应用判别式训练。

 

3.1马尔科夫反卷积对抗网络(MDANs

我们的MDAN通过对抗训练驱动的去卷积过程合成纹理:训练判别网络D(图2中的绿色块)以判别从合成图像中采样并从示例图像中采样的“神经块”。我们使用VGG 19Relu3 1的输出层(紫色块)进行定期采样。它为每个神经块输出一个分类得分s = +-1,指示该斑块是多么“真实”(s = 1时是真实的)。对于从合成图像中采样的每个块,1-s是其纹理损失最小化。反卷积过程将这种损失反向传播到像素。像Radford等人一样。 [29]我们使用批量归一化(BN)和泄漏ReLULReLU)来改进D的训练。

 

在形式上,我们用xt属于Rwt×ht表示示例纹理图像,用x属于Rw×h表示合成图像。我们使用随机噪声初始化x来进行非指导性合成,或使用内容图像xc属于 Rw×h进行指导性合成。反卷积迭代地更新x,以使以下能量最小化:

 

这里Et表示纹理损失,其中Φ(x)是从VGG 19的层relu3 1输出的x特征映射。我们从Φ(x)中采样块,并计算Et作为铰链损失,其标签固定为1

 

这里si表示第i个神经片的分类得分,N是Φ(x)中采样片的总数。 判别网络进行实时训练:其参数随机初始化,然后在每次反卷积后更新,因此随着合成结果的提升,它变得越来越智能。

 

公式(1)中的附加正则化矩阵Yx)是像素之前的平滑度[23]。使用EtYx)可以合成随机纹理(图3)。 通过最小化额外的内容损失Ec,网络可以生成与指导图像xc(图4)相关的图像。 该内容损失是两个特征映射Φ(x)和Φ(xc)之间的均方差。我们用α1= 1和α2= 0.0001来设置权重,并且使用ADAM反向传播[15](学习率0.02,动量0.5)来最小化等式1注意每个神经片通过D的反向传播接收它自己的输出梯度。为了在相邻片之间有一个连贯的过渡,我们混合它们的输出梯度,就像纹理优化[18]一样。

 

3:使用MDAN的无引导纹理合成。 对于每种情况,第一个图像是示例纹理,另外两个是合成结果。 图片来源:[34]的“常春藤”,flickr用户erwin brevis的“gell”,Katsushika Hokusai的“关于神奈川的大波浪”,康定斯基的“作文七”。

 

4:使用MDAN的导向纹理合成。 参考纹理与图3中的相同。

 

3.2马氏生成对抗网络(MGAN)

MDAN需要多次迭代并为每个输出图像分别运行我们现在训练一个变分自动编码器(VAE),可以将特征映射直接解码为像素目标示例(带纹理的照片)从MDAN获取。我们的发生器G(图2中的蓝色块)将VGG 19的层Relu4 1作为输入,并且通过普通卷积然后通过分步交错卷积(FS Conv)对图片进行解码。尽管使用固定大小的输入进行训练,生成器自然延伸到任意大小的图像。

 

正如Dosovitskiy等人[4]指出,找到训练自动编码器的好指标非常重要:在像素级使用合成图像和目标图像之间的欧几里德距离(图5,像素VAE)会产生过度平滑图片。在神经编码水平进行比较可以提高结果(图5,神经VAE),对抗训练可以进一步提高预期样式的重现性(图5,MGAN)。

 

我们的方法类似于经典的生成对抗网络(GANs)[10],主要区别是不能在完整图像上运行,而是来自相同图像的神经块。这样做利用了块之间的上下文对应关系,与学习对象类的分布[10]或上下文无关数据[32]之间的映射相比,使得学习更容易,更有效。此外,我们还用最大余量标准(铰链损失)替换[29]中的Sigmoid函数和二元交叉熵标准。这避免了学习D时消失的梯度问题。在我们的例子中,这比Radfort等人的[29]中的问题更为严重,因为我们的训练数据差异较小。因此,Sigmoid函数可以很容易饱和。

 

5:我们的MGAN学习了从输入照片的VGG 19编码到风格化示例(MDAN)的映射。 MDAN的参考样式纹理是Pablo Picasso的“自画像1907”。 我们将MGAN的结果与Pixel VAE和神经VAE的训练和测试数据进行比较。

5(MGANs)显示了一个经过训练的网络的结果,以生产毕加索的“1907年自画像”风格的绘画作品。对于训练,我们从CelebA数据集[22]中随机选择了75张面部照片,并从公共领域随机选择了25张非名人照片。我们调整所有照片的大小,使最大尺寸为384像素。我们通过生成具有不同旋转和比例的每张照片的9份副本来增强训练数据。我们定期从他们那里采样128×128的子窗口进行批处理。总共有24,506个训练样例,每个训练样例都被视为一个训练图像,其中神经块从其relu3 1编码中进行采样作为D的输入。

 

5(顶行,MGAN)显示了我们的训练照片生成网络的解码结果。最下面一行显示网络很好地测试数据。请注意,测试图像的MDAN图像从未在训练中使用。尽管如此,使用G进行直接解码可以很好地逼近它 MDAN与MGAN的主要区别在于:MDAN更好地保留了输入照片的内容,并且MGAN产生了更具风格的结果。这是因为MGANs训练了许多图像,因此学习了最频繁的特征。另一个显而易见的区别是由于其迭代改进,MDAN创建更自然的背景(如平面颜色的区域)。尽管存在这样的缺陷,但MGANs模型的速度可以提高25,000倍,可以产生类似的结果。

 

6显示了一些中间结果MGAN。很明显,解码器通过更多的训练变得更好。经过100次批次后,网络能够了解整体颜色以及强对比区域的位置。在300批次之后,网络开始产生用于笔触的纹理。 1000批次后,它学习如何画眼睛。进一步的训练能够去除结果中的一些重像伪影。注意模型很好地适用于测试数据(右)。

 

 

6:MGAN训练期间的中间解码结果。 MDAN的参考风格纹理是Pablo Picasso的“自画像1907”。

7:可视化生成网络中的学习到的特征。 图片来源:[34]的“常春藤”,flickr用户erwin brevis的“gell”,葛饰北下的“神奈川的大波浪”。

 

 

 

4实验分析

 

我们用我们的模型进行了经验性实验:我们研究参数影响(分层,分块大小)和模型的复杂性(网络层数,每层中的通道数量)。虽然可能没有针对所有纹理的通用优化设计,但我们的研究揭示了该模型在不同情况下的表现。为了公平比较,我们将本研究中的示例纹理缩放为固定尺寸(128×128像素),并要求合成输出为256×256像素。

 

可视化解码器功能:我们将图7中解码器G学习的过滤器可视化。这些特征直接从one-hot输入向量解码。单个块类似于但不是非常忠实地匹配实例纹理(重新确认编码的半分布式和非线性特性)。尽管如此,这种人工反应的视觉相似性似乎足以用于合成新图像。

参数:接下来,我们研究改变输入图层对于判别网络的影响。为此,我们使用判别器D以VGG 19的层relu2 1,relu3 1和relu4 1作为输入来运行无导向的纹理合成。我们对这三个选项分别使用16,8和4的块大小,因此它们具有32个图像像素的相同接受范围(大约忽略填充)。图8中的前三个结果显示了这三个设置的结果。下层(relu2 1)产生更锐利的外观,但是以损失纹理的形式和结构为代价。更高层(relu4 1)更好地保留了粗糙结构(如规律性),但是对于指导性场景而言过于僵硬的风险。 Layer relu3 1在质量和灵活性之间提供了一个很好的平衡。然后我们显示块大小的影响:我们将D的输入层固定为relu3 1,并将块大小4和16与缺省设置8进行比较。图8中的最后两个结果表明这种变化将会也影响模型的刚性:较小的贴片增加了灵活性,较大的贴片保留了较好的结构。

 

8:用于训练辨别网络的不同层和块大小。 输入图片来源:[19]项目链接中的“ropenet”。

复杂性:我们现在研究1)网络层数和2)每层通道数的影响。我们首先通过去除卷积层来改变D.这样做会降低网络的深度,从而降低综合质量(第一列,图9)。使这个卷积层返回产生更平滑的合成(第二列,图9)。然而,在这些例子中,质量没有明显改善,更多的附加层(第三列,图9)。

 

用卷积层的4,64和128个通道测试D,我们通常观察到减少通道数会导致更差的结果(第四列,图9),但是在64通道之间没有显着性差异和128个通道(第二列vs第五列)。复杂性要求也取决于实际纹理。例如,常春藤纹理是一个相当简单的MRF,因此与其他两种情况不同,4通道和64通道之间的差异很小。

 

接下来,我们固定判别网络并改变生成网络的复杂性。从解码器中删除第一个卷积层时,我们注意到一些质量损失,或者减少了所有层的通道数量,而且从更复杂的设计来看,只有非常有限的改进。然而,这种差异不是很重要。这可能是因为网络都是由同一个判别网络驱动的,并且不愿进一步改进表明有一些来自反卷积过程的不重要信息无法通过前馈过程恢复。具体而言,分步交错卷积不模拟最大合并层的非线性行为,因此经常产生别名模式。这些在均质,无纹理的区域变得可见。为了避免伪影,但鼓励纹理变化,我们可以选择性地将Perlin噪声[28]添加到输入图像。

 

 

 

 

9:训练有不同深度的判别网络。 输入的文本是[19],[34]的“Ivy”和Pablo Picasso的“自画像1907”的项目链接中的“ropenet”。

初始化:通常,网络使用随机值进行初始化。但是我们发现D具有一定的泛化能力。因此,为了使用MDAN将相同的纹理传输到不同的图像,以前训练的网络可以用作初始化。图10显示了使用预先训练的判别网络(已经传输了50张人脸图像)进行初始化,结果只有50次迭代。相比之下,即使在前500次迭代之后,随机初始化也不会产生可比的质量。用自动编码器初始化G是非常有用的,它可以直接将输入特征解码为原始输入照片。这样做基本上接近了对VGG 19进行反转的过程,并让整个对抗网络得到更稳定的训练。

VGG的作用:我们也验证了预先培训的VGG 19网络的重要性。正如图10中的最后两张图片所示,从头开始训练一个判别网络(从像素到类别标签[29])的结果显着更差。 Ulyanov等人也观察到这一点。 [32]。我们的解释是,VGG 19的许多统计功能源于为各种图像构建共享特征级联,从而比用有限示例集训练的网络更接近人类视觉感知。

 

5 Results

 

本节介绍我们的MGAN综合结果的例子。我们用来自ImageNet的100个随机选择的图像和单个示例纹理来训练每个模型。我们首先使用MDAN模型生成100幅转换了的图像,然后定期采样128×128图像裁剪作为MGAN的训练数据。总的来说,我们每个模型都有大约16k个样本。训练每一期大约需要12分钟。每一期以随机顺序对所有样本进行最小批次。我们训练每个纹理最多五期。

 

11比较了我们的综合结果和以前的方法。首先,与使用全局统计的方法相比,我们的方法具有非常不同的特征[32,8]:它更加连贯地传递纹理,例如,Lena的头发一直映射到深色纹理。相反,高斯模型[32,8]未能保持这种一致性,并且难以传送复杂的图像内容。例如[32]结果中的眼睛和[8]结果中的整个脸部都没有纹理。由于这些特征不适合高斯分布,因此它们很难被克拉矩阵所约束。由于使用非参数采样,另一种基于局部块的方法[21]产生了最一致的综合。然而,他们的方法需要块匹配,因此速度明显较慢(在110秒内生成384 x 384图片)。我们的方法和Ulyanov等。 [32]以相同的速度运行;与Gatys等人相比,两者都显着提高了速度。 [8](500倍更快)和Li et al。 [21](快5000倍)。

 

 

 

11:与以前的方法比较。 在我们的补充报告中看到更多的例子。 Ulyanov等人的结果。 [32],Gatys等。 [8]和输入图像来自[32]。

12:与Texture Networks [32]的更多比较。 [32]和输入图像的结果来自[32]。

 

12进一步讨论了基于高斯的方法[32]和我们的方法之间的区别。一般来说,[32]在风格图像上产生更忠实的颜色分布。由于从噪声到高斯分布的映射的学习,它还更好地纹理背景(参见繁星之夜的例子)。另一方面,我们的方法产生更多的相干纹理传输,并且不会承受高斯模型对于更复杂场景的不能力,例如两个例子中的正面。相比之下[32]在这样复杂的区域产生太多或太少的纹理。

 

13显示了通过使用训练的模型解码噪声输入可以实现无导向的纹理合成。在这种情况下,Perlin噪声5图像通过VGG 19转发以生成解码器的特征映射。令我们惊讶的是,用随机ImageNet图像训练的模型能够将这些特征图解码为合理的纹理。这再次显示了我们模型的泛化能力。最后,图13显示了我们的视频解码结果。作为前馈过程,我们的方法不仅比快速解卷积方法更快速,而且相对更具时间一致性。

 

 

15:左图:我们的方法和Ulyanov等人之间的速度比较。[32]。 右:我们的方法和Gatys等人之间的速度比较(在对数空间中)。 [8],李等。 [21]和Ulyanov等。[32]。 前馈方法(我们和[32])显着快于Gatys等人。 [8](500倍加速)和李等。 [21](5000倍加速)。

 

最后但并非最不重要的是,我们提供了我们方法的时间/内存使用情况的详细信息。时间测量基于标准基准框架[2](图15):我们的速度与Ulyanov等人的同步工作水平相同。 [32],他们也使用前馈方法,执行速度明显快于之前基于反卷积的方法[8,21]。更确切地说,我们的方法和Ulyanov等人[32]能够以25Hz解码512×512的图像(图15,左图),而[32]以非常小的优势领先竞争。两种方法的时间成本与图像中的像素数成线性比例关系。例如,我们的方法对于256×256的图像需要10ms,对于512×512的图像需要40ms,对于1024×1024的图像需要160ms。两种方法在速度上比先前的反卷积方法如Gatys等人显示出显着的提高。 [8]和李等人。 [21](图15右):比Gatys等人快大约500倍。 [8],比李等人快5000倍。 [21]。同时我们的方法也比大多数传统的基于像素的纹理合成器(依靠昂贵的最近邻居搜索)更快。一个可能的例外是GPU的“Patch Match”[1]实现,它可以以相当的速度运行。然而,它提供了深度神经网络方法的质量效益(更好的混合,不变性)(如以前的工作[8,21]所建立的)。

记忆方面,我们的生成模型为其参数(包括直到层Relu4 1的VGG网络)需要70 Mb内存。在运行时,线性解码图像所需的内存取决于图像的大小:对于256 * 256的图片大约需要600 Mb,对于512 * 512的图片则需要大约

2.5 Gb内存。通过将输入照片细分为块并以扫描线方式运行解码,可以减少内存使用量。但是,我们并没有进一步探讨本文中对内存使用的优化。

 

6 局限性

 

我们目前的方法对非纹理数据的效果不好。例如,它不能在两张不同脸部照片之间传输面部特征。这是因为脸部特征不能被视为纹理,需要语义理解(如表情,姿势,性别等)。一个可能的解决方案是将我们的模型与对象类的学习相结合[29],所以本地统计数据更好地被调节。为了合成照片般逼真的纹理,Li等人[21]由于其非参数采样可以产生更好的结果,从而防止数据失真。但是,他们的模型的刚性限制了其应用领域。我们的方法可以更好地处理可变形纹理,运行速度更快。

与高斯模型相比,我们的模型具有非常不同的特征[8,32]。通过捕捉全局特征分布,这些其他方法能够更好地保留示例纹理的全局“外观和感觉”。相反,我们的模型可能会偏离示例纹理,例如全局颜色分布。然而,当内容图像预期扮演更重要的角色时,这种偏离并不总是很糟糕。

由于我们的模型学习了相同内容的不同描述之间的映射,因此它需要高度不变的特征。出于这个原因,我们使用预先训练的VGG 19网络。这使得我们的方法在处理高度平稳的背景(天空,聚焦区域外)等方面较弱,这是由于它们从VGG 19的弱激活。我们观察到,一般来说,基于统计的方法[32,8]为区域产生更好的纹理内容较弱,而且我们的方法对于包含可识别特征的区域效果更好。我们相信将这两种方法的优势结合起来是未来有价值的工作。

最后,我们讨论MDAN和MGAN结果之间的显着差异。 MGAN的输出通常与示例纹理更加一致,这表明MGAN从大数据学习的优势。由于缺乏迭代优化,MGAN在平坦地区存在薄弱环节。复杂的神经网络等更复杂的体系结构可以引入状态信息,以改善结果。

 

7 结论

 

 

本文的关键洞察力是对抗生成网络可以应用在马尔可夫的背景下,以学习不同描述之间相同内容之间的映射关系。我们开发了一个完全生成的模型,它是从单个纹理示例和从ImageNet随机选择的图像进行训练的。一旦训练完成,我们的模型可以将棕色噪点解码为逼真的纹理,或将照片转换为艺术品。我们展示了我们的模型比基于统计的方法[32,8]在保留复杂图像内容的一致性纹理方面具有某些优势。一旦训练完成(每个示例大约需要一个小时),合成速度非常快,并且可以为样式转换提供非常有吸引力的不变性。

 

我们的方法只是学习图像生成模型方向的一步。未来工作的一个重要途径是研究大数据场景中的更广泛框架,以便不仅学习马尔可夫模型,而且还学习粗糙结构模型。作为一个副作用,这种额外的图像布局不变性可能会为马尔可夫模型使用更多的训练数据打开方法,从而允许更复杂的解码器在更大的类上具有更强的通用性。最终目标将是大量现实世界图像的直接解码,生成图像模型

你可能感兴趣的:(深度学习,纹理重建)