【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)

项目主页 | Code | 论文

中文解读参考: 量子位 | 鬼道2022博客

InsetGAN 不一定限于创造人类,它是使用两个不相关的 StyleGAN2 生成器的一般策略,其中一个(插图)用于改善另一个(画布)的子区域的视觉细节。 我们的论文在人体和面部的实际用例中展示了这种方法。

2203.InsetGAN for Full-Body Image Generation

  • 在模型stylegan2-ada进行改进
    【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第1张图片
    图1:InsetGAN的功能。我们的全身人物生成器,能生成1024x1024高清的全身人像。。
    但,(a)能看到明显的人工痕迹,最明显在四肢和脸部(extremities and face)
    (b),我们利用第二个专门的生成器,来无缝地(seamlessly)改善面部区域
    (c),我们也可以使用一个给定的脸作为无条件生成身体的输入。
    (d), 同时选择不同的脸和身体,进一步拼接。

摘要

虽然GANs可以在某些领域的理想条件下( ideal conditions)生成逼真的(photo-realistic)图像,但由于身份( identities,)、发型、服装和姿势的差异,生成全身的人体图像仍然困难

核心思想:不使用单个GAN对复杂的域进行建模,我们提出一种新的方法结合多个预先训练过的GAN,其中一个生成一个总体画布(如人体)和一组专门的GAN,或插入(inset),关注不同的部分(例如,脸、鞋子),这些部分可以无缝地插入到总体的画布。

我们将这个问题建模为共同探索(jointly exploring)各自的潜在空间(respective latent spaces),这样生成的图像就可以被组合起来,通过插入来自专门的生成器(specialized generators)的部分到全局画布上(global canvas),而不引入接缝(seams)。

我们通过将一个全身的GAN和一个专用的高质量的面部GAN相结合来演示这个设置,以生产出看似可信的人。

我们用定量指标(quantitative metrics)和用户研究来评估(evaluate)我们的结果。

1 引言

一种方法是将目标图像分解成平贴图(tiles,原意瓦片平贴图),并训练一个GAN按顺序生成它们

  • [7] TileGAN: Synthesis of Large-Scale Non-Homogeneous Textures
  • 然而,这种方法不适用于(对象)部分之间的耦合是非局部的和/或不能很容易地进行统计建模的情况。

另一种方法是收集非常高分辨率的图像,并在全分辨率下训练单个GAN。这使得数据收集和训练任务非常昂贵,而且对象配置/姿态的变化导致了进一步的挑战。据我们所知,这样的高分辨率数据集和相应的高分辨率GAN架构都没有发布

InsetGAN思想

我们建议将一个生成器结合起来,以画布的形式提供全局上下文(global context),以及一组为不同感兴趣区域提供细节的专门部件生成器 (specialized part generators), 以插图的形式粘贴到画布上,以生成最后j结果。

优点

  1. 画布GAN可以在中等质量的数据上进行训练,其中对象的局部不一定需对齐(not necessarily aligned)。虽然这导致画布上的个别部分有些模糊(例如,人体的模糊/扭曲的(fuzzy/distorted faces)脸),但这足以为以后插入的特定部分提供全局协调。
  2. 专门的部分可以根据特定部分的数据进行训练,这样可以更容易地实现一致的对齐;
  3. 不同的画布/零件gan可以在不同分辨率下进行训练,从而降低了数据(质量)要求。CollageGANs [20]在条件下探索了类似的想法。给定一个提供有用的形状和对齐提示的语义映射,他们使用特定于类的gan的输出集合创建一个拼贴图. 相比之下,我们的工作集中在无条件设置上,这更具挑战性,因为我们的多个生成器需要相互协作,以一起生成连贯的形状和外观,而无需访问提示的语义映射。

难点

当边界条件是非普通的(nontrival),并且插入的边界本身是未知的时,这方面尤其具有挑战性。。例如,当一张脸添加到身体时,应该具有一致的肤色、衣服边界和头发流。我们通过在(预训练)的画布和局部GAN中联合寻找潜在代码(jointly seeking latent )来解决这个问题,这样通过在画布上插入部分插图而形成的最终图像就不会显示任何接缝

2 相关工作

无条件的图像生

对于ImageNet数据集上的类条件(class-conditional)图像生成,BigGAN常是首选的架构
本文采用 StyleGAN2-ADA 因为更好的FID、准确率和召回率在我们的域对比stylegan3而言。
此外,使用StyleGAN2生成完整的人体图像是我们希望在工作中改进的一个基线

图像修复

图像外画((Image outpainting)是指缺失的像素不被可用的像素包围的图像补全(image completion)问题。

但我们发现GAN架构CoModGAN在图像输出方面有更令人印象深刻的结果(见Sec5的比较)

  • Large scale image completion via Co-Modulated generative adversarial networks. In International Conference on Learning Representations (ICLR), 2021

全身人类的条件生成

  • 两个有点:首先,条件生成可以实现更多的控制。第二,条件生成可以帮助控制可变性,提高视觉质量
  • 在人类的背景下,一个自然的想法是根据人类的姿势来调节
    [26] Learning realistic human reposing using cyclic self-supervision with 3D shape, pose, and appearance consistency
    [28] Appearance and Pose-Conditioned human image generation using deformable GANs

开发新架构的另一种替代方法是有条件地嵌入到无条件生成器的潜在空间中.在此环境中使用的两种方法是使用优化的StyleGAN嵌入或者一个编码器结构
styelagan embeding using optimization
StyleGAN embeding using an encoder articture
本文使用了上述两种技术

  • [1] Image2StyleGAN: How to embed images into the stylegan latent space?
  • [2] Image2StyleGAN++: How to edit the embedded images?
  • [3] Restyle:A residual-based stylegan encoder via iterative refinement
  • [25] pixel2style2pixel: Designing an encoder for stylegan image manipulation
  • [30] e4e:Designing an encoder for stylegan image manipulation

3 方法

我们提出了一种使用一个或多个独立的预训练的无条件生成器(independent pretrained unconditional generator networks)网络来无条件生成全身人体图像的方法。根据所需的应用程序和输出配置,我们描述了协调多个生成器(coordinate)的不同方法。

3.1 全身GAN

下面这些方法,只使用单个gan,生成512x512,256x256

  • [4] Pose with Style: Detail preserving pose-guided image synthesis with conditional stylegan (2021)
  • [18] TryOnGAN: Body-aware try-on via layered interpolation
  • [20] CollageGAN: Collaging class-specific GANs for semantic image synthesis (为语义图像合成拼贴特定类别的 GAN)

图2 InsetGAN的 pipeline

  • 设计了一个流程,既可以优化 W A W_A WA,又可以优化 W B W_B WB(face)
  • 使用了边界误差 L c o a r s e L_{coarse} Lcoarse L b o r d e r L_{border} Lborder
  • 图2(a)表示
  • 请注意,当算法可以在嵌入人脸(inset-face)和画布身体(canvas-body)生成器空间中进行优化时,它会在接缝边界产生更自然的结果——注意头发和皮肤色调是如何从头部到身体区域混合的。
  • 联合优化具有挑战性,因为边界框B(IA)是基于变量wA的。
    【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第2张图片
图3 非条件(方法)的生成结果

结果采用了我们自适应截断方法(adaptive truncation) (说明见补充材料(supplementary material)),并且切除了边框的。
乍看起来,结果比较真实、但脸部区域能发现明显的人工痕迹(请放大看)
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第3张图片

*3.2 多个GAN的优化(optimization)

  • 为了改进由单个全身GAN生成的问题区域,我们使用在特定身体区域的图像上训练的其他生成器来生成(局部图像),并作为插图粘贴到(to be pasted ,as insets)全身GAN结果中
    基本的全身GAN和专用的(dedicated)身体部分GAN可以使用相同或不同的数据集进行训练。在任何一种情况下,包含在多个GANs中的额外网络容量都可以更好地模拟人体的复杂外观和可变性

  • 作为一个概念的证明,我们展示了用从我们的全身训练图像中裁剪出来的面部区域训练的人脸GAN可以用来改善身体GAN结果的外观。或者,我们也可以利用在其他数据集上训练的人脸生成器,如FFHQ[14]来进行人脸增强。类似地,专门的手或脚发电机也可以用于我们的框架来改善身体的其他区域。我们表明,我们还可以在一个多重优化过程中一起使用多个部件生成器,如图4所示

主要的挑战是如何协调 (coordinate) 多个无条件的差距来产生彼此一致(coherent with one another)的像素。

公式说明

  • G A G_A GA 表示全身图像生成器(论文中为字母G的手写体)
  • G B G_B GB 表示局部生成器
  • I A = G A ( w A ) I_A=G_A(w_A) IA=GA(wA) 表示全身生成器生成的图像
  • I B = G B ( w B ) I_B=G_B(w_B) IB=GB(wB) 表示另一个局部生成器在人体内生成一个子区域(sub-region)或插图(inset)
  • B ( I A ) B(I_A) B(IA) 表示应用局部检测器,全身图像中剪切下来的特定区域,
  • w A , w B w_A,w_B wAwB 分别表示对应生成器(全身、局部)的隐码对 W (stylegan中z通过多层感知机得到W),
  • Ω = B ( w A ) \Omega=B(w_A) Ω=B(wA) 读音是omega,是 ω \omega ω 的小写,这里表示生成全身图替换的局部区域

为了能协调专用部分GAN与全局/画布GAN,我们需要一个边界框检测器(bounding box detector)来识别局部GAN生成的区域相对应的与 I A I_A IA的。剪切 I A I_A IA全身图像的相应区域 表示 为 B ( I A ) B(I_A) B(IA)。。问题等同于,找到一个·潜在的代码对· ( w A , w B w_A,w_B wAwB),这样各自的图像IA和IB就可以组合在 B ( I A ) B(I_A) B(IA)和IB的边界区域中没有明显的接缝

为了生成最终的结果,我们直接将全身图像的局部图像边界框 B ( I A ) B(I_A) B(IA)内的原始像素替换 I B I_B IB 中生成的像素,
在这里插入图片描述
其中 L L L损失表示,在 Ω \Omega Ω区域内,计算全身与局部图像的相似度(similarity)以及沿Ω边界测量煤缝质量。

*3.2.1 优化损失函数(optimization objectives)

优化潜在代码wA、wB或两者时,我们考虑多个目标

  1. faceGAN产生的脸部区域bodyGAN,在一个粗糙尺度(at a coarse scale )上,应该具有相似的外观(similar appearance,这样当由人脸GAN生成的像素被粘贴到主体GAN画布上时,属性匹配(例如,面部的肤色(skin tone)与颈部的肤色相匹配。
  2. 脸部剪切处周围的边界像素(boundary pixels)匹配,因此一个简单的复制粘贴操作不会产生可见的接缝;
  3. 最终合成的结果看起来很现实。为了匹配面部外观,我们对面部区域进行了降采样,并计算出L1和感知损失(lpips, Learned Perceptual Image Patch Similarity, LPIPS))的组合
    将,对应区域的分辨率都降采样到了64x64
    【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第4张图片

【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第5张图片
边界匹配(boundry matching), 任然采用L1和感知loss的混合, ξ x ( I ) \xi_x(I) ξx(I)表示宽度为x的去边界区域,见
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第6张图片

为了在优化过程中保持真实性,我们还添加了两个正则化术语,见公式4
第一项防止优化的潜在代码偏离平均潜在代码(average latent): 我们通过在Z空间中随机采样大量的latent,将它们映射到W空间,来计算 W a v g W_{avg} Wavg,并计算平均值
在这里插入图片描述

StyleGAN2时推理时,相同的512维潜在代码 w w w被输入到生成器中n个输入层中 ( n依赖于输出分辨率)。
而许多GAN反演方法却优化在 n x 512维的W+潜在空间.
我们遵循最近的工作,将w+隐码分解(decompose)为一个单基 w ∗ w^* w在和n个偏移的潜在 δ i \delta_i δi(读音为delta)。用于 i i i层的潜码表示为 w + δ i w+\delta_i w+δi。我们使用L2规范作为正则化器,以确保 δ i \delta_i δi保持较小。
基于我们对结果的可视化分析,对于这种正则化矩阵(regularizer),我们在身体生成器上使用了比脸部生成器更大的权重。(下图出自论文[31],说明了不同潜码空间的含义)
[31] 2101.GAN inversion: A survey.
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第7张图片

3.2.2 面部细化 vs 面部交换 ( Face Refinement versus Face Swap)

  • 给定一个由人类身体生成器 G B G_B GB随机生成的粗略全身图像 G A ( w A ) G_A(w_A) GA(wA)
  • 优化随机人脸生成器 G B G_B GB的隐码( w B w_B wB), 使生成的人脸图像 G B ( w B ) G_B(w_B) GB(wB)和 全身图像对应人脸区域 B ( G A ( W A ) ) B(G_A(W_A)) B(GA(WA))粗尺度(coarse scale)使边界区域在细粒度尺度(fine scale )看起来很像,如公式5所示
    在这里插入图片描述
    虽然如公式5所示几乎产生了令人满意的结果,但边界不连续(discontinuities)有时会出现。。为了进一步改进,我们可以同时优化wA和wB,使两个生成器相互协调,生成一个没有混合伪影(blending artifacts)的相干图像(coherent image)

为了在优化 W A W_A WA过程中保持身体外观不变,我们引入了一个额外的损失项:
在这里插入图片描述

  • 其中 I r e f I_{ref} Iref G A G_A GA生成的输入参考身体,在优化过程中应保持不变,
    R O 表示 R^O表示 RO表示表示脸部区域外的身体区域

我们还使用平均潜在正则化项 L r e g L_{reg} Lreg来防止产生伪影。最终的目标函数变成了
在这里插入图片描述

图4 脸部和鞋两处插入(Insets

使用专用鞋部生成器(训练的鞋由原始数据集的全身人物数据上剪切来),并同事使用我们的脸部生成器,原始全身人物生成结果改进了。所有三个生成器(全身生成做画布(canvas)和两个插图(insets))都共同优化(jointly optimized),以产生无缝(seamless)一致的输出
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第8张图片

图5 脸部的改善(refinement)

给定生成的全身人类,我们使用在同一数据集上训练专用的(dedicated)人脸模型来提高人脸区域的质量。
我们共同优化 (jointly optimize) 人脸和全身人类生成器的潜在码(latent codes),使两个生成器相互协调(coordinate),产生一致的(coherent)结果。。(人左边)两张插入的人脸裁剪图分别来自全身人物生成器(body GAN)(下面一张人脸),和专用的人脸生成器的结果(face GAN)(左上的人脸)
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第9张图片

3.2.3 给定脸(适应)身体生成(Body generation for an existing face)

  • 固定随机人脸生成器输出 G B G_B GB 或者给定一张真实的脸,
  • 优化身体生成器 G A G_A GA,生成一个在姿势、肤色、性别、发型等方面与输入的脸相容的身体。

在实践中,我们发现最好地保持边界连续性(maintain boundary continuity),特别是当生成身体匹配复杂的发型的脸时,通常是防止人脸生成器相关隐码wB变化大,这样脸部的身份信息被大多数保存,但边界和背景像素可以稍微调整使身体生成器隐码wA的优化更容易。。
为了在优化过程中保持人脸的身份,我们使用了一个额外的人脸重建损失:

其中, R I R^I RI表示人脸剪切的内部, I r e f I_{ref} Iref 表示 引用的给定的输入人脸。为了进行更精确的控制,可以使用人脸语义分割来代替人脸检测边界框。我们的目标功能成为:
在这里插入图片描述
公式更新为:
在这里插入图片描述
基于不同的初始化身体 W A W_A WA,每张脸可以产生多个结果,如图6所示,所生成的身体肤色通常与输入的面部肤色相匹配

图6 给定脸多模态(Multimodal)身体生成

对于预先训练的FFHQ模型生成的每个人脸(中间列),我们使用联合优化生成三个不同的身体,同时保持来自输入脸的面部特征(facial identities)。

【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第10张图片

3.2.4 人脸与身体的(随机)组合 ( face body mentage)

我们可以结合任何真实的或生成的脸与任何生成的身体来产生一个照片蒙太奇。
对于一个真实的人脸,我们需要首先要使用一个额外的编码器(e4e)将其编码为人脸生成器的潜在空间作为wB。
同样,真实的身体可以被编码到遗传算法的潜在空间中,但由于人体的高变异性,很难实现较低的重建误差。
所有的蒙太奇结果都是由GB生成的合成体创建的。我们使用以下目标函数:

公式10
在这里插入图片描述

图7 脸部身体合成画(Montage)

定由预先训练的FFHQ模型生成的目标人脸(最上行)和由我们的全身人体生成器生成的身体(最左边的列),我们应用联合潜在优化来找到兼容的人脸和人类潜在代码(latent code),这些代码可以组合起来产生连贯的全身人类。请注意面部皮肤颜色是如何同步的(synchronized),并放大以观察面部插图周围的(缺少)接缝。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第11张图片

3.2.5 优化详情 (Optimization Details)

虽然差异很细微(subtle),但我们观察到,当使用L1比L2损失时,视觉性能( visual performance )略好。
我们将我们的许多损失应用于图像D64(B(IA))和D64(IB)的降采样版本,以允许在优化过程中具有更大的灵活性,并减少对来自源图像的伪影(artifacts)进行过拟合的风险
wA和wB联合优化的一个挑战是边界条件Ω依赖于变量wA。过交替优化wA和wB,并在每次wA更新后重新评估边界来解决这个问题。当更新收敛时,我们就停止这个过程。

图8 多模态的脸部改善

为了改进在深度时尚上训练的全身模型生成的人,我们使用预先训练的FFHQ模型来合成各种无缝合并的结果面,这些结果面看起来都与输入体兼容
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第12张图片

3.2.6 优化初始化(Optimization Initialization)

wA或wB的默认初始化选择是它们对应的平均潜在向量wavg。
这通常会很快产生合理的结果。然而,我们希望为应用程序生成变化结果(variety of results),如为输入人脸IB寻找匹配体IA
因此,我们使用随机截断的潜码(truncated latent codes)作为初始化向量
w t r u n c = w r a n d ∗ ( 1 − α ) + w a v g ∗ α w_{trunc}=w_{rand}*(1-\alpha)+w_{avg}*\alpha wtrunc=wrand(1α)+wavgα

官方的值
在这里插入图片描述

4. 数据集的创建

83972张高品质的全身数据集,
这些图像来自于从第三方数据供应商(third-party data vender)购买的100,718张野外不同照片的数据集
包含

  • 手工标记的真实分割(ground-truth segmentation masks)
  • 我们在原始图像上应用了一个人类姿态检测网络[6],并过滤掉那些包含极端姿态的图像,导致姿态检测结果的置信度较低
  • OpenPose: Realtime multi-person 2D pose estimation using part affinity fields. | github

特征对齐,在高品质图像生成中扮演了重要角色,我们仔细的对齐了全身人像,基于姿态骨架(pose skeletons)
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第13张图片

基于颈部和髋关节(neck and hip joints)定义了一个上半身的轴(upper body axis)
我们定位人的位置,使上身轴在图像的中心对齐…

由于(as the variance)视角(perspective)和姿势(pose)的差异非常大,因此在每个人的图像框架中为他们选择合适的尺度(appropriate scale)是具有挑战性的。
我们根据人的上半身长度(upper-body length)对他们进行调整,然后评估由分割掩模定义的面部区域的范围(extent)。如果面长度小于(大于)给定的最小值(最大值),我们重新缩放,使面长度等于最小值(最大值)。

最后,我们使用反射填充(refkection paddiing)放大背景,并使用大小为27的高斯核严重模糊它们,将生成器集中在只建模前景人像上(foreground humans)

图9 全身人物数据集创建

【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第14张图片

  • 基于人类的室外数据集创建的
  • 图片自动预处理对齐,crop到1024x1024基于标注的语义便签(ground_truth)和检测到人类骨架(pose skeletons)

训练细节

基于stylegan2-ada 训练1024x1024分辨率,基于4块titan vgpu, 花了28天,18小时,
总计处理42M(42000k)张图片(生成判断)
deepfashion 1024x768 9天
使用预训练模型 FaceNet 去检测和对齐边界框

  • FaceNet: A unified embedding for face recognition and clustering

5. 验证和讨论

图10 脸部改善效果与CoModGAN的比较

InsetGAN提高了面部质量(右上),产生了比CoModGAN(右下)更令人信服的结果。CoModGAN结果是通过在面区域周围的矩形孔( rectangular holes)来生成的。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第15张图片

图11 使用CoModGAN身体生成

我们展示了由CoModGAN训练产生的结果,以填充在给定图像中覆盖身体的矩形孔。带有孔的输入显示在插图中。我们在每个输入中生成几个结果,并在这里显示出最好看的两个结果。我们对相同输入面的检测结果见图6。我们观察到CoModGAN创建了无缝的内容,但视觉质量比我们的更差。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第16张图片


补充材料 (Supplementary Materials)

图1 同时优化鞋和脸的插入

【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第17张图片

图2 方向性

我们证明了我们的技术可以捕获广泛的脸方向,并生成自然外观的脸-身体组成,这些方向适合每个各自的输入脸。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第18张图片

图3 脸部合成

我们展示了以256×256px分辨率无条件生成的结果,该人脸生成器与我们的全身人体生成器训练相同的数据。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第19张图片

图6 数据集的品质

我们展示了从数据集中裁剪的人脸(左)与insetgan生成改进后人脸(右)的比较。放大以观察输入数据的可变质量。
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第20张图片

3 实现细节

3.1 非条件生成的自适应截断

由于我们的生成器是在非常多样的数据(diverse data)上训练的,在生成未截断输出时,我们可以观察到图像质量参差不齐(a wide range of )
当截断原始StyleGAN2论文中描述的生成结果时,通过从w空间中的样本位置到平均潜在Wavg 的线性插值(linearly interpolation),我们可以大大减少姿态和细节上的伪影。 然而,这一技巧也减少了样本输出的多样性,并显著降低了(notably)输出图像的颜色变动(color vibrancy),因为服装的颜色被插值到一个平均的灰白色色调(an averaged greyish hue)。
在我们的方法中,只要有可能(即只要我们不限于在w空间中操作),我们使用层自适应截断方案来生成视觉上令人愉悦的改善感知质量的结果,同时从未截断的样本中保留尽可能多的不同特征,`如图9所示

图9 自适应的截断(Truncation)

我们展示了一组来自我们的全身人像生成器的未截断的样本,显示出不现实的姿态和不需要的伪影。标准截断(t=0.6,最小方一排)减少了伪影,但也删除了理想的服装细节,减少了颜色活力(color vibrancy)。我们的自适应截断(第2行,中间行)更好地保留了颜色,纹理细节和饰品(accessories)
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)_第21张图片
为实现自适应截断,
在生成无条件样本时,我们使用 w+空间,并为每个层定义一个单独的截断值。在我们的生成器中,我们有18层,我们将逐层的(layer-wise)截断值定义为
在这里插入图片描述
这些值是通过实验选择的,我们分别截断单个层,以识别导致最多伪影的层,
注意,我们在后面的层上几乎没有应用截断,因为它们可以用来生成衣服的细节()
我们在实验中观察到,网络的中间层(4-7)的潜在代码对伪影最负责,所以我们截断它们最多。。

fid测量

我们还测量了使用我们的自适应截断方案产生的4K随机结果的Fr‘echet起始距离(FID),并观察到与使用t=0.6(71.89)的常规截断相比,FID显著较低(53.26)。我们想指出的是,当我们在正文中进行定量评估时,我们没有使用自适应截断技巧,这是为了清晰和简单,也因为我们在w+δi空间中进行优化,这限制了自适应截断的效果。

3.2优化器详情

在执行联合优化时,我们为wA和wB定义了两个不同的优化器,并每50次迭代切换一次优化目标。

你可能感兴趣的:(论文解读,#,生成对抗网络,计算机视觉相关,人工智能,计算机视觉,深度学习)