©PaperWeekly 原创 · 作者|薛洁婷
学校|北京交通大学硕士生
研究方向|图像翻译
论文介绍
人脸表情编辑通常涉及较大的几何变化,并且需要同时修改多个面部区域。虽然基于生成式对抗网络(GAN)的人脸表情编辑模型已取得了显著性成果,但是在处理大幅度表情变换时如从愤怒到笑等,当前模型依旧会产生伪影和模糊问题。
针对这一问题作者提出了以局部区域为重点的渐进式表情转换模型 Cascade EF-GAN。不同于针对整张图像的表情变换模型,该模型将表情变换细分为眼睛,鼻子和嘴巴的局部区域独立地进行表情变换,并采用渐进的方式训练模型。实验表明该模型有助于抑制重叠伪影以及模糊问题,并能产生逼真自然的效果。
论文标题:Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.05905
模型架构
从图 2 中可以看出 Cascade EF-GAN 由多个 EF-GAN 组成,它们以级联的方式进行表情变换,并且每个 EF-GAN 的网络架构是一致的,都包含表情转换模块和微调模块,下面具体展开介绍。
▲ 图1. 模型架构
相信很多训练过深度模型的研究者都会有这样的体会,我们在整图上使用一组卷积核去提取特征时通常会遗漏大量的细节特征,如果针对局部区域去提取特征会有助于保留细节信息。根据这一经验作者设计了一个由针对整图的全局生成器和三个分别针对眼睛、鼻子以及嘴巴区域的局部生成器构成的表情转换模型。
表情转换模型以原人脸图以及目标表情标签作为输入,输出为表情变换后的图像。作者采用了 Facial Action Coding System(FACS)将表情编码为 Action Units(AUs)来获取目标表情标签,并使用 Open-Face 获取人脸关键点从而剪裁出眼睛、鼻子和嘴巴区域,之后再将这些图像分别输入特定的生成器中。
每个生成器均使用相同的网络架构,为了更好的捕获细节以及抑制伪像,作者借鉴了 GANimation 中的注意力机制,具体来说该机制在解码器中分出两个分支,一个用于解码出注意力映射图另一个用于解码出颜色映射图,通过对注意力映射图进行约束引导编码器能够更关注于表情相关的显著性区域,如图 2 所示。
最终每个生成器输出颜色特征映射 以及注意力映射 ,作者将 作为每个分支的初级输出,其中 表示输入图像。
▲ 图2. 注意力映射
微调模型是用于融合表情分类模型中不同分支的输出结果并输出表情变换后的最终结果。首先根据关键点位置信息将三个局部生成器的输出融合到单个图像中,然后该图与全局生成器的输出连接后输入微调模型,该微调模型具体由多个 Residual Blocks 组成,输出为最终的表情转换结果。
当表情变化幅度过大时,单个的 EF-GAN 可能会在变化幅度过大的区域产生重叠伪影,因此作者设计了级连的 EF-GAN 降低每个单独 EF-GAN 的转换压力,如图 3 所示。
对于每个中间 EF-GAN 的监督,首先通过线性插值生成伪目标,然后提取伪目标和原始 AUs 标签之间的残差。之后将原始的 AUs 标签和残差输入到插值模型中产生中间层的 AUs 标签。为了使得插值模型输出的 AUs 标签更逼真,作者还训练了一个鉴别器使真实和插值模型输出的 AUs 标签之间的 Wasserstein 距离最大,而插值模型的目标与之相反。
通常相同架构的级连式模型不会采用同时训练的模式,因为这样会非常耗时且要求大量的计算资源。因此在训练 Cascade EF-GAN 时,作者也采用了渐进式的方案去进行训练,具体来说就是先训练好一个 EF-GAN 网络并将该网络的参数初始化级连后的 EF-GAN。
通过这种训练方式,级联中的每个 EF-GAN 模块都将具有良好的初始化效果。如图 3 所示,这里展示了 3 层级连表情转换网络的输出结果对比,可以看出渐进式训练有助于抑制重叠的伪影,并在处理变化幅度较大的表情时产生更逼真的效果。
▲ 图3. 中间层以及最终的输出结果
实验
作者在两个公开数据集 RaFD 以及 CFEED 上验证模型的有效性,并与 StarGAN 以及 GANimation 进行对比,结果如图 4。相比于其他两个模型 GANimation 的确可以有效的抑制重叠伪影并且在细节上能获取更逼真的效果。
为了更全面的评估生成图像的质量作者设计了两个分类方案:1)使用原始训练图像训练表情分类器,并应用分类器对通过不同的表情变换模型生成的图像进行分类;2)结合真实和生成的表情图像训练分类器,并用该分类器去分类原始测试集图像。
表 1 为实验结果,其中 R 表示使用原始训练集训练分类器其在真实测试集上的分类正确率,G 表示复用 R 中的分类器其在生成数据集上的分类正确率,R+G 表示使用原始训练集以及生成训练集去训练分类器其在真实测试集上的分类正确率。
总结
这篇文章提出了级连式表情转换模型,每个表情转换模型 EF-GAN 都针对全局以及眼睛,鼻子和嘴巴的局部区域进行表情变换。通过这种方式能有助于在一定程度上保留与身份高度相关的特征和细节,从而使面部表情更加清晰。
另外,提出的 Cascade EF-GAN 以渐进的方式进行训练,这有助于将大幅度的表情变化分解为多个小的变化,降低了每个表情变化模型的压力,这也是目前大部分表情分类模型的局限。
为了给每个中间的 EF-GAN 提供监督,作者还设计了插值网络来提取中间级的表情 AUs 标签,意味着可以通过调整不同阶段的中间 AUs 标签生成连续的中间结果,这使得模型的应用场景也更加丰富。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:[email protected]
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。