摘要: 本文使用Masking GAN来对静态的图像中的人物图像进行处理,使其都露出灿烂笑容,堪称魔法。每个程序员都是一个魔法师,你玩过的魔法是什么呢?欢迎留言秀出各自的魔法。
继卷积神经网络(CNN)掀起深度学习的浪潮后,生成对抗网络(GAN)逐渐成为了计算机视觉领域的另一重点关注的神经网络。本文作者于一年前开始第一次尝试使用GAN来完成一些实验,但都会存在一个问题,那就是模型很难训练以及模型的结果不好评估。尽管存在上述的这些问题,GAN仍然在深度学习领域中占据一席之地,这是因为GAN不同于经典的机器学习任务,它能够给许多问题提供新的解决思路。
操作人脸属性(年龄、性别、表情)是一个最著名的语义处理问题。目前市面上有许多这样的应用客户端,大都能够在拍照后更改面部表情。实现这一操作的方法多种多样,但在我看来,GAN是表现最优的方法。
上图选择的这些例子强调了一个问题——GAN也会改变无关的对象。如果你想裁剪一个图像部分,然后对部分图像进行修改后再粘贴回来,那样可能会与周围的背景无法很好地融合,此外这样操作起来也很困难。本文将针对这个问题,探讨解决方法和相关细节。
如何操作?
一种方法是训练另外一个分割模型,可以使用这个模型来生成一个分割掩码,并与生成图像块匹配。当然,收集这样的标签是困难的,此外还必须假设应用语义变化后对象的形状不会发生改变。
另外的一种潜在方法是使用恒等损失函数约束生成器,迫使生成器减少变化。
本文尝试结合上述两种思想来设计一个实验模型,该模型具有以下特点:
使用内置分段的生成器结构;
通过分割掩码将原始图像与新的图像块混合;
整个网络的训练过程是个端到端的过程;
使用L1恒等损失约束生成器并减少改变;
上图是方案框图,期待看到该模型制作出完美的掩膜。
工作情况如何?
上图是挑选出来的一些结果样本,可以看到表现都还不错。在总的数据集中,超过80%及以上的图像表现都足够好。
此外,实验过程中还注意到了一些问题:
如果图像中一个人已经是微笑时,那么它就不需要做出任何的改变;
模型在处理一些极端的头角度时候表现较差;
模型有时候对一些不相关部分仍进行了操作;
从上图可以看到,随着训练的进行,生成器能产生更多的变化。
在最初的迭代周期里,生成器会绘制出越来越逼真的图像。起初,脸部分割掩码近乎完美,但经过一段时间后,模型的结果开始产生显著变化,比如在上图中,模型改变了头发。
一些想法
对上述这种行为的直接感受是一旦生成器开始生成真实的面孔,它就迫使判别器忽略表情并集中于其他区域(微笑停止是主要特征)。
另外一种解释可能是判别器过拟合了(尽管训练集含有十万左右的图像),使用更强的正则化实验可能有助于更好地理解它。
在其它数据集(如马对斑马)上的实验表明了同样的注意力转移现象,生成器最终改变了整幅图像。
实现注意事项
本文实验中应该注意以下几点:
使用CycleGAN方式训练模型;
使用校准后的CelebA数据集;
使用PyTorch框架;
使用3GB内存的GPU训练4到5天就可以重现本文实验结果(时间评估是基于GPU为GTX1080)
作者信息
Georgiy Trofimov,机器学习工程师。
本文由阿里云云栖社区组织翻译。
文章原标题《How to make 100,000 people smile?》,作者:Georgiy Trofimov,译者:海棠,审阅:。