CVPR 2021|人脸属性风格解耦

作者丨李新阳@知乎

来源丨https://www.zhihu.com/people/li-xin-yang-85-51

编辑丨机器学习与生成对抗网络

CVPR 2021|人脸属性风格解耦_第1张图片

论文地址:https://arxiv.org/abs/2103.01456

开源代码:https://github.com/imlixinyang/HiSD

相信大家还记得CycleGAN刚出来时带给大家的震撼,从CycleGAN提出后,图像翻译面临的最大的两个问题就是扩展性(同时处理多种篡改)和多样性(生成不同的结果),然而,一直没有一个很好的方法,可以兼顾扩展性和多样性的同时,又能使得这种篡改满足预期。例如,对于人脸属性篡改任务,我们想要给人脸加上刘海,可是却改变了发色或是背景,再例如,我们想要给人脸加上眼睛,结果竟然性别和年龄也改变了。下面是最新模型StarGANv2的结果:

CVPR 2021|人脸属性风格解耦_第2张图片

HiSD就是为了解决这些问题,并且还同时支持从噪声中生成或者从图像中提取这样的风格。先放效果图吧:

CVPR 2021|人脸属性风格解耦_第3张图片

可以看到多属性之间完全没有干扰,而且多样性也可以非常好地对应上某个语义。而实现这一些的核心就是建立了如下一个层次结构:

CVPR 2021|人脸属性风格解耦_第4张图片

利用了原始0-1标签之间存在的互斥性(对同一个语义的不同描述)和独立性(不同语义),HiSD将原始Label转换为了Tag和Attribute,并想要无监督地解耦出对应上某个Attribute的风格,比如图中不同眼镜的款式,就可以达到可控多样性的目标了。

进一步,我们将各个模型也对应上了这个层次结构,然后每一次只训练一个对应某个Tag的转换器将图像在两个Attribute之间进行转换,然而这样就可以解耦出单个Tag的风格了吗?

想法是美好的,现实是残酷的。除了标签本身,我们并没有其他的监督信息,例如分割图等,甚至数据集中本身对于各个属性就是不解耦的(戴眼镜的有83%的男性,而不戴的只有36%)。

为了抑制区域上的过度篡改,我们引入了已经被广泛使用的无监督掩膜思想,唯一不同的是我们的掩膜是作用在特征图上的,而不是图像本身上,也因此加入了Channel-wise的注意力。

然而性别和年龄在极度不平衡的数据集的对抗过程中,仍然被不可避免的篡改了。

但是性别年龄也是我们可以利用的标签!能不能让对抗过程中的鉴别器可以看到这些标签本身就是不平衡的,从而来让翻译前后保持这些不平衡标签不变呢,比如这样:

CVPR 2021|人脸属性风格解耦_第5张图片

也就是让鉴别器在鉴别金色刘海的同时,要让原始图片的性别和年龄也保持不变。

还真可以,这一个结构叫做Tag无关条件鉴别器,我个人觉得应该可以用来缓解很多对抗过程中数据集本身不平衡的问题,这几步结构上的改动带来的影响可以用一些对比结果表示:

CVPR 2021|人脸属性风格解耦_第6张图片

跟SOTA模型比较,我们有着最好的真实性、解耦性和用户最喜欢的多样性。同时还有着对于两种来源的风格编码最为平衡的性能。

CVPR 2021|人脸属性风格解耦_第7张图片

论文和代码都已经放出来了。妈妈式代码,详细注释,手把手教学,因为自己也相当幸运作为入门者的时候,看的是多模态的模型MUNIT(https://github.com/NVlabs/MUNIT)的代码,非常好理解和进一步修改。

论文中还有很多很多细节,例如训练过程中只有单Tag的篡改,为什么在测试过程可以进行多Tag的篡改。解耦性是如何定量比较的。又如何同时训练噪声引导的风格和参考图像引导的风格的。可能需要感兴趣的同学自行去看啦,也欢迎来和我讨论~

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

CVPR 2021|人脸属性风格解耦_第8张图片

▲长按加微信群或投稿

CVPR 2021|人脸属性风格解耦_第9张图片

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

CVPR 2021|人脸属性风格解耦_第10张图片

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  CVPR 2021|人脸属性风格解耦_第11张图片

你可能感兴趣的:(人工智能,机器学习,计算机视觉,深度学习,人脸识别)