2021-03-05 17:52:16
2月28日,人工智能顶级会议CVPR 2021(国际计算机视觉与模式识别会议,Conference on Computer Vision and Pattern Recognition)公布论文录取结果,网易伏羲共有3篇论文入选。
其中,由网易伏羲虚拟人团队发表的一项研究颇为引人关注。该研究提出了一种人类表情编码的创新提取方法,大幅提升了AI感知人类表情的精度。随着该技术的发展,未来,AI感知人类表情的能力甚至有望超越人类感知平均水平。
这一技术的应用场景十分广泛,包括测谎、性格评估、自闭症检测、表演能力评估等众多与人脸表情相关的领域。
过去,学术界对人类表情的识别和描述,一般源于两种传统理论:一种源自150年前的达尔文时期,学者们从心理学出发,基于高兴、惊讶、生气、悲伤等有限的情绪类别描述人类表情;另一种起源于上世纪70年代末,知名心理学家Paul Ekman博士从解剖学角度出发,基于人脸肌肉运动,用27种动作单元来描述人类表情。
从数量上看,传统理论对人类表情的描述极为有限。网易伏羲的人类表情编码提取方法,则以人工智能的方式进一步突破了这一瓶颈。通过学习大量的人脸表情数据,AI可以无穷尽、无上限地感知人类表情。
为了让AI更懂人类的喜怒哀乐,技术人员还需要大量细颗粒度、人工标注的人脸表情数据用于算法参数迭代,进一步提升表情编码的精度。为此,网易伏羲正在开发一个游戏化标注小程序,让普通用户能够在游戏的过程中,轻轻松松地参与表情标注,加速推进人类表情领域的人工智能研究与应用。
网易伏羲成立于2017年,是国内从事游戏与文创AI研究和应用的顶尖机构,研究方向包括强化学习、图像动画、自然语言、虚拟人、用户画像、大数据平台等领域。据了解,此次CVPR中稿论文展示的部分科研成果,已经在网易多个产品中成功落地。未来,网易伏羲将继续以技术落地为导向,用科研成果推动产品创新。
附:网易伏羲三篇入选CVPR2021论文简介
1、《去ID信息的表情编码》
(Learning a Facial Expression Embedding Disentangled from Identity)
论文简介:
本文研究的主要目的,是获取一种紧致的,且与ID信息无关的人脸表情表征。
本研究中,网易伏羲虚拟人团队首次提出,将表情特征建模为从ID身份特征出发的一个差值向量,以这种显式方式去掉ID的影响。为此,本研究设计了一个伪孪生结构的网络去学习这种差值。同时,为了加强网络在深层的学习能力,本研究通过高阶多项式的方法替代一般的全连接层去完成从高维到低维的映射。另外,考虑到不同标注者存在一定标注噪音,本研究增加了众包层学习不同标注者的偏差,使学习到的表情表征更加鲁棒。
定性和定量的实验结果表明,该方法在FEC数据集上超越了前沿水平。同时在情绪识别、图像检索以及人脸表情生成等应以用上都有不错的效果。
下图展示了该工作的表情表征编码的效果,输入一张检索(Query)表情,通过比较表情编码的距离,从一个足够大的人脸数据集中检索出与之最相似的一些表情(Results),下图中展示了TOP5的结果。
由图可知,所检索出来的图像和目标表情非常接近,说明本研究提出的表情表征编码可以感知微妙且精细的表情。
2、《基于稠密运动场的高清说话人脸视频生成》
(Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset)
论文简介:
One-shot说话人脸合成的目的,是给定任意一张人脸图像和任意一段语音,合成具有语音口型同步、眉眼头动自然的高清说话人脸视频。之前工作合成的视频分辨率之所以一直受到限制,主要有两个原因:1、目前没有合适的高清视听数据集。2.之前的工作使用人脸特征引导人脸图像合成,而对于高分辨率图像来说特征太稀疏。
为了解决上述问题,本研究首先收集了一个无约束条件下(in-the-wild)的高清人脸音视数据集YAD,该数据集比之前无约束条件下的数据集更加高清,也比之前实验室环境下(in-the-lab)数据集包含有更多的人物ID。
基于高清数据集YAD,本研究借助三维人脸重建(3DMM)将整个方法分成表情参数合成和视频图像合成两个阶段;在表情参数合成阶段中,使用多任务的方法合成嘴唇运动参数、眉眼运动参数和头部运动参数。在视频图像合成阶段,则使用稠密运动场替代人脸关键点引导人脸图像生成。定性和定量结果表明,与之前的工作相比,本研究可以合成更加高清的视频。以下二图分别展示方法的流程图和视频合成效果。
3、《神经风格画笔》
(Stylized Neural Painting)
论文简介:
网易伏羲与密歇根大学合作研究,提出了一种图像到绘画的转换方法。该方法可以生成风格可控、生动逼真的绘画作品。不同于神经风格迁移方法,网易伏羲在参数化的条件下处理这种艺术创作过程,并产生一系列具有物理意义的画笔参数。
由于经典的矢量渲染是不可微的,因此我们设计了一种全新的神经可微渲染器。它可以模仿矢量渲染器的行为,然后将画笔预测转换为参数搜索过程,即最大化输入与渲染输出之间的相似度。
实验表明,通过该方法生成的绘画在整体外观、局部纹理上都具有很高的保真度;该方法也可以与神经风格迁移共同优化,后者可以进一步迁移其他图像的视觉样式。