网易伏羲4篇论文入选ACM MM2022,再创游戏AI领域佳绩

近日,第29届国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)揭晓了论文接收结果:网易伏羲实验室共有4篇论文入选,论文成果主要涉及游戏虚拟角色领域的研究

ACM MM由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域最具影响力的国际会议;作为领域内的顶级会议,ACM MM 受到国内外知名厂商和学者广泛关注。本届ACM MM共收到有效稿件2473篇,其中690篇被大会接收,接收率为27.9%

网易伏羲实验室自成立以来,一直关注游戏AI领域的应用研究,并致力于将学术研究成果落地于工业实践。其中游戏虚拟角色作为游戏研发的核心,涵盖游戏角色的形象创建、游戏角色的驱动等多个重要节点。网易伏羲本次发表的四篇论文成果,坚持贯穿以上环节,推动 AI 技术在游戏角色方向的场景落地,具体包括三个方面:1.游戏智能捏脸;2. 语音驱动表情生成;3. 神经网络结构搜索。课题内容介绍如下:

1,游戏智能捏脸

游戏智能捏脸指用户输入一张人脸图像即可自动创建对应形象的游戏角色,对于玩家的友好性、游戏的趣味性等有很大的帮助。在游戏智能捏脸中,使用三维人脸重建技术提取人脸中精准的外貌信息是非常重要的一环,之前的方法只能实现低分辨率下的人脸重建,很大程度上限制了人脸重建的精度。网易伏羲充分利用UV图的高灵活性,提出了一种高质量三维人脸重建框架AFFUnet[1],AFFUnet将人脸模型的纹理、网格顶点位置和光照都编码到UV图中,再利用可微渲染和新提出的卷积核仿射变换层实现高质量的三维人脸重建,达到了目前最先进的人脸重建水平,对于游戏智能捏脸的实际应用具有重大的意义。

网易伏羲4篇论文入选ACM MM2022,再创游戏AI领域佳绩_第1张图片

「永劫无间」游戏智能捏脸落地效果和三维人脸重建结果

2,语音驱动表情

语音驱动表情指只需输入一段语音便可以驱动游戏角色的口型、表情等,能够极大地提高游戏动画生成的效率。

在语音驱动表情的应用中,如何实现人脸表情的高质量驱动,解决人脸驱动前后空间不对齐的问题,同样是一个难题。之前的方法都利用稠密运动场实现人脸的空间对齐,但是这些方案在大的头部姿态下会产生面部畸变,网易伏羲提出一种自适应仿射变换算子(Adaptive Affine Transformation, AdaAT)[2]来解决该问题,AdaAT使用仿射变换来模拟和约束空间形变,通过自适应地在不同的卷积特征图通道计算不同的仿射变换,从而实现了高质量的人脸表情驱动,进一步推动了语音驱动表情应用的发展。

此外,在语音驱动表情的应用中,如何更好地分析和提取语音模态中的情感信息,帮助生成更加丰富细腻的人脸面部表情一直是一项挑战,网易伏羲和杭州电子科技大学联合提出利用语音和文本两个模态,并基于两个模态天然不对齐的特性,提出一种超模态交互融合网络(Cross Hyper-modality Fusion Network,CHFN)[3] 实现语音文本跨模态融合和多模态的情感计算的功能。CHFN利用自注意机制的变形器网络(Transformer)动态的完成不同模态在特征空间中的对齐和融合,从而进一步提高了从语音信号提取情感信息的准确性,成为语音驱动角色表情功能的重要基石。

「逆水寒」游戏语音驱动表情效果,多个模态融合交互可视化的结果和语音驱动表情生成结果

3神经网络结构探索

在游戏智能捏脸和语音驱动表情的落地应用中,需要对所有的网络结构进行“瘦身”以提高用户的使用体验,传统的神经结构搜索方法仅仅利用局部知识,所以在网络的泛化性上欠缺,无法满足落地的需求。网易伏羲与浙江大学、复旦大学团队联合提出了一种神经结构排列器(Neural Architecture Ranker,NAR)[4],NAR利用搜索空间中的全局知识分布信息对网络结构进行搜索,从而得到更具有泛化性的网络结构。让各种算法应用满足落地的需求。

网易伏羲本次入选的4篇论文方向,分别从多个角度解决了游戏虚拟角色构建过程中不同环节的疑难杂症,并推动了AI技术在游戏角色构建方向的落地应用。未来,网易伏羲实验室也会持续发力于AI技术在游戏领域的落地。

特别感谢杭州电子科技大学孔万增教授团队对语音驱动中的「超模态交互融合网络」论文[3]的重要研究贡献;以及浙江大学贺诗波教授团队和陈积明教授团队、复旦大学陈涛教授团队对「网络结构搜索」论文[4]的重要研究贡献。

附:网易实验室入选4篇论文:

[1] High-Quality 3D Face Reconstruction with Affine Convolutional Networks.

[2] Adaptive Affine Transformation: A Simple and Effective Operation for Spatial Misaligned Image Generation.

[3] Dynamically Adjust Word Representations Using Unaligned Multimodal Information.

[4] Generalized Global Ranking-Aware Neural Architecture Ranker for Efficient Image Classifier Search.

你可能感兴趣的:(网易伏羲,人工智能,计算机视觉,机器学习)