ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场

作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学与多媒体等人工智能相关学科密切关注的重要研究课题。近日,中国科学技术大学联合的卢深视科技有限公司、浙江大学与清华大学共同打造的 AD-NeRF 技术,引发了学界及业界关注。来自中科大张举勇课题组等机构的研究者们在近期大火的神经辐射场(NeRF: Neural Radiance Fields)技术基础上,提出了一种由语音信号直接生成说话人视频的算法。仅需要目标人物几分钟的说话视频,该方法即可实现对该人物超级逼真的形象复刻和语音驱动。

论文题目

  • 题目:AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis

  • 作者团队:

图片

  • 会议:ICCV 2021

  • 论文:https://arxiv.org/abs/2103.11078

  • 代码:https://github.com/YudongGuo/AD-NeRF

任务定义

这篇文章主要针对的任务是talking face generation,也有一种说法是audio driven face reenactment。实际上整个流程是给定一段语音,和源人脸,生成一段说话人视频。

很多方法都是身份无关的,即模型训练好之后,可以生成多个人的说话视频。

AD-Nerf使用了Nerf作为基础架构,限定了当前人物的信息,一个模型只可以生成一个人物的说话视频,这也大大提升了生成的清晰度和分辨率。

动机/创新点

  • 没有尝试使用复杂的音素-人脸对齐方式或者使用容易引入信息损失的二维关键点或者3DMM。

  • 对人像使用Nerf进行建模,将头部和衣着的形变分开建模。

  • 在这种情境下,可以很轻松的进行头部姿态的改变和背景的改变。

方法

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第1张图片

实验结果

NeRF学习到的是一个映射函数,作者这里直观的想法是将音频信息融合到输入中。

图片

d是视角信息(相机参数等),x是三维空间的坐标,a即音频信息。

通过一个MLP网络映射出,c颜色信息,以及密度信息。

这里的音频信息是使用DeepSpeech提取的,每20ms提取一个29维度的特征,最终每段特征的维度是16*29。

使用体渲染得到二维平面上的图像

这部分与Nerf中使用的体渲染的定义很相似。

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第2张图片

给定近平面和远平面的信息,给定视线信息r(t)、方向d、射线的积累透明度T(t),最终得到渲染到平面上的颜色信息。

关于NeRF的表达

在AD-NeRF的训练过程中,引入了姿态的信息,因为人物在说话时会有各种不同的动作。作者发现头部的运动与衣着的运动不甚一致,所以尝试分离出头部和衣着两部分NeRF进行表达。

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第3张图片

首先使用分割图,分割出头部、衣着、背景三部分。

每部分训练中的背景即为射线与远平面的交点的组合。

  • 第一部分将头部视为前景,将背景图像视为背景进行训练

  • 第二部分,将背景图和头部的组合视为背景,将衣着视为前景进行训练。

数据处理和损失函数

数据集是从网络上收集到的说话视频,3-5分钟,假定背景是不动的。

每个视频首先使用分割网络预测信息,然后预测头部的姿态,然后预测出背景图像。

损失函数使用了重建损失。

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第4张图片

实验结果

消融实验

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第5张图片

比较直接使用音频特征和使用表情参数作为中间表达

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第6张图片

比较使用一个NeRF建模和分开建模

比较实验

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第7张图片

与一些基于图像的方法进行比较(分辨率占优)

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第8张图片

与基于模型的方法进行比较(效果更自然,甚至可以修改姿态)

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第9张图片

定量展示,评估了lip-sync、AU误差等。

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第10张图片

此外,作者还进行了用户调查实验。这是将神经渲染的NeRF与talking face generation领域结合的首次尝试,十分具有创新意义。

作者:刘锦

|关于深延科技|

ICCV21论文解读 | AD-NeRF:用于说话人头部合成的音频驱动神经辐射场_第11张图片

 深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。

你可能感兴趣的:(ICCV2021,算法,人工智能,计算机视觉)