可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频

点击我爱计算机视觉标星,更快获取CVML新技术


本文转载自新智元(AI_era) 。


  新智元报道  

来源:Venturebeat

编辑:大明

【新智元导读】如何生成一段大头演讲视频?微软AI表示,只需要一张脸部照片和一段演讲音频就够了。音频有底噪?发音不准?这都不是问题,只需要这两样,剩下的交给AI就行。

越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音片段同步。

今年6月,来自三星的应用科学家详细描述了一种能够对人的头像中的眉毛,嘴巴,睫毛和脸颊进行动画处理的端到端模型。仅仅几周后,AI教育机构Udacity展示了一种系统,可以自动根据旁白音频生成讲者的演讲视频。而早在两年前,卡内基梅隆大学的研究人员就发表了一篇论文,文中描述了一种将面部动作从一个人移到另一个人头上的方法。

 

可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频_第1张图片

论文链接:

https://arxiv.org/pdf/1910.00726

在这篇(和其他一些)论文成果的基础上,本周,微软研究团队提出了一项技术,研究人员声称,这种技术可以提高由音频生成的有声谈话视频的逼真程度。

以前,类似的生成方法对音频质量的要求很高,一般需要使用中性、纯净、底噪相对很低的音频才能实现。微软研究人员表示,本次他们提供的方法可以将音频序列分解为语音内容和背景噪声,大大降低了对音频样本的质量要求,可以使用嘈杂的,甚至是“包含感情”的音频数据样本来生成视频。

 

“众所周知,语言一直充满变化。对于同样的话,不同的人会根据不同的上下文中使用不同的发音时间、幅度、语调等。使用语言的语音除了决定了说话的内容之外,还包含丰富的其他信息,从这些信息中可以看出说话者的情绪状态、身份(性别,年龄,种族)和性格。据我们所知,从音频表示学习的角度来看,我们提出的方法是首个提高语音表现的方法。

 

可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频_第2张图片

这个方法技术基础是可学习隐性表示的可变自动编码器(VAE)。VAE能够将输入音频序列分解为不同的表示形式,用于编码内容、情感和其他变量因素。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入的面部图像一起被送到视频生成器中,对面部进行动画化处理。

可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频_第3张图片

输入图像和输出视频的截图比较

研究人员使用三个数据集来对VAE进行训练和测试,分别是:

 

  • GRID,一个视听语料库,包含来自34个讲者的1000条语音记录;

  • CREMA-D,由来自91个不同种族人士的7442个剪辑组成。

  • LRS3,包括取自TED视频中的超过10万口语句子的数据库。

 

研究人员将GRID和CREMA-D输入模型中,教模型如何对语音片段进行分解和情感表示,然后使用一对定量指标:峰信噪比(PSNR)和结构相似性指数(SSIM)来衡量VAE的表现。

 

可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频_第4张图片

与基线方法在不同数据集上的性能比较

结果显示,文中的方法在处理纯正、自然的语音片段时,表现出的性能不亚于与其他所有模型。而且能够在整个情感范围内保持一致的表现,并与当前所有最新的说话人生成方法实现兼容。

 

论文作者表示:“我们针对变体的可学习先验方法可扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们通过对嘈杂的和情感的音频样本进行测试来验证模型,并表明在存在这种音频变化的情况下,我们的方法明显优于当前的最新技术。”

参考链接:

https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/

论文链接:

https://arxiv.org/pdf/1910.00726


CV细分方向交流群

52CV已经建立多个CV专业交流群,包括:目标跟踪、目标检测、语义分割、姿态估计、人脸识别检测、医学影像处理、超分辨率、神经架构搜索、GAN、强化学习等,扫码添加CV君拉你入群,如已经为CV君其他账号好友请直接私信,

(请务必注明相关方向,比如:目标检测

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

你可能感兴趣的:(可怕!微软AI:一张面部照片一段音频,完美生成头像演讲视频)