一种由视频和音频共同驱动的说话人脸合成方法简介

最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个说话人脸生成工具,可以由视频和音频共同驱动

Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4176-4186).

简单记录一下

说话人脸合成的基本框架

一种由视频和音频共同驱动的说话人脸合成方法简介_第1张图片

Chen, L., Cui, G., Kou, Z., Zheng, H., & Xu, C. (2020). What comprises a good talking-head video generation?: A survey and benchmark. arXiv preprint arXiv:2005.03201.

  • 由静态人脸生成一个人脸特征(向量或矩阵)
  • 由驱动源(人脸特征或者音频特征)生成动作特征(向量或矩阵)
  • 将两个特征融合,再送给某生成式模型(通常是GAN)合成人像

由动态姿态控制静态图片姿态的方法

一种由视频和音频共同驱动的说话人脸合成方法简介_第2张图片

Burkov, E., Pasechnik, I., Grigorev, A., & Lempitsky, V. (2020). Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 13786-13795).

  • 将人脸特征嵌入到一个Identity embedding向量,将姿态信息嵌入到Pose embedding向量,
  • 两个向量利用一个MLP融合
  • 将融合向量送入StyleGAN重建具有姿态信息的人像

由音频和姿态共同驱动的说话人脸生成

这部分就是开头那篇文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》

动机

  • 针对任意人的、以其音频驱动的说话人脸生成研究方向,已实现了较准确的唇形同步,但头部姿势的对齐问题依旧不理想
  • 此前的方法依赖于预先估计的结构信息,例如关键点和3D参数。但极端条件下这种估计信息不准确则效果不佳

贡献

  • 提供了一种由音频控制嘴唇,由视频控制姿态的说话人脸生成方式

示例

环境配置
一种由视频和音频共同驱动的说话人脸合成方法简介_第3张图片

一种由视频和音频共同驱动的说话人脸合成方法简介_第4张图片
从左到右依次是

  • 静态人脸
  • 生成结果
  • 姿态信息
  • 语音源

方法框架

一种由视频和音频共同驱动的说话人脸合成方法简介_第5张图片

  • 对于每个固定的帧,将三种特征向量(Embedding)顺序拼接(concate)为一个长特征(上图中的fcat部分)
  • 由MLP融合后送入GAN重建人脸

你可能感兴趣的:(图像处理,着色器,图像处理,几何学)