Neural Dubber: Dubbing for Videos According to Scripts

会议:2021 NIPS
单位:字节 & 清华交叉信息
作者:Chenxu Hu, wangyuxuan

abstract

motivation:给影视剧配音,通过唇型得到音素时间,辅助TTS生成语音;通过人脸识别给spk-id,指导TTS生成不同的音色。要求内容和输入的文本一致,韵律和输入的video一致(只有图像,没有音频)。

related work

  • TTS: text-to-speech,Dubber的输入不仅是text,还有vedio,多模态的任务;
  • Talking Face Generation:wav2lip,给语音(phone+duration),生成2D/3D的人脸+口型
  • Lip to Speech Synthesis:根据video中人物的口型,生成语音。Vid2Speech/Lipper/Lip2Wav模型在做这件事情,但是会有一些字发音错误的问题,主要是因为lip reading的错误率。在Dubber任务中,已经有文本的信息,再辅助上video中口型和phone的对齐,因此会避免lip2phone识别错误的问题。

method

Neural Dubber: Dubbing for Videos According to Scripts_第1张图片

因为要实时生成配音,采用fastspeech的框架。

  • phone encoder + video encoder(只从视频中裁取唇部的图像输入)

  • Text-Video Aligner:Neural Dubber: Dubbing for Videos According to Scripts_第2张图片
    H v i d H_{vid} Hvid 实际上控制了attention的系数,精确的控制对齐;

  • Image-based Speaker Embedding Module:预训练的人脸识别模型,将送入的人物图片编码成high-level embedding,然后送入ISE模块一起参与训练,生成ISE。作者认为这种方式可以让模型自己学到ISE和音色之间的相关性(比如性别、年龄)----------video的ISE与对应的音频匹配训练,没有其他用于监督训练的说话人身份信息

Experiments and Results

dataset

  • 单人数据集:Lip2Wav,从youtube中拿到对应句子级别的文本;然后对video按照对应的文本进行切分,会存在部分有语音但是没有人物唇形的数据,删除不用;最后可用的数据一共9h;
  • LRS2数据集:BBC的多人数据集,有video和文本;训练集29h

测试

  • 测试指标:生成音频的质量,以及音频内容和视频口型的一致性;
  • 测试方式:主观评测(亚马逊众包)& SyncNet(开源的检测语音和口型一致)
  • Lip Sync Error Distance (LSE-D) :音频和视频特征的距离,值越小一致性越高;
  • Lip Sync Error Confidence (LSE-C) : 音频和视频特征一致性的置信度,值越高越好;


Neural Dubber: Dubbing for Videos According to Scripts_第3张图片

conclusion

如果演员的口型和文本对不上,infer的时候会因为不一致而出错;

你可能感兴趣的:(paper笔记,深度学习,语音识别)