Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

ABSTRACT:

在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要原因,并学习了一个强大的口型匹配模型。接着,我们提出新的口型评估标准,从而精准评估任意视频的口型匹配的准确度。结果表明,我们的模型wav2lip跟真实视频的准确率相当。

1. INTRODUCTION:

随着视频内容消费的爆炸增长,从而需要快速的视频创作。同时,让这些视频以不同的语言进行呈现也是一种挑战。

一开始的工作是使用深度学习学习一个单一的演讲者几个小时的视频,从语音特征到嘴唇关键点的映射。在这个方向上,最近开始学习直接从语音特征生成图片并且具有较高的生成质量。然而,这些并不通用。于是,通过学习上千个演讲者的视频,研究了与演讲者无关的模型。然而,要应用于翻译讲座/电视剧等应用且并不理想,例如,这些模型需要能够变形这些动态的、无约束的视频中,呈现的广泛多样的唇形,而不仅仅是静态图像。

我们的模型也是演讲者无关的模型,希望能适用于任意演讲者及视频。我们发现,这些模型在静态图像中工作得很好,但无法在无约束的视频内容中精确地改变大量唇形,导致生成的视频的很大一部分与新的目标音频不同步。一个观看者可以识别0.05~0.1秒的音视频不同步,因此这对我们工作是个挑战。而且,现实视频中演讲者的姿势,周围光照环境,要完美合成也是一个挑战。

我们首先回顾当前演讲者无关的模型,我们发现,这些模型不能充分惩罚错误的唇形,无论是仅使用重建损失或弱同步鉴别器。

你可能感兴趣的:(付费专栏,人工智能,计算机视觉,深度学习)