论文总结:Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert
在这篇论文中,作者主要注重嘴唇同步。首先会训练一个lipreadingexpert即唇读专家,基于AV-Hubert的一个唇读专家,会在训练前进行微调后冻结。在训练的时候,会选择一个T时刻的0.2s的音频送入基于CNN的audioecoder中。与之对应的T时刻的图像mask嘴唇部分,再与随机选择的身体参考图像合拼在一起,作为基于CNN的videoencoder的输入。由生成器生成的图像会与真实的