论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks

论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks_第1张图片
论文的大致流程如上所示。首先使用Dlib从身份参考的图像中,提取特征点,经过由MLP组成的Elm。输入的音频经过MFCC编码,后分为两路。其中一路将编码后的结果送入Ea,另外一路将结果送入MSEF(Memory-Sharing Emotional Feature Extractor)。MESF用于提取情感特征。将Elm和Ea,MSEF的结果一起放入Audio2Lm(由LSTM和一个全连接层组成)。emotion classifier是一个情感分类器,涉及到一个loss函数为:
论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks_第2张图片
y^为情感分类器预测的情感分类,y为真实的情感标签。Audio2Lm输出为每一帧的面部标志。这里生成的面部标志会与真实的面部标志之间使用loss函数,使生成的标志更加真实。随后将生成的标志与原始图片在通道的维度上拼接,最后放入AATU生成视频帧。AATU的结构如下所示:
论文总结:Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks_第3张图片
https://paperswithcode.com/paper/emotional-talking-head-generation-based-on,在此网站上暂未找到源码。

你可能感兴趣的:(论文总结,人工智能,深度学习)