MuseTalk:利用潜在空间进行高质量实时唇形同步

MuseTalk:利用潜在空间进行高质量实时唇形同步_第1张图片

论文题目:MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting
论文链接:https://arxiv.org/abs/2410.10122
发表于:arXiv 2025
单位:腾讯、港中文大学
代码:https://github.com/TMElyralab/MuseTalk

研究背景

  1. 研究问题:这篇文章要解决的问题是实现高分辨率、身份一致性和准确的唇形同步在人脸视觉配音中的挑战,特别是在实时应用如直播视频流中。
  2. 研究难点:该问题的研究难点包括:如何在保证高分辨率和身份一致性的同时,实现高精度的唇形同步;如何在实时应用中高效地进行推理。
  3. 相关工作:现有的语音驱动的人脸生成方法可以分为三类:特定人物的人脸生成、一次性人脸生成和少镜头人脸视觉配音。这些方法在生成质量和计算资源需求上各有优缺点,但在实时应用方面仍存在不足。

研究方法

<

你可能感兴趣的:(计算机视觉,数字人,talking,head,talking,face,3d)