论文阅读:3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head

  • 这个好像还没见刊

文章目录

      • 输入输出
      • 背景
      • 贡献
      • 方法
        • 3d 重建
        • 情绪增强
        • Representation of 3D Mesh as Image
        • Neutral Talking Model
        • Emotion Transfer

输入输出

输入是neutral 3d mesh 和一段声音信号
输出是 带有情绪的人脸动画

背景

现在3d emotion dataset 比较少

贡献

  1. 创建了一个3d 数据集
  2. 端到端的对3d talking head animation的框架
  3. 提出了新型的3d face的表达方式

方法

概括来说有3点:

  1. 提取音频信息
  2. 预测顶点变换
  3. 情绪变换, 生成3d mesh data (情绪这里是离散的标签)

论文阅读:3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head_第1张图片

3d 重建

这里对3d model的表达是这样的, 不和3dmm一样
在这里插入图片描述
这里是用2d 的landmarks来拟合3d
在这里插入图片描述
使用了正交投影 orthographic projection
在这里插入图片描述

情绪增强

因为数据比较少, 于是选择了3个情绪分别是开心, 惊讶, 生气这三个情绪进行增强, 增强方法原文写的不是很容易理解, 贴出原文:

论文阅读:3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head_第2张图片

Representation of 3D Mesh as Image

这部分直接贴出做法, 因为它讲的实在是不怎么清楚
论文阅读:3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head_第3张图片

核心点就是之前的预测都是直接的预测点, 没有考虑点和点之间的关系, 这个构建是使用了测地线距离, 同时使用MDS方法降维, 这样保留了连接信息
论文阅读:3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head_第4张图片

Neutral Talking Model

直接从语音预测的部分是使用了别人的工作, Capture, learning, and synthesis of 3d speaking styles. 挺好的一篇文章
不过这里的点还是不太一样, 原文的模型是5023个点, 现在的模型是12483个点.

Emotion Transfer

使用StarGan做的

你可能感兴趣的:(3维人脸重建,3d,深度学习,计算机视觉,几何学)