Few-Shot Adversarial Learning of Realistic Neural Talking Head Models(ICCV19)

3. Methods

3.1. Architecture and notation

数据集包含 M M M个video sequences,其中第 i i i个video记为 x i \textbf{x}_i xi,第 t t t帧记为 x i ( t ) \textbf{x}_i(t) xi(t)

x i ( t ) \textbf{x}_i(t) xi(t)提取landmark,将landmark连成线段,使用不同的颜色画在一幅白底图上,得到landmark image(如Figure 2左上角所示),记为 y i ( t ) \mathbf{y}_i(t) yi(t)

如Figure 2所示,总共有3个网络

  • embedder E ( x i ( s ) , y i ( s ) ; ϕ ) E\left ( \mathbf{x}_i(s), \mathbf{y}_i(s); \phi \right ) E(xi(s),yi(s);ϕ),将video frame x i ( s ) \mathbf{x}_i(s) xi(s)和对应的 y i ( s ) \mathbf{y}_i(s) yi(s)映射为一个 N N N维向量 e ^ i ( s ) \hat{\mathbf{e}}_i(s) e^i(s),这个 e ^ i ( s ) \hat{\mathbf{e}}_i(s) e^i(s)应该包含了video-specific information (such as the person’s identity)
  • generator G ( y i ( t ) , e ^ i ; ψ , P ) G\left ( \mathbf{y}_i(t), \hat{\mathbf{e}}_i; \psi, \mathbf{P} \right ) G(yi(t),e^i;ψ,P),利用landmark image y i ( t ) \mathbf{y}_i(t) yi(t)和video embedding e ^ i \hat{\mathbf{e}}_i e^i,生成一幅图像 x ^ i ( t ) \hat{\mathbf{x}}_i(t) x^i(t),生成器的训练目标是最大化 x ^ i ( t ) \hat{\mathbf{x}}_i(t) x^i(t)与其ground truth之间的similarity,生成器的参数分为两类,一是person-generic parameters ψ \psi ψ,二是person-specific parameters ψ ^ i \hat{\psi}_i ψ^i
  • Discriminator D ( x i ( t ) , y i ( t ) , i ; θ , W , w 0 , b ) D\left ( \mathbf{x}_i(t), \mathbf{y}_i(t), i; \theta, \mathbf{W}, \mathbf{w}_0, b \right ) D(xi(t),yi(t),i;θ,W,w0,b),可以进一步细分为ConvNet part V ( x i ( t ) , y i ( t ) ; θ ) V\left ( \mathbf{x}_i(t), \mathbf{y}_i(t); \theta \right ) V(xi(t),yi(t);θ)负责将input frame和landmark image映射为 N N N维向量,然后结合输入 i i i进一步映射为一个realism score r r r
    Question:无法理解为什么判别器的输入需要一个 i i i

3.2. Meta-learning stage

simulating episodes of K-shot learning (K = 8 in our experiments)

随机选取第 i i i个视频 x i \textbf{x}_i xi中的第 t t t x i ( t ) \textbf{x}_i(t) xi(t),接着再从这个视频中额外抽取 K K K帧,也就是 K K K个index,记为 s 1 , s 2 , ⋯   , s K s_1, s_2, \cdots, s_K s1,s2,,sK

首先按照公式(1)计算 e ^ i \hat{\textbf{e}}_i e^i
e ^ i = 1 K ∑ k = 1 K E ( x i ( s k ) , y i ( s k ) ; ϕ ) ( 1 ) \hat{\textbf{e}}_i=\frac{1}{K}\sum_{k=1}^{K}E\left ( \textbf{x}_i(s_k), \textbf{y}_i(s_k); \phi \right ) \qquad(1) e^i=K1k=1KE(xi(sk),yi(sk);ϕ)(1)

e ^ i \hat{\textbf{e}}_i e^i配合 y i ( t ) \textbf{y}_i(t) yi(t),送入生成器 G G G生成第 t t t帧图像
x ^ i ( t ) = G ( y i ( t ) , e ^ i ; ψ , P ) ( 2 ) \hat{\textbf{x}}_i(t)=G\left ( \textbf{y}_i(t), \hat{\textbf{e}}_i; \psi, \mathbf{P} \right ) \qquad(2) x^i(t)=G(yi(t),e^i;ψ,P)(2)

E E E G G G的参数通过最小化公式(3)得到
L ( ϕ , ψ , P , θ , W , w 0 , b ) = L C N T ( ϕ , ψ , P ) + L A D V ( ϕ , ψ , P , θ , W , w 0 , b ) + L M C H ( ϕ , W ) ( 3 ) \begin{aligned} \mathcal{L}&\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )=\mathcal{L}_{CNT}\left ( \phi, \psi, \mathbf{P}\right )+ \\ &\mathcal{L}_{ADV}\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )+\mathcal{L}_{MCH}\left ( \phi, \mathbf{W} \right ) \qquad(3) \end{aligned} L(ϕ,ψ,P,θ,W,w0,b)=LCNT(ϕ,ψ,P)+LADV(ϕ,ψ,P,θ,W,w0,b)+LMCH(ϕ,W)(3)
其中 L C N T \mathcal{L}_{CNT} LCNT是ground truth image x i ( t ) \mathbf{x}_i(t) xi(t)与the reconstruction x ^ i ( t ) \hat{\textbf{x}}_i(t) x^i(t)之间的perceptual similarity measure; L A D V \mathcal{L}_{ADV} LADV是adversarial loss;

3.3. Few-shot learning by fine-tuning

当meta-learning收敛后,需要对一个new person单独进行fine-tuning,这个new person只提供了少量图像,所以叫做few-shot learning

具体来说,我们有 T T T幅图像 x ( 1 ) , x ( 2 ) , ⋯   , x ( T ) \textbf{x}(1), \textbf{x}(2), \cdots, \textbf{x}(T) x(1),x(2),,x(T),以及对应的landmark图像 y ( 1 ) , y ( 2 ) , ⋯   , y ( T ) \textbf{y}(1), \textbf{y}(2), \cdots, \textbf{y}(T) y(1),y(2),,y(T),此处 T T T不需要与meta-learning中的 K K K相等

使用meta-learned embedder提取vector
e ^ N E W = 1 T ∑ t = 1 T E ( x ( t ) , y ( t ) ; ϕ ) ( 7 ) \hat{\textbf{e}}_{NEW}=\frac{1}{T}\sum_{t=1}^{T}E\left ( \textbf{x}(t), \textbf{y}(t); \phi \right ) \qquad(7) e^NEW=T1t=1TE(x(t),y(t);ϕ)(7)
然后可以对new person生成新的图像,但由于存在identity gap,生成图像的质量无法满足要求,因此需要fine-tuning

fine-tuning包含以下几个成分

  • Generator中person-specific的参数 ψ ′ \psi' ψ的初始化方式为

fine-tuning可以看作是在一段video上的简化版的meta-learning

4. Experiments

生成效果见原文,这是一篇ICCV oral,视频中展示的生成video具有比较高的fidelity

【总结】
本文解决的问题是few-shot条件下的talking head的生成问题,使用meta-learning着重解决不同阶段参数的初始化问题,网络结构上没有太多改进,采用的是最近流行的结构,最终能够实现基于lanmark驱动的人脸图像生成
本文不足是对于每一个new person,仍然需要进行fine-tuning,并且在最后的Conclusion也指出了landmark无法表达比较细微的特征(如gaze),使用别人的landmark存在一定偏差,或许需要进行landmark adaptation

你可能感兴趣的:(读书笔记)