数据集包含 M M M个video sequences,其中第 i i i个video记为 x i \textbf{x}_i xi,第 t t t帧记为 x i ( t ) \textbf{x}_i(t) xi(t)
对 x i ( t ) \textbf{x}_i(t) xi(t)提取landmark,将landmark连成线段,使用不同的颜色画在一幅白底图上,得到landmark image(如Figure 2左上角所示),记为 y i ( t ) \mathbf{y}_i(t) yi(t)
如Figure 2所示,总共有3个网络
simulating episodes of K-shot learning (K = 8 in our experiments)
随机选取第 i i i个视频 x i \textbf{x}_i xi中的第 t t t帧 x i ( t ) \textbf{x}_i(t) xi(t),接着再从这个视频中额外抽取 K K K帧,也就是 K K K个index,记为 s 1 , s 2 , ⋯ , s K s_1, s_2, \cdots, s_K s1,s2,⋯,sK
首先按照公式(1)计算 e ^ i \hat{\textbf{e}}_i e^i
e ^ i = 1 K ∑ k = 1 K E ( x i ( s k ) , y i ( s k ) ; ϕ ) ( 1 ) \hat{\textbf{e}}_i=\frac{1}{K}\sum_{k=1}^{K}E\left ( \textbf{x}_i(s_k), \textbf{y}_i(s_k); \phi \right ) \qquad(1) e^i=K1k=1∑KE(xi(sk),yi(sk);ϕ)(1)
e ^ i \hat{\textbf{e}}_i e^i配合 y i ( t ) \textbf{y}_i(t) yi(t),送入生成器 G G G生成第 t t t帧图像
x ^ i ( t ) = G ( y i ( t ) , e ^ i ; ψ , P ) ( 2 ) \hat{\textbf{x}}_i(t)=G\left ( \textbf{y}_i(t), \hat{\textbf{e}}_i; \psi, \mathbf{P} \right ) \qquad(2) x^i(t)=G(yi(t),e^i;ψ,P)(2)
E E E和 G G G的参数通过最小化公式(3)得到
L ( ϕ , ψ , P , θ , W , w 0 , b ) = L C N T ( ϕ , ψ , P ) + L A D V ( ϕ , ψ , P , θ , W , w 0 , b ) + L M C H ( ϕ , W ) ( 3 ) \begin{aligned} \mathcal{L}&\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )=\mathcal{L}_{CNT}\left ( \phi, \psi, \mathbf{P}\right )+ \\ &\mathcal{L}_{ADV}\left ( \phi, \psi, \mathbf{P}, \theta, \mathbf{W}, \mathbf{w}_0, b \right )+\mathcal{L}_{MCH}\left ( \phi, \mathbf{W} \right ) \qquad(3) \end{aligned} L(ϕ,ψ,P,θ,W,w0,b)=LCNT(ϕ,ψ,P)+LADV(ϕ,ψ,P,θ,W,w0,b)+LMCH(ϕ,W)(3)
其中 L C N T \mathcal{L}_{CNT} LCNT是ground truth image x i ( t ) \mathbf{x}_i(t) xi(t)与the reconstruction x ^ i ( t ) \hat{\textbf{x}}_i(t) x^i(t)之间的perceptual similarity measure; L A D V \mathcal{L}_{ADV} LADV是adversarial loss;
当meta-learning收敛后,需要对一个new person单独进行fine-tuning,这个new person只提供了少量图像,所以叫做few-shot learning
具体来说,我们有 T T T幅图像 x ( 1 ) , x ( 2 ) , ⋯ , x ( T ) \textbf{x}(1), \textbf{x}(2), \cdots, \textbf{x}(T) x(1),x(2),⋯,x(T),以及对应的landmark图像 y ( 1 ) , y ( 2 ) , ⋯ , y ( T ) \textbf{y}(1), \textbf{y}(2), \cdots, \textbf{y}(T) y(1),y(2),⋯,y(T),此处 T T T不需要与meta-learning中的 K K K相等
使用meta-learned embedder提取vector
e ^ N E W = 1 T ∑ t = 1 T E ( x ( t ) , y ( t ) ; ϕ ) ( 7 ) \hat{\textbf{e}}_{NEW}=\frac{1}{T}\sum_{t=1}^{T}E\left ( \textbf{x}(t), \textbf{y}(t); \phi \right ) \qquad(7) e^NEW=T1t=1∑TE(x(t),y(t);ϕ)(7)
然后可以对new person生成新的图像,但由于存在identity gap,生成图像的质量无法满足要求,因此需要fine-tuning
fine-tuning包含以下几个成分
fine-tuning可以看作是在一段video上的简化版的meta-learning
生成效果见原文,这是一篇ICCV oral,视频中展示的生成video具有比较高的fidelity
【总结】
本文解决的问题是few-shot条件下的talking head的生成问题,使用meta-learning着重解决不同阶段参数的初始化问题,网络结构上没有太多改进,采用的是最近流行的结构,最终能够实现基于lanmark驱动的人脸图像生成
本文不足是对于每一个new person,仍然需要进行fine-tuning,并且在最后的Conclusion也指出了landmark无法表达比较细微的特征(如gaze),使用别人的landmark存在一定偏差,或许需要进行landmark adaptation