MeMFace解析

Implicit memory

上述几篇文章做了一些尝试,引入可读写的spceialized implicit memory,

audio2expression

输入:audio feature A ∈ R T × h a A \in R^{T\times h_a} ART×ha
模型:audio2expression模型 f f f
输出:和语音内容语义对齐的表情系数 α ^ e x p ∈ R T × h c \hat{\alpha}_{exp} \in R^{T\times h_c} α^expRT×hc
在这个输入输出中, T T T是帧数, h a h_a ha是音频特征的维度。 h c h_c hc是嘴部相关的表情系数的维度。
本文的实验, h a = 64 h_a=64 ha=64 h c = 85 h_c=85 hc=85 h v = 69 h_v=69 hv=69

为了解决这个sequence-to-sequence问题, f f f使用Transformer-based结构。并在模型 f f f中加入显式记忆,解决one-to-many的映射问题。训练刚开始,key set和value set随机初始化,根据训练过程中的误差反传,更新参数。$$

α ^ e x p = f d e c ( Q a 2 e ⊕ a t t n ( Q a 2 e , K a 2 e , V a 2 e ) ) \hat{\alpha}_{exp} = f_{dec}(Q^{a2e} \oplus attn(Q^{a2e}, K^{a2e}, V^{a2e})) α^exp=fdec(Qa2eattn(Qa2e,Ka2e,Va2e))
⊕ \oplus : 逐元素相加。
K a 2 e K^{a2e} Ka2e: [ M , h a ] [M, h_a] [M,ha]
V a 2 e V^{a2e} Va2e: [ M , h a ] [M, h_a] [M,ha]
M代表keys和values的数目。

你可能感兴趣的:(深度学习)