推荐基于深度学习实时同步生成2D动画口型算法

概述

实时二维动画是一种相当新颖而强大的交流形式,它使表演者可以实时控制卡通人物,同时与其他演员或观众互动和即兴表演。

推荐基于深度学习实时同步生成2D动画口型算法_第1张图片

最近的例子包括史蒂芬·科尔伯特(Stephen Colbert)在《后期秀》中采访卡通客人,荷马在《辛普森一家》(The Simpsons)的一段节目中回答观众的现场电话提问,阿切尔(Archer)在ComicCon上与现场观众交谈,以及迪斯尼的《星际大战:邪恶力量》和My Little Pony通过YouTube或Facebook Live与粉丝们进行实时聊天会话。

制作逼真的,有效的实时2D动画需要使用交互式系统,该系统可以自动将人类表演实时转换为动画。这些系统的一个关键方面是获得良好的口型同步,这实质上意味着动画人物的嘴巴在说话时会适当移动,模仿在表演者的嘴巴中观察到的动作。

推荐基于深度学习实时同步生成2D动画口型算法_第2张图片

良好的口型同步可以使实时2D动画更具说服力和功能强大,使动画角色可以更真实地体现性能。相反,不良的口型同步通常会破坏角色作为现场表演或对话参与者的幻觉。

两位研究人员在研究的Adobe和华盛顿大学推出了深基础的学习互动系统,可自动生成分层2 d动画人物活唇音同步。他们开发的系统使用了长期短期记忆(LSTM)模型,一种递归神经网络(RNN)架构,该架构通常应用于涉及对数据进行分类或处理以及进行预测的任务。

“由于语音几乎是每个实时动画的主要组成部分,因此我们认为在这一领域要解决的最关键的问题是实时口型同步,这需要将演员的语音转换为动画角色中相应的嘴部动作(即视位序列)。在这项工作中,我们专注于为实时2D动画创建高质量的口型同步。”进行这项研究的两位研究人员Wilmot Li和Deepali Aneja通过电子邮件告诉TechXplore。

Li是Adobe Research的首席科学家,拥有博士学位。计算机科学领域的一位学者一直在针对计算机图形学与人机交互的交叉点进行广泛的研究。另一方面,Aneja目前正在完成博士学位。她是华盛顿大学图形和图像实验室的一员。

Li和Aneja开发的系统使用简单的LSTM模型,以每秒24帧的速度将流音频输入转换为相应的视位音素序列,延迟小于200毫秒。换句话说,他们的系统允许动画人物的嘴唇以与人类用户实时说话相似的方式移动,而声音和嘴唇移动之间的延迟小于200毫秒。

“在这项工作中,我们做出了两点贡献:确定适当的特征表示和网络配置,以实现实时2D唇形同步的最新结果,并设计一种新的增强方法来收集模型的训练数据,”李和阿内贾解释。

“对于手工创作的口型同步,专业动画师会根据音素的特定选择以及过渡的时间和数量做出风格上的决定。因此,训练一个'通用'模型对于大多数应用来说是不够的,”李克强和阿内贾说。此外,获得标记的口型同步数据以训练深度学习模型可能既昂贵又耗时。专业动画制作人员每分钟的演讲时间可花五到七个小时来手工制作视位序列。意识到这些限制,Li和Aneja开发了一种可以更快,更有效地生成训练数据的方法。

为了更有效地训练他们的LSTM模型,Li和Aneja引入了一项新技术,即使用音频时间扭曲来增强手工编写的训练数据。即使在较小的标记数据集上训练其模型时,此数据增强过程也能实现良好的口型同步。

为了评估他们的互动系统在实时生成口型同步中的有效性,研究人员要求人类观众对使用他们的模型和使用商业二维动画工具制作的实时动画的质量进行评估。他们发现,与其他技术相比,大多数观看者更喜欢他们的方法产生的口型同步。

推荐基于深度学习实时同步生成2D动画口型算法_第3张图片

Li和Aneja表示:“我们还研究了口型同步质量与训练数据量之间的权衡,我们发现我们的数据增强方法显着改善了模型的输出。” “总的来说,我们仅用15分钟的人工嘴唇同步数据就能产生合理的结果。”

有趣的是,研究人员发现,他们的LSTM模型可以根据训练的数据获得不同的口型同步样式,同时还可以在广泛的演讲者中广泛推广。该模型取得了令人鼓舞的结果,令他们印象深刻,Adobe决定将其版本集成到2018年秋季发布的Adobe Character Animator软件中。

“准确,低延迟的唇形同步对于几乎所有实时动画设置都很重要,我们的人工判断实验表明,我们的技术在现有的最新2D唇形同步引擎上进行了改进,其中大多数需要离线处理, ”李和阿内贾说。因此,研究人员认为,他们的工作对于实时和非实时2D动画制作都具有直接的实际意义。研究人员没有意识到以前的2-D唇形同步工作与商业工具进行了类似的全面比较。

Li和Aneja在最近的研究中能够解决与实时2D动画技术发展相关的一些关键技术挑战。首先,他们展示了一种使用RNN编码用于2D唇形同步的艺术规则的新方法,该方法将来可能会得到进一步增强。

结果

下面是用克洛伊和巫师判断实验,在视频摘要和补充资料中显示了与其他角色的口型同步结果:

推荐基于深度学习实时同步生成2D动画口型算法_第4张图片

作者的方法明显优于所有商业工具,包括离线方法,完整模型也优于无扩展数据(OursNoAug)和三分之二的扩展数据(Ours2 / 3)训练的版本。但是,对Ours2 / 3的偏好很小,这表明该数量的数据可能足以训练有效的模型。

推荐基于深度学习实时同步生成2D动画口型算法_第5张图片

结论

研究人员认为,应用现代机器学习技术来改善二维动画工作流程的机会更多。“到目前为止,挑战之一是缺少训练数据,这很昂贵。但是,正如我们在这项工作中所显示的那样,可能存在利用结构化数据和自动编辑算法(例如动态时间扭曲)来最大化利用的方法,手工制作的动画数据的实用性。

相关论文数据集下载地址:关注“图像算法”微信公众号 回复“嘴型”

你可能感兴趣的:(图像算法)