制作“蚂蚁呀嘿”的“变脸”软件Avatarify，它为何爆火，又为何沉寂

3月2日，风靡一周多的“变脸”视频软件Avatarify从ios中国区商店下架。在这一周多的换脸娱乐狂欢中，利用这个软件制作的“蚂蚁呀嘿”视频火爆朋友圈和各大短视频平台。大家纷纷上传自己利用明星照片、卡通头像乃至自己与朋友的合照制作的小视频，收获无数点赞（图一）。如今，狂欢暂告一段落，是时候回头审视这个“变脸”盛宴的始作俑者，以及隐藏在其背后的，且不被大多人关注的，数据伪造与泄露的隐忧。

图一、利用著名球星制作的“蚂蚁呀嘿”视频

Avatarify，程序员居家办公的无聊之作

疫情期间，世界上无数人被迫远程办公，百无聊赖的生活和频繁的视频会议催生了大家的创意，Avatarify就是其中之一。Avatarify源自于单词avatar，原意为“（神的）化身”，后被引申为网络上代表使用者的用户形象或用户头像，avatarify可直译为“头像化”，意为“使变得像你的头像一样”。这个软件项目的初衷是用来改换使用者的视频会议头像，和同事们开个小小的玩笑（图二）。但随着在代码项目托管网站GitHub上日渐受到追捧，软件功能也日益完善，从最开始要求使用者安装编译环境与代码并在高等级的显卡上运行，到推出Windows图形界面和远程运行模式，降低了技术和硬件的门槛；如今又推出手机应用，手指轻点便能将一张张静止的人脸随着音乐律动了起来。虽然“变脸”后的视频并不完美，有些角度甚至还有些扭曲，但不妨碍网友们被魔性的表情洗脑，纷纷上传并转发。类似的“变脸”技术常被称为“深度伪造”（Deepfake）技术，在近几年的网络上屡见不鲜，为何Avatarify能够异军突起，它和之前流行过的“变脸”软件又有什么不同呢？

图二、在视频会议上化身特斯拉CEO伊隆·马斯克，惊艳你的同事

图像动态化，让静止的图像动起来

Avatarify实现的功能被称为“人脸图像动态化”，与之前曾流行过的换脸软件“ZAO”不同，后者将用户上传的人脸替换目标视频中的人脸，这样的技术一般被称为“人脸替换”（Face Swap），而前者则是使用一段包含动作的视频，称为驱动视频（driving video，简称），驱动用户上传的源图像（source image，简称）使静止的图像按照视频的方式动起来，称为“图像动态化”（Image Animation）（图三）。图像动态化不仅可用于人脸图像，理论上只要视频和图像素材中包含有相似的物体即可（图四、图五）。

图三、人脸替换vs图像动态化

图四与图五、对人体全身姿态图像和卡通画马的动态化，左边的大图为驱动视频，右边上一行为静止的源图像，下一行为经过图像动态化后的结果。图片选自https://github.com/AliaksandrSiarohin/first-order-model

一阶运动模型，自监督学习无需额外标注数据

Avatarify的技术理论名为一阶运动模型（First Order Motion Model，简称FOMM），来源于一篇名为《图像动态化的一阶运动模型》（First Order Motion Model for Image Animation）的论文，由意大利特伦托大学（University of Trento）的Aliaksandr Siarohin等人发表在NeurIPS 2019上。以往的人脸图像动态化的相关工作往往需要大量的人脸训练图像以及相应的标注信息，且训练好的模型只能应用于特定人脸，而无法应用到未知的人脸中。而FOMM无需大量标注数据，且一旦利用人脸视频等某一类数据完成模型训练，该模型便可直接运用在任何同类图像数据上，无需额外处理。

FOMM包含两个模块，分别为运动提取模块（Motion module）与生成模块（Generation module），运动提取模块求取稠密运动场（Dense motion field）和遮挡映射（Occlusion map），稠密运动场作用于源图像，使其具有与驱动视频帧相同的动作；遮挡映射用于标记到的运动发生后原先运动物体遮挡的部分背景，该部分需要在生成模块进行图像补全（Image inpainting）；生成模块利用运动提取模块学习到的运动信息对源图像进行变换，并对生成的图像进行补全和优化。

图六、一阶运动模型（First Order Motion Model，简称FOMM）示意图

1. 运动提取模块

运动提取模块包括两个网络模型，具体如下：

第一个网络是一个无监督关键点检测模型，将源图像和驱动视频帧作为输入，输出两个图像各个关键点以及各关键点对应的仿射变换（Affine transformation），计算得到与两帧个关键点之间对应的稀疏运动场（Sparse motion field），用来描述两帧之间个关键点的变换关系。
第二个网络将个关键点及对应的稀疏运动场作为输入，可以得到个mask矩阵和一个遮挡映射。可以看做是标记了第k个关键点的周围区域，该区域可以通过该关键点对应的稀疏运动场进行变换。再额外加上一个标记无需变换的区域，如背景等。稀疏运动场与结合便能得到稠密运动场，描述了两帧所有对应像素点的变换关系。

需要特别说明的是，由于和的关键点差异可能会比较大，作者于是创新性地引入了一个抽象的参考帧，通过预测和来计算，具体公式如下：
如此，预测的问题就转化为了预测的问题，为输入图像，比如和。FOMM利用的关键点附近的一阶泰勒展开来近似，这也是文章名“一阶运动模型”的由来。
假设为上的关键点，为上的关键点，即有。在的一阶泰勒展开如下：
上式右边第一项即为的一个关键点，第二项即为该关键点对应的仿射变换。此二项即为图像输入关键点检测网络后的输出。将同样进行一阶泰勒展开，经推导（详见原文附录）后得到：
其中，
这样，就能唯一由和决定，而后两者可由关键点检测网络得到。

2. 生成模块

生成模块并不直接对源图像的像素进行一一变换，而是先将输入一个下采样卷积编码器得到的特征映射（feature map），使用对该特征进行变换，注意遮挡映射中标记的遮挡部分不用进行变换；将变换后的特征输入后续的解码器，结合的遮挡区域对图像进行补全并优化。

3. 训练模型，提取运动信息

FOMM模型采用自监督训练方式，利用驱动视频的第一帧（）与第帧（）作为运动提取模块的输入，即将与作为和，提取到的运动信息，将变换为，并利用生成的帧与原帧计算训练损失。以这样的方式训练FOMM便不需要额外的标签数据。

生成帧与原帧之间的训练损失，通过将两幅图片分别输入VGG19网络，取其中5层的特征值计算平均距离获得。该损失同时在四个图像尺度上进行计算，即将与下采样至, , 和四个尺寸并分别计算5层特征值的平均距离，共20个训练损失项。此外，由于图像关键点由无监督关键点检测网络学习而来，特引入关键点不变性约束（equivariance constraint），旨在确保原图与变换后图像关键点的一致性，提高关键点检测准确性。

4. FOMM总结

通过以上的解析，我们可以看出FOMM的有如下优点：无需大量训练数据，无需标注数据，用于训练的视频一旦训练完成可用于变换任一与视频同类型图片（如人脸视频对应人脸图片）。这些优点大大简化了模型的训练流程，对不同的用户上传图像有良好的可迁移性，其便捷程度也无怪乎能成为一款爆款App的核心算法。

“变脸”狂欢，除了娱乐还有隐患

2019年8月，一款名为“ZAO”的换脸软件登上各大手机应用市场的排行榜，大家纷纷用自己打脸扮演着经典的电影桥段，一时间“换脸”视频充斥中文互联网的各个角落。然而还没火几天，ZAO的霸王用户协议便在社交网络广泛传播，其中规定用户上传的人脸内容可被ZAO及关联公司任意使用，风险却仍由用户承担。一时间众人纷纷恐慌自己的脸被滥用，ZAO也随之从各大手机市场下架。彼时彼刻，恰如此时此刻。虽然ZAO与Avatarify的实现功能与底层技术都不尽相同，但同样作为“变脸”软件，它们的用户面临的风险却都不止于此。近年来，这样的“变脸”技术渐渐兴起，隔一段时间就能掀起一个爆款，登上热搜吸引一次眼球。它们还有一个更常见的名字，叫作深度伪造。
深度伪造技术，简称深伪，英文为Deepfake，是深度学习（Deep learning）和伪造（fake）的结合。AI技术的蓬勃发展，带来了诸如VAE、GAN等能够生成逼真图像的深度生成模型，而深度伪造技术便脱胎于此。起初，生成一个不存在的人脸，或者交换图中的两个人脸，只是相关研究人员的技术探索，专业的算法知识、大量的计算资源和充足的运算时间缺一不可。然而随着技术的发展，专业的算法被打包成一键式傻瓜操作的手机应用，强大的云计算服务解放了本地计算资源和时间的限制，“变脸”的门槛逐渐消失了，原本需要数天才能在顶级配置的计算机中得到的逼真结果，现在大家掏出手机便能制作。伴随着病毒式的娱乐狂欢，隐患也在悄然浮现。
Deepfake这一名称最早来源于国外制作色情换脸视频的社区，该社区虽然由于涉及色情视频、隐私侵犯等问题已经被封禁，但色情换脸视频仍旧是深度伪造技术最大的隐患，其以极低的成本就能造成当事人名誉与心理上的极大伤害；伪造政界或商界人士的公开讲话，传播虚假观点，有可能导致社会或市场的巨大震动，造成不必要的损失；使用图像动态化技术制作的诸如点头、眨眼的视频，有可能骗过App或门禁系统的人脸认证系统，导致财务失窃与信息丢失；更有甚者，利用伪造的视频降低被伪造人亲友的警惕性，从而实施诈骗等违法犯罪活动。

拒绝隐患，我们在行动

技术无罪，只有合理的监管才能让技术远离作恶。深度伪造技术问世以来，如何检测真伪视频也便成为了关注的焦点。2020年11月，由中央网信办、中国公安部指导，信通院参与协办的中国人工智能·多媒体信息识别技术大赛在厦门举行。本届比赛首次加入了“视频深度伪造”赛项，共34支来自高校、企业与事业单位的队伍参与了比赛，最终排名前三的队伍均达到了世界相似赛事的顶尖水平，反映出各单位在深度伪造检测领域的研究已颇有建树；目前《深度伪造视频检测平台指标要求和评估方法》正处于讨论稿阶段，其规范了测评深伪视频检测平台的方法，并制定了功能与性能评测的指标，未来将作为团体标准并以此开展测试；同时，根据中国人工智能产业发展联盟发布的《可信AI操作指引》，参与开展可信AI试评估，规范AI应用与AI平台搜集与使用人脸数据的行为，确保人脸数据安全。信通院还向各单位征集“深伪”检测系统工具，并提出以下几点建议：

制作更大规模、更多种类的深伪数据集
监测国内外深伪动态
建立“深度伪造云鉴”平台
开展评估规范研制
举办技术沙龙、赛事活动

技术在进步，我们在为新的功能欢欣鼓舞时，也要时刻留意随之而来的挑战。中国信通院积极参与深度伪造监管体系的构建，为保障数据安全与个人隐私贡献力量，为可信的AI与网络环境保驾护航。