一段包含多个人脸的视频中,攻击者只对一个或者几个人的人脸进行伪造,这种“半真半假”的伪造情况能否被检测识别?近日,阿里安全图灵实验室宣布,其已成功打造出针对这种换脸视频的DeepFake检测技术,阐述该技术的论文被国际学术顶会ACM MM2020收录。
DeepFake检测技术具有许多现实应用场景的价值,比如攻击者将不雅视频主角人脸换成目标人脸进行传播等场景时,DeepFake检测技术可“鉴伪求真”,追溯真相。
以前的研究中,DeepFake视频检测主要专注于在强监督标注提供时,如何较好地检测到DeepFake图像或者人脸。不同于之前的工作,阿里安全更加关注于一个现实中广泛存在的问题:部分攻击(篡改)的视频,即视频中只有部分人脸被篡改了。如下图所示,左图显示的是完全DeepFake攻击,其原图里仅有一张人脸,被被替换。而右图中有多张人脸,却只有红框是被替换过的。
完全DeepFake攻击(左图)和部分DeepFake攻击(右图)
目前存在的DeepFake检测工作主要分为两类:帧级检测和视频级别检测。基于帧级的方法不仅需要成本高的帧级别的标注,在转化到视频级任务时,也需要设计巧妙的融合方法才能较好地将帧级预测转化为视频级预测。简单的平均值或者取最大值极易导致漏检或误检。而之前基于视频级别的检测工作,比如LSTM等,在DeepFake视频检测时,过多专注于时序建模,导致DeepFake视频的检测效果受到了一定的限制。
阿里安全图灵实验室算法工程师向溪介绍,为更好地检测部分篡改的DeepFake视频,阿里安全图灵实验室提出了一种全新的检测方法,这种方法标注简单,并能帮助神经网络更好地学习人脸特征,实现更好的检测效果。
阿里安全图灵实验室还发现了攻击者篡改视频时露出的马脚,由于攻击者对视频实行单帧篡改,导致同一人脸在相邻帧上会有一些抖动,因此研究人员设计了新检测模块来发现这些抖动,辅助识别。
此外,此前业界提出的检测方法多适用于针对单人视频脸部篡改或多人视频所有人脸篡改,阿里安全构建了一个部分攻击数据集,弥补了DeepFake检测数据集在多人脸视频中只对一个人脸或者几个人脸篡改场景里的空白。
S-MIL算法
图2 S-MIL算法框架图
为了更好地检测部分篡改的DeepFake视频,我们提出了一种新的只需要视频级别标注的DeepFake视频检测方法。由于在视频检测任务中,人脸或帧级标注是缺失的,如果像基于帧级检测的方法,直接将视频标签当作每张人脸的标签,会引入训练噪声,导致训练很可能无法收敛。回顾DeepFake视频的定义:只要视频中有一张人脸被篡改,那么该视频就被定义为DeepFake视频。
这个是和多实例学习相吻合的。在多实例学习中,一个包由多个实例组成,只要其中有一个实例是正类,那么该包就是正类的,否则就是负类。基于这个观察,我们提出了基于多实例学习的DeepFake检测框架,将人脸和输入视频分别当作多实例学习(Multiple Instance Learning, MIL)里的实例和包进行检测。
但是传统的多实例学习存在梯度消失问题,为此,我们提出了Sharp-MIL(S-MIL),通过将多个实例的聚合由输出层提前到特征层,一方面使得聚合更加灵活,另一方面也利用了伪造检测的目标函数直接指导实例级深度表征的学习,来缓解传统多实例学习面临的梯度消失难题。我们也通过理论证明了S-MIL可以缓解传统MIL存在的梯度消失问题。传统MIL定义:
DeepFake篡改在时序上的抖动示意图
在实例设计上,与传统多实例学习的设定一样,实例与实例间是相互独立的。但由于DeepFake是单帧篡改的,导致同一人脸在相邻帧上会有一些抖动,如图3所示,我们设计了时空实例,用来刻画帧间一致性,用于辅助DeepFake检测。具体而言,我们使用文本分类里常用的1-d卷积,使用不同大小的核对输入的人脸序列从多视角上进行编码,以得到时空实例,用于最终检测。
实验结果
算法的最终检测效果图如下所示,可以看到,假脸的权重比较高,说明我们的方法在仅需视频级别标签的情况下,可以很好地定位到假脸,具有一定的可解释性:
DeepFake视频检测结果示意图
我们在公开数据集上的表现,如下图所示,可以看出,我们的方法在视频检测上能到达到state-of-the-art的效果:
业务场景和技术应用
在上述技术革新下,阿里安全图灵实验室DeepFake检测技术在视频检测和帧级检测领域排名前列。该技术的共同研究者、中科院计算所副研究员王树徽认为,除了部分换脸检测任务之外,该研究成果对于一般性的视频多实例学习与标注技术研究也具有重要的启发意义。
今年3月,阿里发布新一代安全架构,致力于从源头防范安全威胁,构建安全体系,并打造数字基建安全样板间,阿里安全研发的DeepFake检测技术作为新一代安全架构的核心AI技术,为数字基建的安全建设起到重要作用,并成功实现落地应用。
阿里安全图灵实验室资深算法专家华棠介绍称,截止目前,阿里已经将该检测技术使用在内容安全场景中,后续也会在直播场景中进行布局。
更多精彩推荐
鸿蒙加海思,麒麟加龙芯,组合拳能否渡劫“生态”危机
为什么深度神经网络这么难训练?| 赠书
万字长文总结机器学习的模型评估与调参 | 附代码下载
“Talk is cheap, show me the code”你一行代码有多少漏洞?
科普 | 定义 Eth2.0 中的验证者质量