- 一、研究现状
- 二、典型算法:
- 三、存在问题
- 四、未来的研究热点
- 参考文献:
由于机器学习的最新发展,操纵和制作图像和视频的技术已经达到了一个新的复杂水平。这一趋势的前沿是所谓的深度造假(Deep Fakes),它是通过将使用深度神经网络合成的人脸插入到原始图像/视频中而产生的。深度造假与通过数字社交网络分享的其他形式的虚假信息一起,已经成为一个严重的问题,对社会产生了负面影响。因此,迫切需要有效的方法来揭露深度造假。迄今为止,深度造假的检测方法依赖于合成算法固有的伪影或不一致性,例如,缺乏逼真的眨眼和不匹配的颜色配置文件。基于神经网络的分类方法也被用于直接识别Deep Fakes中的真实图像。在这项工作中,我们提出了一种检测深度造假的新方法。我们的方法是基于深度神经网络人脸合成模型的内在局限性,而深度神经网络人脸合成模型是深度伪造生产管道的核心组件。具体来说,这些算法创建了不同的人的面部,但保留了原始人物的面部表情。然而,这两张脸的面部标志不匹配,这些标志是人类面部上与眼睛和嘴尖等重要结构相对应的位置,由于神经网络合成算法并不能保证原始人脸与合成人脸具有一致的面部标志。



最近Deepfake的视频检测方法大致可以分为三类,即线索启发方法、数据驱动方法和多域融合方法。线索启发方法(Li, Chang, and Lyu 2018;Ciftci, Demir, and Yin 2020;yang, Li, and Lyu 2019;Koopman, Rodriguez, and Geradts 2018;Li和Lyu 2019)揭示了可观察到的特征,如眨眼不一致、生物信号和不现实的de36 AAAI人工智能会议(AAAI-22) 951尾巴来检测Deepfake视频。但是,在生成假视频的过程中,通过有目的的训练,可以绕过这些检测方法。数据驱动方法(Afchar et al 2018;Nguyen, Y amagishi,和Echizen 2019;Nguyen等2019;Tan and Le 2019;Rossler等人2019;赵等2021;Liu et al 2021;Xu等人2021)提取不可见的特征来有效地检测这些伪造品。这些方法没有将空间信息与其他域信息相结合,可能会忽略视频的关键特征。为此,多域融合方法(Güera和Delp 2018;Zhao, Wang, and Lu 2020;Qian等2020;Masi等2020;Hu et al 2021;Sun等人2021)跨多个域训练检测模型,如空间域、时间域和频域制造过程。虽然上述方法在检测早期数据集方面取得了良好的表现,但在最近开发的高视觉质量Deepfake视频中仍需要改进。之前的方法(Li, Chang, and Lyu 2018;Afchar等2018;Yang, Li, and Lyu 2019;Hu et al 2021)侧重于在低视觉质量视频中容易跟踪的特定特征,而这些特征在高视觉质量视频中可能会被严重削弱,导致检测性能降低。因此,我们需要一种更普遍的方式来放大假视频的篡改痕迹。
此外,上述方法的工件依赖性(Rossler et al 2019;Zhao et al 2021)在进行跨数据集检测时也可能导致严重过拟合。对训练数据进行扩展是解决过拟合问题的有效方法。然而,现有的方法只关注性能而不关注计算效率,这带来了不必要的时间成本。此外,现有的大部分检测方法都得益于CNN强大的能力,但基于CNN的方法缺乏理论解释,不利于对检测技术的理解。综上所述,在检测高视觉质量Deepfake视频时面临三大挑战,即1)如何放大高视觉质量Deepfake视频中的篡改痕迹以获得更好的性能,2)如何提高跨数据集检测的鲁棒性并提高检测效率,3)如何提供可解释的理论分析。
人脸取证数据集和评估。与人脸识别数据集的激增不同,社区中一直缺乏用于培训和评估的大规模人脸取证数据集。虽然人脸交换可以作为一种拼接图像伪造技术,并且一些通用取证集包含人脸拼接和复制-移动伪造,但早期的特定人脸操作检测工具主要是在静态图像上进行评估。为深度造假检测发布的小规模基准测试是在受控环境中生成的。就在最近,Rossler等人提出了几个版本的FaceForensics++,这是一个中等规模的操纵视频集合,总共有180万个使用四种方法操纵帧:FaceSwap, DeepFakes, Face2Face和NeuralTextures。谷歌Research用另一组包含deepfake视频的数据集增强了同一数据集,即谷歌deepfake Detection (DFD)。与此同时,Facebook和其他公司共同努力,创建了一场在网络上检测假货的比赛,发布了一个预览数据集“Deepfake Detection Challenge (DFDC)”,以及新的评估指标。除了之外,有趣的新颖之处在于性能是在视频级别而不是帧级别上考虑的,以低虚警率有效地评估模型。在之前,精度是用于衡量假检测性能的唯一指标,只有少数例外。尽管有这些贡献,但与网络上流传的视频相比,这些集提供的合成视频的感知质量似乎仍然较低,因此Li等人最近发布了Celeb-DF来生成超逼真的深度伪造,并将帧级AUC作为一个度量标准。这一基准非常引人注目,提供5369个高质量视频,总帧数为210万帧。
