利用双对比学习模型DCL鉴别视频中伪造的面部

©作者 | Doreen

01 背景介绍

随着图像改造技术在深度学习的支持下飞速发展,出现了各种各样“换脸”的操作。这些伪造的面部在程序的优化下达到了以假乱真的效果,随之也带来了一些侵犯肖像权等潜在的问题。

早期的面部伪造探测技术主要集中于一些人工合成的特征(例如:眨眼,不同的头部姿势等),研究人员通过实验发现真实面部和伪造面部在频域上有差异,因此出现了利用频率作为线索在深度学习框架下进行面部鉴伪。

虽然该类方法在训练数据和测试数据属于独立同分布的情况下取得了理想的结果,但在测试数据中出现不同场景下的面部,其鉴别能力将大受影响。因此,一个普适的面部鉴伪方法成为了研究的焦点。

目前广泛使用的方法来源于图像分类模型,强调了种类间的差异,但缺乏对真假面部的本质差异的关注。

针对这个问题,作者提出了一个双对比学习模型,通过在一定程度上增加伪造面部的不一致性提升了模型的泛化能力。

02 方法

双对比学习模型(Dual Contrastive Learning)的结构图如图1所示。

首先通过DVG(Data views Generation)进行数据增广,生成不同视角下的输入图像。然后利用对比学习模块对输入图像进行特征提取。最后分别利用Intra-Instance和Inter-Instance两个模块组织特征的分布来增加伪造面部的不一致性。

图1 DCL的结构图(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)

(1)数据增广

与传统对比学习模型采用的数据增广方法(如水平翻转、随机裁剪和高斯模糊等)不同,伪造面部探测的数据增广要求尽可能减少与目标无关的因素。因此,作者提出了以下几种方法进行数据增广。

1.RandomPatch: 作者将输入的面部图像分成KxK个小块,然后对其随机打乱顺序。这样做的目的是将焦点集中在伪造部分,而不是面部结构;

2. High-frequency enhancement: 鉴于高频率特征能提升模型的泛化性能,因此作者将经过空域富模型SRM (Spatial Rich Model)处理后的图像特征与源图像特征结合起来,强化了生成图像的高频信息;

3.Frame shift: 为了减少面部表情和运动对伪造特征提取的影响,作者将同一个视频的不同帧图像作为不同视角下的输入图像;

4. Corresponding mixup: 为了减少明显伪造痕迹的同时尽可能挖掘伪造的本质特征,作者在输入伪造图像时加入了源图像的某些特征,从而生成了非常接近目标的伪造图像。

将以上四种方法生成的图像和利用传统数据增广的方法生成的图像

分为


两类。

(2)对比学习模型架构

(3)基于Inter-Instance的对比学习

(4)基于Intra-Instance的对比学习

03 实验

作者采用Dual Shot Face Detector框架在FaceForensics++(包含720个视频用于训练,以及280个视频用于验证或测试)、Celeb-DF(包含590个源视频和5639个伪造视频)、DFDC(包含1133个源视频和4080个伪造视频)、DFD(包含363个源视频和3068个伪造视频)以及Wide Deepfake(包含3805个源面部图像序列和3509个伪造面部图像序列)这五个数据集上进行了测试。实验中对每个视频随机采样50帧图像用于训练和测试。

为了验证DCL的准确性,作者在以下三个方面对其进行了测试:

1. Cross-dataset评估

首先将模型在FF++数据集上进行训练,然后令其在DFD、DFDC、Wide Deepfake和Cele-DF数据集上进行测试。作者将DCL与现有的方法进行了对比,结果如表1所示。

表1 cross-dataset验证评估结果(图片来自论文:Dual Contrastive Lear

从表1可知,DCL在AUC和EER两个指标上几乎领先所有现有方法的结果,尤其在Cele-DF数据集上的优势更明显。

2. Cross-manipulation评估

首先利用一种方法在一个数据集上进行训练,然后用其它几种方法在所有数据集上进行测试,结果如表2所示。

表2 cross-manipulation验证评估结果(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)

根据表2的结果可以看出,DCL在每种情况下的结果均优于现有方法的结果。当在Deepfake数据集上训练,在Faceswap数据集上测试时,DCL比其他方法在AUC指标上平均领先15%。

3.Multi-source manipulation评估

为了检验DCL的实用性,作者用三种可控的方法在FF++数据集上进行训练,然后在Deepfake数据集上进行测试,其结果如表3所示。

表3 Multi-source manipulation验证评估结果(图片来自论文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)

从表3可以看出,DCL的表现普遍优于现有的方法。相比LTW方法,DCL在低质量版本的FF++数据集上领先了5%,说明DCL方法的泛化性能较好。

04 结论

为了进一步挖掘真实面部图像与伪造面部图像之间的本质差别,作者构造了一个双对比学习模型DCL用于鉴别视频中伪造的面部。

首先通过DVG模块对输入图像进行数据增广,丰富了输入数据的多样性。然后利用inter-instance和intra-instance两个对比学习模型减小了同一面部在不同视角下的图像差异同时增加了伪造面部的多样性。最后通过在5个公开数据集上将DCL与现有方式进行对比发现DCL在AUC、ACC两个指标上基本领先于现有的方法。

DCL从本质出发鉴别伪造图像不仅有效地提升了模型的泛化能力,而且为其他类型的鉴伪(如声音鉴别等)提供了参考。

参考文献

[1] Dual Contrastive Learning for General Face Forgery Detection.

https://arxiv.org/abs/2112.13522

私信我领取目标检测与R-CNN/数据分析的应用/电商数据分析/数据分析在医疗领域的应用/NLP学员项目展示/中文NLP的介绍与实际应用/NLP系列直播课/NLP前沿模型训练营等干货学习资源。

你可能感兴趣的:(利用双对比学习模型DCL鉴别视频中伪造的面部)