目录
Abstract
Introduction
1 二分类方法
1.1 CNN-generated images are surprisingly easy to spot... for now
1.2 Identification of Deep Network Generated Images Using Disparities in Color Components
1.3 Detecting GAN generated Fake Images using Co-occurrence Matrices
2 多分类方法
2.1 Fighting Deepfake by Exposing the Convolutional Traces on Images
2.2 Attributing Fake Images to GANs: Learning and Analyzing GAN Fingerprints
3 定位方法
3.1 Image Inpainting Detection Based on Multi-task Deep Learning Network
3.2 Localization of Deep Inpainting Using High-Pass Fully Convolutional Network
Conclusion
Reference
随着计算机技术的发展,图像篡改技术(如JPEG压缩、高斯滤波等)快速发展,新的图像修改工具也层出不穷,图像篡改取证问题由于其重要的现实意义而一直是计算机视觉领域的研究热点。近年来,随着深度网络的兴起,基于深度生成网络的图像篡改技术也在飞速发展,针对此类技术的图像取证研究也得到越来越多人的重视。本文旨在介绍几种针对于深度网络生成图像(DNG图像)进行篡改取证(包含分类或定位)的方法。这些方法中既包含一些机器学习方法(不使用深度卷积网络),也包含深度学习方法。此外,还简单总结了本领域目前的研究现状以及局限性。
Keywords: image forensics; multimedia forensics; deepfake; GAN; inpainting detection
近年来,随着自动编码器(AE)和生成对抗网络(GAN)技术的日趋成熟,催生了许多使用深度神经网络进行图像篡改的方法,这些方法统称为“deepfake”。这给图像篡改取证研究带来了巨大的挑战,因为这些技术生成的内容比传统意义上的方法生成的内容要真实得多。Verdoliva[1]综述了媒体取证和deepfake。Pengpeng Yang[2]对以深度学习为基础的图像取证进行了调研,其中包括GAN生成图像的取证研究,他们大致将GAN生成图像的取证方法分为三类:现有的检测方法,基于图像颜色特征分析的方法以及基于图像残差/噪声分析的技术。Francesco Marra[3]等人评估了几种图像取证检测器和流行的计算机视觉CNN架构在GAN生成图像检测方面的性能,他们的对比实验结果表明,XceptionNet具有最高的平均检测准确率,且具有较高的鲁棒性。
Pengpeng Yang[2]中还给出了几种检测方法对各个GAN网络生成的图像的检测能力汇总。
从任务设计的角度,所有的DNG图像检测方法可以分为二分类方法、多分类方法、检测及定位方法。就实际应用意义来说,毫无疑问,对整个图像进行分类只是基础,精准地对篡改区域进行定位,判断出图像中哪些内容是真实/虚假的,才是研究人员最终的目标。
Sheng-Y u Wang[4] 等人认为DNG图像可以通过训练一个简单的分类器很容易就检测出来。他们使用ProGAN生成了大量篡改图像,将生成的图像和原图像混合作为训练集,然后训练了一个基于ResNet-50的分类器对输入图片是否为篡改图像进行二分类。使用由多种不同的GAN网络生成的图像进行测试,并对测试集进行了JPEG压缩,高斯模糊等后处理,以证明这种简单的方法对于检测所有DNG图像的泛化性,以及对后处理的鲁棒性。他们的分类结果如下。
Haodong Li[5] 等人在研究如何对抗由GAN网络生成的篡改图像的过程中,还发现了另一条规律,即deepfake与真实图像在残差域里所体现出的差别,在不同的颜色空间中的不同分量上,可以体现的更明显。作者分别对图像的原像素域和残差域在三种颜色空间(RGB、HSV、YCbCr)中的各个分量进行了统计学分析,从统计结果中找出这种差异最显著的分量(即H、S、Cb、Cr)。
根据以上统计结果,对于输入图像,作者首先从不同颜色空间中选取所需通道,计算颜色分量的残差特征,计算共现矩阵,然后将它们连接成特征向量,最后训练二分类器来预测图像是真实的还是由深度网络生成的。
作者在三个公共人脸数据集(elebA,HQ-CelebA,LFW)上用4种生成图像方法(深度特征一致变分自动编码器(DFC-VAE),DCGAN,WGAN-GP,渐进式生成对抗性网络(PGGAN))对该方法进行了评估,其性能优于其他的方法。
Lakshmanan Nataraj[6] 等人提出了一种使用三通道的共现矩阵来检测DNG图像的方法。在此方法中,作者没有在残差域上计算共生矩阵,而是直接使用输入图像的三个通道分别计算共生矩阵,然后将它输入卷积网络中提取特征,最后使用全连接层进行二分类。
作者使用cycleGAN和StarGAN分别创建了两个数据集,一个作为训练集,一个作为测试集。然后将训练集和测试集互换,再进行实验。
LUCA GUARNERA[7] 等人提出了一种从图像中提取deepfake所留痕迹的方法。此方法基于期望最大化算法(EM算法),根据GAN生成器中通常会用到的转置卷积层对局部像素所造成的影响,提取GAN网络在生成图像的过程中所留下的卷积痕迹(CT)。
作者想使用一个N*N卷积核k,来表示图像坐标(x,y)处的像素与周围像素之间的关系,将此关系定义为I[x,y]
图像中未经修改处的I应满足某一分布M1,含有卷积痕迹的像素的I满足另一分布M。作者假设M1为高斯分布,M2为均匀分布。通过期望最大化算法确定I[x,y]所属分布之后,使用最小二乘法来计算目标卷积核k,然后使用随机森林分类器对本方法进行测试。
作者使用了由10种GAN网络生成的图像作为测试集,进行多分类,分类准确率达到了98%以上,并该方法表现出了较强的鲁棒性,且不依赖于图像本身的语义信息。
Ning Y u[8] 等人提出了一种通过指纹匹配实现多分类的方法。他们认为,每个GAN网络模型受训练数据、网络结构、损失函数、参数设置等因素的影响,都会有其独特的指纹,而这种GAN模型的指纹会影响其生成的图像,造成独特的图像指纹。因此他们设计了一种先提取GAN模型指纹和图像指纹,然后将二者进行匹配,进而实现图像分类的取证方法。
此方法是由一个深度卷积神经网络(即a)实现的,作者先用多层卷积提取图像特征,最后得到1*1*512的向量,作为要验证的图像指纹,然后输入最后的分类器(即全连接层),将GAN模型指纹作为该分类器的参数(即全连接层的1*1*512的权重向量)。为了分析图像中的哪些成分中包含图像指纹,作者还使用了三种网络的变体形式(即b、c、d)进行对比试验。
除了这种隐式方法,作者还提出了另一种可视化的方法:在没有图像指纹作为groundtruth进行监督的情况下,使用AutoEncoder对原图像I进行重建,然后与原图提取残差,将此残差作为图像指纹。然后将图像指纹与模型指纹逐像素相乘,整个过程如图。
Xinyi Wang , Shaozhang Niu & He Wang[9] 尝试使用一种改进的Mask RCNN来检测由GAN网络生成的图像,他们在传统的Mask RCNN的基础上,在网络输入中加入了图像的LBP纹理特征,并且提出了一种改进的特征金字塔来充分混合各尺度的特征模式。作者从COCO和ImageNet数据集中随机选取15000张图像,分别使用三个inpainting方法进行修复,然后使用这些图片对该方法进行了训练和测试。
Haodong Li[10] 等人发现在图像的残差域里,使用GAN修复的区域和未修复的区域的差别更明显,并通过统计学方法证明了这一规律。作者使用相邻像素的转移概率作为图像的统计度量,假设图像(或图像残差)矩阵I具有N个灰度级,则相邻像素的转移概率将形成N*N大小转移概率矩阵M
从图中可以观察到原像素域中(未经滤波)的修改区域和未修改区域的TPM非常相似,而残差域(经过滤波)的TPM在虚圆之外表现出显著的差异。具体地说,修复图像在虚圆外位置的转移概率值远低于未修复图像,表明修复图像所包含的高频分量较少。根据此规律,作者先设置了一个可学习的预滤波模块来提取图像残差,然后使用四个连续的ResNet v2模块进行特征提取,最后进行上采样,实现对修复区域的精准定位。
深度生成网络在图像修改领域的应用,使得许多传统的有效的篡改检测方法黯然失色,从图像内容上来看,GAN网络所生成的图像以及难以用人眼判别,而且判别难度还会随着篡改技术的发展而进一步加大。因此,现在一些研究人员的目光已经从图像内容领域转移到了频域/噪声域,试图从人眼不可见的领域中发现规律,并已经取得了一定的成果。
目前对于DNG(DeepNet Generated)图像所提出的检测方法大都是二分类方法。所提出的多分类检测方法也都是将输入对目前已有几种GAN网络生成篡改图像方法进行溯源或匹配,这种方法从任务设计的角度就有明显的局限性。虽然一些文章中通过实验证明了其所提方法的泛化性,但随着新型的改进的GAN方法的不断涌现,这种方法可能会一直陷于被动的地位。除了分类任务外,精准地对篡改区域进行定位,判断图像中哪些内容是真实/虚假的,也具有其重要的实际意义。
Verdoliva, L. Media Forensics and DeepFakes: Sn overview. arXiv 2020,arXiv:2001.06564.
Yang P, Baracchi D, Ni R, Zhao Y, Argenti F, Piva A. A Survey of Deep Learning-Based Source Image Forensics. Journal of Imaging. 2020; 6(3):9.
Marra, Francesco; Gragnaniello, Diego; Cozzolino, Davide; Verdoliva, Luisa (2018). 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR) - Detection of GAN-Generated Fake Images over Social Networks. , (), 384–389.
Sheng-Yu Wang, Oliver Wang, Richard Zhang, Andrew Owens, Alexei A. Efros; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 8695-8704
Haodong Li, Bin Li, Shunquan Tan, Jiwu Huang,Identification of deep network generated images using disparities in color components,Signal Processing,Volume 174,2020,107616,ISSN 0165-1684
Nataraj, Lakshmanan; Mohammed, Tajuddin Manhar; Manjunath, B. S.; Chandrasekaran, Shivkumar; Flenner, Arjuna; Bappy, Jawadul H.; Roy-Chowdhury, Amit K. (2019). Detecting GAN generated Fake Images using Co-occurrence Matrices. Electronic Imaging, 2019(5), 532-1–532-7.
L. Guarnera, O. Giudice and S. Battiato, "Fighting Deepfake by Exposing the Convolutional Traces on Images," in IEEE Access, vol. 8, pp. 165085-165098, 2020
Ning Yu, Larry S. Davis, Mario Fritz; Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 7556-7566
Xinyi Wang, Shaozhang Niu & He Wang (2020) Image Inpainting Detection Based on Multi-task Deep Learning Network, IETE Technical Review
Li, Haodong; Huang, Jiwu (2019). 2019 IEEE/CVF International Conference on Computer Vision (ICCV) - Localization of Deep Inpainting Using High-Pass Fully Convolutional Network. , (), 8300–8309.