论文名称:Exploring Frequency Adversarial Attacks for Face Forgery Detection
会议:CVPR 2022
作者团队:
虽然现有的人脸伪造分类器在检测伪造图像取得的性能不错,但很容易受到在像素上注入不可感知的扰动的对抗例子的攻击,同时许多人脸伪造检测器总是利用真假人脸之间的频率差异作为关键线索,本文提出一种针对人脸伪造检测器的频率对抗性攻击方法,这种方法更不易被人类察觉,且不会降低原始图像的视觉质量。还提出基于空域和频域混合对抗性攻击,该方法不仅能有效地欺骗基于空间的检测器,还能有效地欺骗基于频域的检测器。
b,c为基于空域方法的对抗攻击产生的对抗性例子,我们提出的基于频域的对抗攻击方法能产生更自然的扰动,对抗实例的图像质量更接近于原始图像。
我们首先将输入图像分为K*K的块,并对每个块应用DCT将它们转换到频域,然后引入频域扰动Pn与控制不同频带中步长的预定义权重矩阵M,之后实现IDCT,并将它们合并到对抗的例子中,在每一次迭代中计算对抗损失并基于它更新扰动。
让Xinit表示原始图像,f(.)表示人脸伪造检测器,Ygt表示地面真值标签,我们的目标是生成一个对抗的样本Xadv使人脸伪造检测器预测错误,比如原图为假预测为真:
在对抗攻击中的目标是最大化损失L(Xadv,Ygt),其中L是二进制交叉熵损失,具体的优化定义为:
其中p是Lp范数,以确保对抗图像接近原始图像。
空间对抗攻击
大多被认为是修改像素上的对抗实例的空间对抗攻击
Fast Gradient Sign Method (FGSM): 快速梯度符号法,单步攻击方法,它根据对抗损失的梯度来计算扰动。
Projected Gradient Descent (PGD):投影梯度下降,是FGSM的多步变体,同时在第一步采用随机初始化扰动,更新过程如下:
频域对抗攻击
真实人脸与虚假人脸在不同频带上有能量差异,低频区域与图像内容有关,高频区域与图像边缘和纹理信息有关。假人脸在高频高频段的能量比真脸丰富。
受上述观察启发,我们提出了一种频率对抗性攻击来直接修改频域中的能量,与空间攻击相比,这种攻击方法隐藏了频带中的细节,减少了像素级的冗余噪声,使攻击更隐蔽。
D(.)表示离散余弦变换,D'表示反离散余弦变换,F表示融合模块在频域中修改能量,同时利用Lp范数来约束原始频率分布的偏差。为了平衡转换的效率和质量,在DCT变换前,我们先把图像分成K*K块,对于每个块,我们应用DCT变换如下:
其中X(i,j)是图像坐标(i,j)上的值,c(u),c(v)旨在使DCT矩阵正交,N是每个块的大小,然后生成初始扰动P~U(0,1)注入到频带上。当RGB图像转到频域上时,不同频域的能量范围是不平衡的,因此作者提出了一种具有自适应步长的矩阵,它基于每个频带的比例来平衡不平衡能量的影响,该矩阵针对不同的输入动态重置,以保持视觉质量,完整的融合模块定义为:
其中○是Hadamard乘积,Pn+1更新为:
其中,入是每次迭代的步长,之后应用IDCT将频域中的每个块转换回空间域,当它达到最大迭代或者将Xadv分类为错误标签时结束循环并输出最终的对抗性示例Xadv。
混合对抗攻击
结合空间域和频域的混合通用攻击,直接利用来自不同领域的梯度迭代更新对抗扰动。
设As和Af分别表示空域和频域中的对抗性攻击,首先我们在频域中基于对抗损失计算梯度。频域优化如下:
其中n'是频率值,γf是频域中的步长。
再基于空间域中的对抗损失来计算梯度:
其中n''是像素值,γs是空间域中的步长,我们选择从两个域中依次计算梯度并更新扰动。
数据集:DFDC、FF++
攻击成功率:
消融实验:
本文提出的用于人脸伪造检测的频率对抗性攻击方法与空间攻击相比该方法获得了更好的图像质量,同时为了提高其泛化能力,提出了一种混合的对抗性攻击,多域结合保留了优点在基于空间和基于频域的人脸伪造检测器上都取得了良好的攻击性能。