ICCV2021: MVSS-Net: Image Manipulation Detection by Multi-View Multi-Scale Supervision
原文链接:https://arxiv.org/abs/2104.06832
源码:https://github.com/dong03/MVSS-Net
图像篡改检测的关键挑战是如何学习对新数据的篡改敏感的通用特征,同时防止对真实图像的误报。目前的研究强调了敏感性,而忽略了特异性。本文通过多视角特征学习和多尺度监督来解决这两个问题。为了兼顾模型在篡改图像检测上的灵敏度和在真实未篡改图像上的特异性,MVSS-Net 一方面利用语义无关的图像噪声分布特征和边界特征实现篡改区域的准确定位,另一方面引入图像级分类损失使得模型可以直接在真实图像上进行学习。在五个公开数据集上的大量实验验证了 MVSS-Net 的有效性。
本文的目标是自动检测三种常见篡改类型的操作图像,区分出真实和被篡改图像,并且在像素水平上精确地定位被篡改的区域。
考虑到该任务(只需区分两类:是否被篡改)看起来是图像语义分割的简化情况。然而,作者认为特定图像区域是否存在篡改与其语义内容并不存在必然联系,现有的语义分割网络通常着力于捕获特定训练集所蕴含的语义信息,使得网络往往过度依赖数据集而降低其泛化能力。(早期的篡改检测的场景设计和定义,大部分是人造数据,在人造数据上定义篡改类型,往往训练出来的模型都是强依赖数据的,泛化性极差。)
此外,现有SOTA方法和评价指标仅关注篡改图像的像素级检测结果。这种评价机制并未考虑检测方法对于真实、未篡改图片的响应情况。下图1是和一些先进的检测技术的对比。前三行是复制-移动、拼接和修复,随后是三个真实的图像(因此带有空白蒙版)。我们的模型在敏感性和特异性之间取得了良好的平衡。
如何设计和训练一个深度神经网络,使其能够从篡改图像和真实图像中学习到既对篡改区域高度灵敏,又对非篡改区域高度特异的视觉特征。
为了学习语义无关特征,必须抑制图像内容。(之前在做篡改和非篡改的二分类任务时,分类模型学到篡改特征之外的特征因素,而这些是我们不需要的,要抑制这些图像内容的干扰。)
针对上述挑战,本文提出了一个叫做MVSS-Net的基于多视角和多尺度监督的篡改检测网络。 MVSS-Net首次结合了篡改区域的边界特征和噪声特征以学习泛化性更强的语义无关特征,并使用多尺度监督方式提高对篡改区域的敏感度和对真图的特异性。最终,MVSS-Net在五个公共数据集上取得了出色的检测结果。
下图2是本文提出的MVSS-Net模型。使用边缘监督分支和噪声敏感分支来学习操纵检测的语义无关特征,并使用多尺度监督来在模型敏感性和特异性之间取得平衡。
MVSS-Net由两个以ResNet-50为主干的分支组成。上方的边缘监督分支(edge-supervision branch, ESB)用于捕捉篡改区域与未篡改区域在边界处的微小差异;下半部分的噪声敏感分支(noise sensitive branch, NSB)旨在捕获篡改区域和未篡改区域之间的噪声不一致性。边界差异和噪声不一致都是语义无关的特征。
理想情况下,通过边缘监督,我们希望网络的响应区域更加集中在被篡改的区域。设计这样一个边缘监督网络是很重要的。主要的挑战是如何为边缘检测头构造一个适当的输入。
最后一个残差块的深层特征不适合捕捉浅层的边缘信息,会影响篡改趋于分割的主干任务;而浅层特征中包含的细微边缘信息很容易在多次卷积后消失。因此,有必要共同使用浅层特征和深层特征。然而,我们认为先前的工作,使用的简单特征拼接不能保证深层次的特征从ESB中得到足够的指导,因此我们提出以浅到深的方式构造ESB的输入。
如图1所示,我们将不同ResNet块的特征以渐进的方式组合在一起进行边缘检测。为了增强边缘相关的信息提取,我们引入了Sobel层(见图3)。特征首先经过Sobel层,再经过边缘残差块ERB(见图3),最后与下一层特征进行合并(求和)。为了防止累积效应,在下一轮特征组合之前,组合的特征要经过另一个ERB。这种机制有助于防止极端情况下,其中更深层次的特征被过度监督或完全忽略。
下图4是ResNet最后一个残差块的特征图可视化,较亮的颜色表示较高的响应。从上到下的操作是修补、复制移动和拼接。对比可见,ESB在篡改区域附近产生了更集中的响应。
在图2中,ESB有两个输出,第一个输出是来自最后一个ResNet块的特征映射,表示为 { f e s b f_{esb} fesb,1,…, f e s b f_{esb} fesb,k},用于主要任务,第二个输出是经过最后一个ERB以及sigmoid函数而获得的预测操纵边缘图,表示为{Gedge( x i x_i xi)} 。这一分支的数据流在概念上由以下等式表示。
对于噪声提取的选择,采用了BayarConv,发现它优于SRM滤波器。这个分支的输出是来自其主干的最后一个ResNet块的k个特征映射的数组,即
我们引入了可训练的双注意(DA)模块来取代之前使用的双线性池化来进行特征融合。下图5为双重注意模块结构图,其通道注意模块显示为蓝色,其位置注意模块显示为绿色。
DA模块有两个并行工作的注意机制:通道注意(CA)和位置注意(PA) 。CA关联通道级特征,以选择性地强调相互依赖的通道特征映射。同时,PA通过对所有位置的特征进行加权和,选择性地更新每个位置的特征。将CA和PA的输出求和,通过1×1卷积转换为大小为W/16×H/16的特征图,记为{G’( x i x_i xi)} 。通过sigmoid函数来进行无参数的双线性上采样,将{G’( x i x_i xi)}转换为最终的分割映射{G( x i x_i xi)} 。双重注意的融合在概念上被表示为
最后,我们考虑三个尺度的损失:
并引入超参数计算三者的加权和作为模型最终的损失。
由于在给定的图像中,被篡改的像素通常占少数,我们使用Dice损失,该损失对于从极度不平衡的数据中学习是有效的。
其中yi ∈ {0,1}是指示第i个像素是否被篡改的二进制标签。
由于边缘的像素被非边缘像素淹没,这里再次使用Dice损失进行操作边缘检测,表示为 l o s s e d g loss_{edg} lossedg。由于操作边缘检测是一项辅助任务,因此我们不计算全尺寸W × H下的损耗,而是计算尺寸小得多的W /4 × H/ 4下的损耗,见图2。这种策略减少了训练过程中的计算量,同时略微提高了性能。
为了减少错误警报,在训练阶段必须考虑真实的图像。然而,这对于当前的工作来说并不重要,因为它们都依赖于分割损失。例如,考虑广泛使用的二进制交叉熵(BCE)损失。一小部分像素被错误分类的真实图像对BCE损失的贡献很小,使得很难有效地减少错误警报。还要注意,根据定义,Dice损失不能处理真实图像。因此,需要图像尺度的损失。我们采用图像级BCE损失:
其中y = max({ y i y_i yi}) 。
注意:对于真实图像只用于计算 l o s s e d g loss_{edg} lossedg。
在这项工作中,采用CASIAv2进行训练,COVER、Columbia 、NIST16和CASIAv1进行测试。
与此同时,注意到 DEFACTO ,一个最近发布的大规模数据集,包含从MS-COCO采样的149k图像,通过复制移动、拼接和绘制自动操作。由于该集合没有真实的图像,通过从MS-COCO中随机抽取实际图像,构建一个称为DEFACTO-84k的训练集。以类似的方式建立了一个称为DEFACTO-12k的测试集,通过从MSCOCO的剩余部分随机抽取6k个篡改图像,即DEFACTO-12k个真实图像。
下表3是对MVSS-Net进行消融研究的结果。训练集:DEFACTO-84k。测试集:DEFACTO-12k。复制-移动、拼接和修复分别简称为cmpv、spli和inpa。每列的最佳数字以粗体显示。全套设备的最高性能证明了MVSS网络中使用单个组件的必要性。
比较Seg+Clf和Seg,我们看到特异性明显增加,灵敏度明显下降,表明增加 l o s s c l f loss_{clf} lossclf使模型对报告是否篡改更加保守。这种变化不仅被较低的像素级性能所证实,而且在图6的第四列中也被观察到,表明由Seg+Clf预测的篡改区域大大减少。
由于Seg+Clf+N是通过将NSB添加到Seg+Clf中获得的,因此其更好的性能验证了NSB在像素级和图像级改进篡改检测的有效性。
Seg+Clf+E优于Seg+Clf的性能证明了ESB的有效性。Seg+Clf+E/s是通过从Seg+Clf+E中去除Sobel运算而获得的,因此其性能退化,特别是在复制-移动检测上(从0.405到0.382,表3中的cmpv)表明了该运算的必要性。
Seg+Clf+G是用GSR-Net的边缘分支代替我们的ESB得到的。Seg+Clf+G的整体性能低于Seg+Clf+E,而且在cmpv上的性能差距更大(ESB为0.405对GSR-Net为0.363)。结果清楚地证明了所提出的ESB优于现有技术。
通过观察知双注意融合ESB和NSB的完整设置表现最佳,这表明了各个组件的互补性。为了进一步证明我们的基于双注意的融合的必要性,我们提出了一种替代解决方案,通过模型平均来集成Seg+Clf+N和Seg+Clf+E,称为集成(N,E) 。完整设置优于Ensemble(N,E) ,显示了我们的融合方法的优势。
下图6显示了一些定性结果。从左到右,结果显示了MVSS网络如何在灵敏度和特异性之间取得良好的平衡。请注意,FCN的最佳像素级性能是由于训练集和测试集是同源的。接下来,我们评估FCN和MVSS网的可推广性。最后一行中的测试图像是真实的。
HP-FCN、CR-CNN、GSR-Net、MFCN、RGB-N 、 FCN 。
不同型号的性能如下表4所示。就整体性能而言,MVSS网络是最好的。我们将ManTra-Net在DEFACTO-12k上明显更好的性能归功于它的大规模训练数据,这些数据也源于MS-COCO的DEFACTO-12k。由于MVSS-Net源自FCN,其在跨数据集设置中的卓越性能证明了其更好的推广性。
由于HP-FCN是专门为修复检测而设计的,我们将比较范围缩小到检测NIST16和DEFACTO-12k中的修复子集。同样,MVSS网络优于HP-FCN: 在NIST16上是0.565对0.284,在DEFACTO-12k上是0.391对0.106。
表5显示了不同模型的性能,所有模型都使用默认的决策阈值0.5。MVSS-Net再次成为表现最好的模型。凭借其从真实图像中学习的能力,MVSS-Net在大多数测试集上获得了更高的特异性(即更低的虚警率)。我们的模型还具有最好的AUC分数,这意味着它在广泛的操作点上优于基线。
下图7是在CASIAv1上分别应用JPEG压缩和高斯模糊的像素级和图像级F1分数对比。其中MVSS-Net (w/o aug)是数据增强中不包括压缩和模糊的MVSS网络。(由于ManTra-Net使用了包括压缩在内的广泛的数据增强,而CR-CNN和GSR-Net没有使用这种数据增强。)
图7的性能曲线显示了MVSS-Net和MVSS-Net (w/o aug)更好的鲁棒性。
MVSS-Net足以满足实时应用。
本文在五个基准集上进行的图像操作检测实验得出以下结论: