翻译:IA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery.....

UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection

摘要

        帧内不一致性已被证明对于人脸伪造检测的泛化是有效的。然而,学习关注这些不一致性需要额外的像素级伪造位置标注。获取这样的标注并非易事。现有的一些方法利用位置标注生成大规模合成数据,这些数据仅由真实图像组成,无法捕获伪造区域的属性。其他人通过减去成对的真实图像和伪图像来生成伪造的位置标签,但这种成对的数据很难收集,并且生成的标签通常是不连续的。为了克服这些限制,我们提出了一种新的基于视觉Transformer(ViT)的无监督不一致感知方法,称为UIA-ViT,该方法仅使用视频级标签,并且可以学习不一致感知特征而无需像素级标注。由于自注意力机制,图像块嵌入之间的注意图自然地表示一致性关系,使得视觉Transformer(ViT)适合于一致性表征学习。基于视觉Transformer(ViT),我们提出了两个关键部件:无监督图像块一致性学习(UPCL)和渐进一致性加权组装(PCWA)。UPCL设计用于学习具有渐进优化伪标注的一致性相关表示。PCWA使用UPCL优化的先前的图像嵌入块来增强最终分类嵌入,以进一步提高检测性能。大量实验证明了该方法的有效性。

引言

        随着图像生成和处理的发展,人脸伪造技术得到了极大的发展。伪造的面部图像甚至可以欺骗人类,可能会被滥用于恶意的目的,导致严重的安全和隐私问题,例如假新闻和证据。因此,发展强大的人脸检测技术具有重要意义。
        早期的人脸伪造检测方法[2,20,31]将此任务视为二元分类问题,并在深度神经网络的帮助下在数据集内检测中取得令人钦佩的性能。然而,当泛化到身份、操作类型、压缩率等完全不同的其他看不见的伪造数据集时,它们很容易失败。为了提高检测的泛化能力,最近的方法探索了由面部操纵技术产生的常见伪造伪迹或不一致性,如眨眼频率[13]、仿射扭曲[14]、图像混合[12]、时间不一致[35,27]、帧内不一致[34,1]等。帧内不一致性已被证明能够有效地提高检测的泛化能力,因为常见的人脸伪造策略(操作和混合)会导致伪造区域与原始背景之间不一致。然而,学习关注这些不一致性需要额外的像素级伪造位置标注。获取这样的标注并非易事。使用像素级伪造位置标注生成大规模合成数据(例如模拟缝合图像[34])似乎是一种直观的解决方案。尽管它可以产生精确的像素级位置标注,但模型无法捕获伪造区域的属性,因为生成的数据仅由真实图像组成。其他工作[1,27]试图通过将伪造图像与其对应的真实图像相减来生成带标注的伪造位置标签。然而,这些成对的图片通常是不可用的,尤其是在真实世界场景中。即使可以收集这样的成对数据,伪造区域标注往往是不连续和不准确的,这对于帧内一致性监督来说是次优的。因此,我们提出了一种无监督的不一致性感知方法,该方法在没有像素级伪造位置标注的情况下提取帧内不一致性线索。

翻译至此发现没提供代码,果断放弃

你可能感兴趣的:(学术论文,transformer,深度学习,人工智能)