论文阅读 - 《Exposing DeepFake Videos By Detecting Face Warping Artifacts》

该论文的主要切入点是:由于计算资源和生产时间的限制,DeepFake算法只能合成固定大小的人脸图像,它们必须经过仿射扭曲来匹配源人脸的位置。而扭曲的面部区域和周围的环境之间的分辨率不一致,因此会留下明显的伪影。该论文就是利用这些伪影来检测DeepFake视频。
该论文没有用DeepFake视频直接作为负样本训练,而是通过直接模拟分辨率不一致性来简化训练过程。
首先检测人脸并提取人脸地标,然后计算将人脸对齐到一个标准配置的变换矩阵,将人脸对齐到该配置,然后对已经对齐的人脸使用高斯模糊,然后利用变换矩阵的逆矩阵将其仿射扭曲回原始图像。通过这些操作,就得到了面部区域和周围的环境之间的分辨率不一致的人脸图像,以此来替代DeepFake图像。
为了增加数据的多样性,该文章将人脸对齐到多个尺度,模拟更多的不同分辨率。
(前面都是废话)总之就是DeepFake人脸生成时是由一个人脸替换到目标人脸,这个过程中的仿射变换会产生伪影(也就是替换的人脸部位和周围的部位分辨率不一致)。该论文利用这个不一致性来生成负样本,节约了时间和资源。负数据的生成如图2所示。提取原始图像a中的人脸,对齐成不同的尺度,然后随机选择一个尺度,对其使用高斯模糊后再映射回原始图像,这样人脸部分和周围部分的分辨率就不一致了。
论文阅读 - 《Exposing DeepFake Videos By Detecting Face Warping Artifacts》_第1张图片
为了增加数据多样性,模糊的人脸的区域大小也做了一些不一致性工作:
论文阅读 - 《Exposing DeepFake Videos By Detecting Face Warping Artifacts》_第2张图片
网络的输入为RoI(regions of interest):能包含除脸颊轮廓外的所有面部关键点的矩形,然后长宽分别扩展一个小小的随机数,然后resize成224*224,输入CNN。
对于推理,将每个训练示例的RoI裁剪10次,将所有的预测平均值作为最终的结果。
为了增加数据多样性,动态地在训练过程中生成反例,每批训练随机选取一半正例生成反例。

你可能感兴趣的:(论文阅读,计算机视觉,深度学习,人工智能)