CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks
CIAGAN:条件身份匿名生成对抗网络
https://github.com/dvl-tum/ciagan
计算机视觉技术在社会上的使用空前增加,与此同时,人们对数据隐私的关注也日益增加。在许多现实场景中,如跟踪人员或动作识别,重要的是能够处理数据的同时仔细考虑如何保护人们的身份。我们提出并开发了一个基于条件生成对抗网络的图像和视频匿名化模型CIAGAN。我们的模型能够去除面部和身体的识别特征,同时生成高质量的图像和视频,可用于任何计算机视觉任务,如检测或跟踪。与以前的方法不同,我们完全控制去识别(匿名化)过程,确保匿名化和多样性。我们将我们的方法与几个基线进行比较,并获得最先进的结果。为了方便进一步的研究,我们将代码和模型提供在 https://github.com/dvl-tum/ciagan
【数据隐私越来越重要】计算机视觉技术在社会上的普遍使用意味着对包含个人数据的大规模视觉数据的自动处理。虽然我们渴望利用技术来进行房屋监控、视频会议和监控,但我们不愿意牺牲我们的个人隐私。事实上,数据隐私越来越受到关注,欧盟等实体已经通过了《通用数据保护条例》(GDPR)[1]等法律来保障数据隐私。对于计算机视觉研究人员来说,创建包括人在内的高质量数据集变得非常具有挑战性,因为数据集中的每个人都需要同意使用他或她的图像数据。最近,杜克大学MTMC数据集[10]由于隐私原因下线了。
我们观察到的关键是,许多计算机视觉任务,如人员检测,多人跟踪,或动作识别,不需要识别视频中的人,他们只需要检测他们。经典的匿名化技术,如人脸模糊,会显著改变图像,从而导致检测性能的大幅下降。
我们提出了一个模型,通过删除人的识别特征来匿名化(或去识别)图像和视频,同时仍然保留必要的特征,以允许面部和身体探测器工作。重要的是,这些图像对人类观察者来说仍然应该是真实的,但上面的人不应该是可识别的。我们提出的方法可以用来匿名化计算机视觉数据集,同时保留必要的信息,如检测,识别或跟踪等任务。我们利用条件生成对抗网络(CGAN)[25,15]的生成能力来生成看起来真实的匿名图像和视频。在现有的基于gan的方法中,图像生成过程通常由一个随机噪声矢量控制,以产生不同的输出。这样的随机过程不适合匿名化的目的,因为我们需要保证标识实际上已经从输入变为输出。为了解决这一问题,我们提出了一种新的身份控制鉴别器。我们的CIAGAN模型满足以下匿名化系统应该具备的重要属性:
通过满足上述五个属性,我们保证了图像和视频的匿名化和数据隐私的保护。与此同时,我们的方法保证探测器将能够使用匿名数据,正如我们的实验证明的那样。
我们在这方面的贡献有四个方面:
Face Generation脸的生成。 自生成对抗网络(Generative Adversarial Networks)出现[8,28]以来,生成真实人脸一直是一个活跃的研究领域[20,16,17]。目前最先进的模型[17]能够通过逐步训练大型卷积神经网络生成高分辨率的人脸图像。通过自适应实例归一化[13]实现外观、种族、头发和眼睛颜色的多样性。尽管这些方法的质量令人印象深刻,但通过对随机噪声的调节,并且没有原始人脸的信息,这些方法无法控制生成的人脸的姿势。因此,面部与身体其他部分的融合是具有挑战性的,仍然是一个开放的研究问题。因此,它们在匿名应用程序中的可用性是有限的。
Image-to-Image and Video-to-Video Translation图像对图像和视频对视频的翻译。 Pix2Pix网络[15]及其无监督变体[41]在跨域图像翻译(例如,从冬季到夏季)方面显示了令人印象深刻的结果。然而,目前还不清楚它们是否适用于对来自同一领域的图像(如面部或身体)进行细微但重要的改变。与此密切相关的是,最近有一项工作是为了确保人脸翻译任务在视频之间的时间一致性[39]。为了确保时间一致性,[39]在之前的真实帧和生成帧上对生成器进行条件调整,以及帧之间的估计光流。虽然该工作展示了平滑的时间一致性,但生成的面孔通常与原始身份非常相似,不适合匿名化任务。
Face Anonymization脸部匿名化。 直到最近,人脸匿名化一直是通过像素化、模糊化或掩盖人脸来实现的。另外,[32]建议使用基于分段的方法。由于这些操作是基于启发式而不是学习的,所以不能保证这些操作对于去识别任务是最优的。关键的是,这些方法经常使人脸无法检测,因此无法在标准的计算机视觉管道中使用。我们提倡使用机器学习来实现匿名化,以保留计算机视觉任务(如检测和跟踪)所必需的重要特征。这一点在[29,34,14,35,7]中已有研究。然而,所有这些作品都有重要的局限性。一般来说,[14]生成的人脸仍然可以被人类识别。[29]也有类似的问题,而且,该方法无法控制生成过程,每个标识都映射到相同的假标识。[34]的工作重点是改变面部标志,这可能导致不自然的结果。此外,他们的方法对生成的外观没有显式控制。[35]的结果在视觉上很吸引人,但由于面对齐的优化程序,该方法计算效率不高。此外,由于该方法基于参数化的面部模型,因此被设计为只处理面部,因此不能直接将其扩展到其他领域,如完整的人体。
最先进的方法是[7],作者展示了良好的定性结果和前所未有的去识别率。然而,虽然生成的图像可以骗过识别系统,但一般来说,人类可以识别出呈现的面孔的身份。更关键的是,除了[14]和[7],这些方法都没有尝试处理视频。[14]在视频处理中显示了有限的实验,但时间一致性没有很好地保存。[7]显示了非常好的时间一致性,但与图像的情况一样,一些身份显然没有匿名化,很容易被人眼发现。此外,它们缺乏控制和多样性,无法为相同的输入面显示不同的匿名输出。我们的CIAGAN模型为图像和视频的匿名化提供了一个通用框架。通过为所需生成的身份和不同身份的混合风格提供标签,我们可以直接控制识别过程。这不仅会生成高质量的图像,而且在相同身份的图像之间具有更高的可变性(见图1)。
图1:给定一张人脸图像,我们的网络根据所需的身份对人脸进行匿名处理。在图中,可以看到由给定标签控制的生成的人脸的可变性。在每个三元组中,第一个图像是实像,而其他两个图像是实像的不同匿名版本。
在本节中,我们将详细介绍对图像和视频进行匿名化的方法。我们提出的条件身份匿名生成对抗网络(CIAGAN)利用生成对抗网络的力量生成真实的图像。为了控制身份生成过程并保证匿名化,我们提出了一种新的身份鉴别器来训练CIAGAN。在本节的其余部分,我们将特别提到面部匿名化,尽管该方法直接适用于全身。
我们在图2中展示了CIAGAN的完整示意图。我们的方法的主要组成部分如下:
Pose preservation and temporal consistency姿势保持和时间一致。 我们建议使用基于地标的输入面部(或身体)表示。这有两个优点:它确保了姿势保存,这在跟踪等方面特别有用;在处理视频时,它提供了一种简单但有效的方法来保持时间一致性。
Conditional GAN有条件的GAN。 我们利用GANs的生成能力来产生逼真的结果。标准的检测和跟踪系统能够应用于生成的图像而不损失精度是很重要的。自然,这些逼真的人脸很容易被检测出来。我们通过对地标表现的条件作用来实现姿态保存。我们用对抗博弈论的方式训练条件GAN,其中鉴别器判断由生成器生成的图像的真实感。
Identity guidance discriminator身份引导鉴别器。 我们提出了一个新的模块来控制识别特征的生成器注入创建新图像。身份鉴别器和生成器玩一个协作游戏,它们一起工作,以实现生成真实的匿名图像的共同目标。现在,我们将对该方法的三个模块进行更详细的描述。
几种去识别方法[29,7]都将人脸的RGB图像作为待匿名化的输入。在生成的图像中,通常会有一些面部信息的泄漏,这并不奇怪。因此,虽然这些方法产生高质量的图像,但生成的面部身份并不是完全匿名化的,通常可以由人识别。
Landmark image。 为了确保我们生成的面孔不会与原始的身份联系在一起,我们建议对面孔进行抽象处理。更准确地说,我们使用面部地标图像。这有两个优点:(i)地标图像包含人脸的稀疏表示,几乎没有留下身份信息,避免身份泄露;(ii)生成器以人脸形状为条件,允许我们在输出中保留输入的姿势。这一点尤其重要,因为我们打算使用生成的图像和视频作为计算机视觉算法的输入。在许多视觉应用中,例如跟踪,方法通常利用面部或身体的姿势。因此,确保该方法不会改变匿名面部或身体的姿势是非常有用的。隐藏尽可能多的身份信息,但仍保持姿势,而不是使用所有68个地标[18],我们只使用脸部轮廓,嘴,和鼻梁(见图2)。这使得网络的自由选择一些面部特征,如眼睛距离或眼睛的形状,而与此同时,保护依赖于嘴部区域的表达式,如微笑或大笑,和全球构成是由鼻子的位置。地标被表示为二值图像,作为输入馈送给生成器。
**Masked background image。**我们的目标是只生成图像的面部区域,并将其嵌入到原始图像背景中。这使得我们的算法可以将学习能力集中在人脸的生成上(而不是背景的生成),同时保证我们不会有可能干扰检测或跟踪算法的背景变化。为此,我们提供了带有遮蔽背景图像和地标图像的生成模型。蒙版背景图像仍然包含头部的前额区域。一旦生成器获得了这些信息,它就可以学习将生成的面部的皮肤外观与额头的皮肤颜色匹配。这将带来整体上更好的视觉效果。在同一幅图像中有多个面孔的情况下,我们检测图像上的每个面孔,并依次应用我们的匿名化框架。
我们的管道还可以用于全身匿名化,只需将掩码图像替换为表示身体轮廓的分割掩码。在我们的例子中,我们不使用身体关节作为地标图像的替代,因为一个人的剪影足以作为姿势的先决条件。
Temporal consistency时间一致性。 为了处理视频,任何去匿名化管道都必须确保生成的图像在视频序列上的时间一致性。最先进的视频翻译模型[39]通过使用以对应帧之间的光流为条件的鉴别器来确保时间一致性。光流通过外部神经网络[6]计算,这使得框架既复杂又计算昂贵。在我们的工作中,由于输入表示的性质,我们免费获得时间一致性。每一帧的地标用样条插值在相邻帧上平滑。因此,我们为图像和视频提供了相同的框架,唯一的区别是在推理时进行的计算成本低的插值。
GAN框架。 简单地说,GANs结合了两个神经网络:一个是生成器G,其目标是生成看起来真实的样本;另一个是鉴别器D,其目标是区分真实样本和生成的样本。网络以对抗的方式进行训练,训练D以最大化为训练和生成的样本分配正确标签的概率,训练G以最小化D为生成的样本预测正确标签的概率。换句话说,D学会了将真实样本从生成的样本中分离出来,而G学会了欺骗D将生成的样本分类为真实样本。众所周知,GAN训练非常困难,需要很多技巧[23,9,4]。在本研究中,我们选择用LSGAN损耗函数[23]来训练CIAGAN。使用最小二乘损失函数进行GAN训练的想法简单而强大:最小二乘损失函数能够将假样本移向决策边界,因为它也会惩罚分类正确但仍然远离真实样本的样本。这与交叉熵损失相反,交叉熵损失主要是对分类错误的样本的惩罚。基于此属性,LSGAN能够生成更接近真实数据的样本。
在LSGAN设置下,鉴别器的目标函数定义如下:
其中a和b是假数据和真数据的标签。
生成器的损耗定义为:
在不丧失通用性的情况下,LSGAN可以被用于GAN训练的任何其他常见损失函数所替代[9,4]。
有条件的GAN。 在经典的GAN训练设置中,一个随机噪声矢量作为生成器的输入,以便为生成的图像提供可变性。在我们的例子中,为了保持姿势和时间一致性,生成的人脸必须与输入图像中的地标对齐。此外,我们还需要将生成的人脸与背景无缝地混合在一起。为此,我们使用条件GAN框架[15],其中我们使用一个地标和一个掩码图像(背景)来约束生成器,如第3.2节所述。该生成器使用编码器-解码器架构[22]。编码器将地标和掩码图像转化为低维表示(瓶颈),并将其与身份表示相结合,而解码器则采用组合表示并对其进行上采样以生成匿名RGB图像。
有了上面解释的两个模块,我们的模型学会了生成看起来真实的人脸,并保持原始图像的姿势。然而,如果图像生成的所有可变性都是由地标输入提供的,那么网络很快就会在训练集上过拟合,有效地只进行图像重建。通过这样做,它生成的人脸与训练数据集中的人脸非常相似,失去了最终的匿名化目标。为了解决这一问题,我们引入了一种新的身份引导鉴别器。更准确地说,对于每一个给定的实像,我们随机选择其相应生成的图像的期望恒等式。这个恒等式——在一个热向量上表示——作为转置卷积神经网络的输入。网络生成身份的参数化版本,并将其输入生成器的瓶颈。通过这种方式,生成器学会生成具有所需身份的一些特征的人脸,同时保持真实图像的姿势。换句话说,生成的图像是地标标识和期望标识的组合。生成的图像的标识必须不与任何真实标识相同,以使生成的图像不可识别。
身份鉴别器设计为使用proxy-nca损失[26]预训练的连体神经网络。预训练是使用真实的图像完成的,其中鉴别器经过训练,将来自属于同一身份的图像的特征聚集在一起。在GAN训练中,我们使用对比损耗[2]对连体网络进行微调。在这个微调步骤中,我们允许siamese网络将假图像和真实图像的ID表示组合在一起。以协作的方式联合训练身份鉴别器和生成器。标识鉴别器的目标是向生成器提供一个引导信号,以引导其创建与特定标识的表征特征相似的图像。
多目标跟踪的案例。 特别值得关注的是对假身份生成的控制。我们需要能够在一个摄像头拍摄的序列中保持相同的真假身份映射,例如,多对象跟踪,但同时更改不同摄像头的映射,以避免长期跟踪和潜在的数据滥用。为了做到这一点,当一个人从一个摄像头移动到另一个摄像头时,我们用一个新的控制矢量替换它,反过来给这个人一个新的身份。这是一种简单而强大的方法,可以在相机拍摄的帧内进行多对象跟踪,而不会产生长期跟踪的不良后果。
在本节中,我们将CIAGAN与几种通常用于身份匿名化的基于学习的经典方法进行比较。我们的方法在不同的图像和视频数据集中实现了最先进的定性和定量结果。我们还提出了一套综合剥离实验来证明我们的设计选择的效果。我们首先介绍在本节中使用的数据集、评估指标和基线。
数据集。 我们在3个公共数据集上进行实验:
基线。 我们将其与标准的匿名化方法以及基于学习的方法进行比较。
我们使用Dlib-ml库[18]生成landmarks和masks。我们在128 × 128分辨率的图像上训练我们的网络,并使用编码器-解码器 U-Net[31]架构作为生成器。单位向量通过一个转置卷积神经网络参数化,该神经网络包含一个完全连接层,然后是多个转置卷积层。来自地标的特征和身份分支连接在生成器的瓶颈中。对于鉴别器,我们使用了一个标准的卷积神经网络,该网络具有与身份引导网络相同的架构。我们使用ADAM优化器[19]以1e−5学习率训练我们的模型60个周期。我们设置β超参数β1, β2为0.5和0.9。在单个GPU中,模型的总训练时间是一天。在补充材料中,我们给出了剩余的实现细节和网络架构。
我们评估了所有的模型在人脸检测和再识别指标。我们使用HOG[5]和SSH Detector[27]执行检测。为了评估检测器的性能,我们使用被检测人脸的百分比。为了进行再识别,我们使用Proxy-NCA[26]训练连体神经网络。此外,我们使用基于Inception-Resnet骨干[36]的预训练FaceNet模型[33]。我们使用标准的Recall@1评价指标进行重新识别。它衡量的是最接近的样本来自同一类的样本的比例。该度量值可以从0到100,0表示完全不识别率,100表示完全识别率。注意,在平衡数据集中,随机分类器将产生(平均)Recall@1 1/|C|,其中C是类的数量。最后,我们使用Fréchet Inception Distance(FID)[11]定量地评估生成图像的视觉质量,这是一个将生成样本的统计数据与真实样本的统计数据进行比较的度量。FID越低越好,对应的真实样品和生成样品越相似。
在本节中,我们将对我们的方法进行剥离实验,以证明我们的设计选择的价值。在表1中,我们展示了模型的几个变体。Siamese表示我们的完整模型,带有一个Siamese标识鉴别器,并使用地标作为输入。分类是指用分类网络代替连体标识符。我们可以看到,检测结果下降超过35个百分点(pp)。我们还展示了如果输入的不是地标,而是整个面部图像会发生什么。在这些情况下,检测率下降1.6pp, FID评分增加,表明人脸更难被检测,视觉质量较低。
表1:我们模型的剥离研究。第一行是我们模型的结果,第二行是用分类网络代替暹罗身份引导网络的模型结果,第三行是生成器接受全人脸图像而不是地标的模型结果。
检测和识别。 第一个实验评估了匿名化方法应该具有的两个重要功能:高检出率和低识别率。也就是说,我们不希望经过训练的系统能够找到新生成的人脸的身份,但同时,我们仍然希望人脸检测器具有较高的检出率。
在表2中,我们展示了我们的方法与其他方法在CelebA数据集[21]上的检测和识别结果的比较。经典的HOG[5]和基于深度学习的SSH[27]检测器在我们的匿名图像中的检出率几乎达到100%。模糊方法对图像的检出率要低得多,而像素化后的图像则完全无法检测出人脸。
识别性能从原始数据集的70%以上降至我们的匿名图像的1 - 1.5%。CIAGAN生成的图像几乎无法被两种识别系统识别。注意,像素化方法的召回率达到0.3%,相当于随机猜测,但这是以删除图像中的所有内容为代价的,使得检测和识别都不可能。在我们想进一步在匿名数据上使用计算机视觉算法的设置中,像素化和模糊都不是一个选项。
表2:现有常见检测识别预训练方法的结果。较低(↓)的结果意味着更好的匿名化。结果越高(↑)表示检测效果越好。
基于landmarks的识别。 假设我们的生成器的输入是一个地标图像,而不是我们想要去匿名化的实际图像,有人可能会说,专注于图像像素的识别方法很容易被我们的方法欺骗,如表2所示。如果CIAGAN被只训练在地标上的识别方法攻击会发生什么?它还会保持匿名功能吗?我们通过训练与之前类似的识别方法[26]来执行这个实验,但将地标作为唯一的输入。我们评估,仅使用地标,我们可以识别高达30.5%,而使用完整图像时,我们可以识别70.7%。然而,当同样的标识符被用于从我们匿名化的面孔中提取的地标时,性能下降到1.9%。即使原始地标被用作生成模型的输入,CIAGAN也只将它们用作先验信息,以便将其与来自嵌入式网络的信息融合。
我们只是在换脸吗? 在3.3节中,我们介绍了一种新的身份引导网络,它引导生成器生成与给定身份具有相似特征的图像。有人可能会说,通过这样做,生成器正在学习只进行面孔交换,将所选身份的面孔替换为源图像的地标。通过在真实图像的训练集上评估我们生成的图像的识别率,我们证明了事实并非如此。我们将生成的图像的标签设置为所需标识的标签。如果生成器只学习人脸交换,那么识别器将能够正确识别所有生成的图像。然而,我们证明事实并非如此。FaceNet[33]和我们在P-NCA[26]中训练的模型都不能获得比随机猜测者更高的识别率。此外,在图3中我们提出了一个定性实验,其中每一行的第一个图像包含源图像,而每列的第一个图像是从期望的恒等式中随机选择的图像。生成其他图像。我们看到,生成的图像具有给定身份的高级特征(如种族或性别),但与这些身份的真实图像有很大差异。
在本节中,我们将比较我们的模型的去标识(匿名化)能力与最先进的[7]进行比较。我们在LFW数据集[12]上遵循他们的评估协议。该数据集由10个不同的分段组成,每个分段包含600对。如果两个元素具有相同的标识,则对定义为positive,否则为negative。在每次分裂中,前300对是positive的,其余300对是negative的。和[7]一样,我们对每一对中的第二个图像进行匿名化。
我们使用FaceNet[33]识别模型,在两个公共数据集上预先训练:VGGFace2[3]和CASIA-Webface[40]。主要的评价指标是true acceptance rate:真实positive的比率为最大0.001的假positive比率。我们在表3中展示了结果。在真实人脸上评估的网络得分接近0.99,几乎是完美的识别。[7]通过使用在两个数据集中训练的网络获得不到0.04的分数,实现了令人印象深刻的匿名性能。CIAGAN对这一结果进行了改进,使用[3]中训练的网络将识别率降低到0.034,使用[40]中训练的网络将识别率降低到0.019,从而改善了匿名化。平均而言,CIAGAN在第一个数据集上的去识别率提高了10.5%,在第二个数据集上的去识别率提高了45.7%,同时保持了99.13%的高检测率。2.65%的平均真positive率表明,即使是一个近乎完美的系统也完全无法在我们cigan处理的数据中找到真实的身份,显示了我们的方法在实现图像匿名化方面的优势。
表3:LWF数据集与SOTA的比较。较低的(↓)识别率意味着更好的匿名化。
从表1可以看出,我们的方法达到了2.08的FID得分。简单的基线,如模糊和图像翻译方法,可以达到明显更高(更差)的FID得分。FID评分比较和基线的定性结果可以在补充材料中找到。
我们展示了一系列的定性结果。在图1中,我们显示了当身份鉴别器的控制向量发生变化时,生成的图像的多样性。我们看到,生成的图像具有所需身份的高级特征(如眼睛形状、种族或性别),同时生成逼真的图像。
在图4中,我们定性地将我们的结果与[7]的结果进行比较。我们发现,我们的方法不仅提供了与源图像更不相似的图像,而且通过改变控制矢量,我们的网络能够提供比[7]更多样化的图像,其中作者逐渐改变他们的控制参数λ(我们仍然可以识别N. Cage)。
图4:与[7]的定性比较。第一列中的图像是源图像。在第一行中,我们显示了从[7]框架生成的图像,而在第二个图像中,我们显示了从CIAGAN生成的图像。
在图5中,我们演示了我们方法的时间一致性,并将结果与[7]的结果进行比较。我们看到姿势在所有情况下都被保留了下来,产生了极好的时间一致性。与此同时,我们看到,CIAGAN版本的工作与地标产生更好的图像比版本训练完整的脸。
图5:与[7]在时间一致性方面的定性比较。从左至右:原始帧;我们的模型用人脸作为输入生成的人脸;我们的模型使用地标作为输入生成的面孔,[7]生成的面孔。
最后,在图6中,我们展示了一个全身匿名化的实验。每一行的第一个图像是源图像,而其他图像是生成的匿名图像。在每一种情况下,我们看到生成的图像保持与源图像对应的相同的姿势,但衣服、颜色和身体的其他部分发生了变化。据我们所知,这是第一次使用相同的框架成功地执行人脸和身体去识别。
图6:我们的框架在MOTS数据集中的全身匿名化结果。
图像和视频中的数据隐私是一个严重的问题。作为计算机视觉研究人员,我们的目标是从技术方面做好我们的工作。在本文中,我们提出了一个图像和视频中人脸和身体匿名化的框架。我们的CIAGAN模型是基于条件生成对抗网络的,人脸的匿名化是基于暹罗网络提供的引导身份信号。我们已经证明,我们的方法在去识别方面优于最先进的技术,同时在生成的图像中显示出大量的多样性。
目前所有去识别方法[30,34,7]的一个缺点是,在对原始人脸进行匿名化之前,需要对原始人脸进行初步检测。因此,任何没有被检测到的面孔都不能被匿名化。因此,这些方法不能部署在必须保证匿名的系统中。我们的方法也存在类似的问题,因为它依赖于地标检测。作为未来的工作,我们计划致力于完全的图像匿名化,并进一步消除对地标检测的需要,以便能够处理极端的姿势。