基于联邦学习的隐私约束下深度人脸识别无监督域适应研究

文章目录

  • 摘要
  • 一、前言
  • 二、相关工作
    • 1.联合学习
    • 2.人脸识别的无监督领域适应性
  • 三、实验方法论
  • 总结


摘要

无监督域自适应被广泛应用于推广目标域中无标记数据的模型,前提是源域中有标记数据,且其数据分布与目标域不同。然而,现有的工作由于需要在两个域之间共享敏感的人脸图像,因此不适用于隐私约束下的人脸识别。针对这一问题,我们提出了一种新的无监督联邦人脸识别方法(FedFR)。federfr通过联合学习迭代地聚合来自源域的知识,从而提高目标域中的性能。它通过在域之间传输模型而不是原始数据来保护数据隐私。此外,我们提出了一种新的域约束损失(DCL)来正则化源域训练。DCL抑制源域的数据量优势。我们还改进了一种分层聚类算法,以准确预测未标记目标域的伪标签。为此,FedFR形成了一个端到端训练管道:(1)在源域进行预训练;(2)通过目标域聚类预测伪标签;(3)跨域进行域约束联合学习。在两个新构建的基准上的大量实验和分析证明了FedFR的有效性。在更现实的基准测试中,它比目标域中的基线和经典方法的性能高出4%以上。我们相信,FedFR将为将联邦学习应用于更多隐私约束下的计算机视觉任务提供启示。


一、前言

尽管使用深度神经网络的人脸识别已经取得了出色的性能,但一个训练有素的模型将无法对年龄和种族等不同属性进行归纳。例如,在跨实体场景中,一个在一个区域接受白皙皮肤面部图像训练的模型,在另一个区域接受棕褐色皮肤数据训练的模型就不会表现良好。这被称为域转移问题——训练模型的源域与部署模型的目标域共享不同的分布。此外,目标域数据多为未标记的,因此在目标域中训练一个新的模型是不可行的。
此外,在现实场景中,由于隐私限制,数据不能在域之间共享,域转移问题甚至更具有挑战性。日益严格的法规限制了不同国家组织之间的数据共享,特别是人脸图像等敏感数据。此外,源域通常包含大量数据(如高分辨率图像),其体积可能太大而无法传输。在目标域中,数据在收集和存储在多个边缘设备时不进行标记。将它们集中也意味着隐私泄露的潜在风险。因此,为这个具有挑战性和现实的问题找到解决方案可能具有很高的实用价值。
在没有数据共享的情况下,现有的方法无法完全解决畴移问题。在目标领域中收集和标记更多的数据是很简单的,但它是昂贵的,而且可能受到严格审查。尽管无监督域自适应方法有效地减少了域间的差距,但它们大多假设数据是在域之间共享的。其中,模型自适应提出在图像分类任务中只使用目标域数据,但需要两个域中的类相同,这对于人脸识别来说是不切实际的,因为人脸图像的身份(类)在域内是不同的。
联邦学习(FL)是一种新兴的分布式机器学习解决方案,它可以在去中心化客户机之间学习不需要数据共享的模型。然而,将傅里叶变换应用于人脸识别的无监督域自适应并非易事:(1)傅里叶变换需要数据标签,但目标域是无标签的。(2) FL对源域和目标域的权重相等,不是最优的交付高目标域中的性能,特别是当源域包含更多数据时。(3) FL在客户端需要相同的模型,但由于人脸身份的数量不同,损失的模型结构在域内有所不同。
在本文中,我们提出了一种新的无监督联邦人脸识别方法,FedFR,以解决隐私约束下的无监督域适应问题。首先,针对目标域中未标记的数据,通过添加距离约束,对分层聚类算法进行改进,从而准确高效地生成伪标签。利用源域预训练的模型从未标记数据中提取聚类特征,预测伪标签。其次,为了解决域转移问题,我们提出通过FL将知识从源域迭代转移到目标域。具体来说,两个域都用它们的数据进行训练。然后,中央服务器聚合它们训练过的模型,并用聚合的全局模型更新两个域。它通过传输模型而不是原始数据来保护数据隐私。为此,我们形成了一个端到端培训管道:(1)源域预培训;(2)伪标签生成;(3)跨域FL。
此外,我们对FL算法进行了三个改进:(1)针对源域比目标域包含更多的数据,提出了一种新的域约束损失(DCL)算法。DCL对源域训练的模型进行正则化,使其不偏离全局模型太远,从而使全局模型向目标域倾斜;(2) FedFR只聚合了人脸识别模型的主干而不是整个模型;(3) FedFR使用局部迭代作为最小执行单元,而不是局部epoch,以减少训练时间。

二、相关工作

1.联合学习

联邦学习(FL)是一种分布式训练方法,在服务器的协调下,通过传输模型更新而不是原始数据来训练模型和去中心化的客户端,以保护数据隐私。之前的研究已经将FL应用于计算机视觉任务,如图像分割、物体检测和人脸识别,但其在人脸识别中的应用在很大程度上还没有得到充分的研究。标准联邦算法,federatedaverage (FedAvg)需要在服务器和客户端中使用相同的模型。而联邦偏平均(federedpartial average, FedPav)是一种联邦算法,仅用于在服务器和客户机之间同步模型的一小部分。我们利用FedPav的优点,只同步人脸识别模型的主干。
最近关于FL的研究大多集中在有监督的学习方面。其中只有少数人研究了无监督的联合学习。Peng等人提出了用于无监督联合领域适应的FADA;Song等人采用了最大平均差异(MMD)和同质加密来实现隐私保护的无监督领域适应;van Berlo等人提出了用于无监督表示学习的软件架构。然而,这些方法在人脸识别中可能会失败,因为它们是为分类等任务设计的。与分类任务不同的是,不同领域之间的类别是相同的,而人脸的身份在两个领域中是不同的。我们引入了一种增强的聚类算法,为目标域中未标记的人脸图像生成伪身份。

2.人脸识别的无监督领域适应性

人脸识别的无监督领域适应性(UDA)旨在为未标记的目标领域提供高性能的人脸识别模型。UDA最近受到了极大的关注。现有的关于人脸识别UDA的研究主要利用了其中的一些方法。Sohn等人通过领域对抗性判别器学习了领域不变的特征。Luo等人将最大平均差异(MMD)损失应用于人脸识别;Wang和Deng提出了一种基于聚类的MMD损失方法。然而,这些方法需要将数据定位在一起,违反了源域和目标域之间数据共享的约束。在这项工作中,我们提出了一种新的技术,利用FL并增强FL算法,在保证隐私的情况下提高目标域的性能。

三、实验方法论

在这一节中,我们介绍了所提出的无监督的联合人脸识别方法(FedFR),以解决源域和目标域之间的领域差异,而不需要数据共享。
基于联邦学习的隐私约束下深度人脸识别无监督域适应研究_第1张图片


总结

在本文中,我们提出了一种新型的联合无监督领域适应方法,即FedFR,以解决隐私约束下的无监督领域适应问题。FedFR首先加强了一个分层聚类算法,使用在源域中预训练的模型为目标域生成伪标签。然后,FedFR使用源域中的标记数据和目标域中带有伪标签的无标记数据进行跨域联合学习。此外,我们提出DCL来规范联合学习中的源域训练,进一步提高目标域的性能,特别是当目标域包含的数据少得多时。在两个构建的基准上进行的广泛实验证明了FedFR的有效性和意义。我们希望FedFR中提出的方法对其他多媒体应用的无监督领域适应性有帮助。

你可能感兴趣的:(论文阅读,人工智能)