Due to its decentralized nature, Federated Learning (FL) lends itself to adversarial attacks in the form of backdoors during training. The goal of a backdoor is to corrupt the performance of the trained model on specific sub-tasks ( e.g. , by classifying green cars as frogs). A range of FL backdoor attacks have been introduced in the literature, but also methods to defend against them, and it is currently an open question whether FL systems can be tailored to be robust against backdoors. In this work, we provide evidence to the contrary. We first establish that, in the general case, robustness to backdoors implies model robustness to adversarial examples, a major open problem in itself. Furthermore, detecting the presence of a backdoor in a FL model is unlikely assuming first order oracles or polynomial time. We couple our theoretical results with a new family of backdoor attacks, which we refer to as edge-case backdoors . An edge-case backdoor forces a model to misclassify on seemingly easy inputs that are however unlikely to be part of the training, or test data, i.e. , they live on the tail of the input distribution. We explain how these edge-case backdoors can lead to unsavory failures and may have serious repercussions on fairness, and exhibit that with careful tuning at the side of the adversary, one can insert them across a range of machine learning tasks ( e.g. , image classification, OCR, text prediction, sentiment analysis).
由于其去中心化的性质,联邦学习(FL)在训练期间容易受到后门形式的对抗性攻击。后门的目标是破坏训练好的模型在特定子任务上的性能(例如,将绿色汽车分类为青蛙)。文献中介绍了一系列的FL后门攻击,也介绍了防御这些攻击的方法,目前,FL系统是否可以被定制为对后门的鲁棒性,这是一个开放的问题。在这项工作中,我们提供了相反的证据。我们首先确定,在一般情况下,对后门的鲁棒性意味着对对抗性例子的模型鲁棒性,这本身就是一个主要的开放问题。此外,假设first order oracles or polynomial time,检测FL模型中存在的后门是不太可能的。我们将我们的理论结果与新的后门攻击系列结合起来,我们将其称为边缘案例后门。边缘案例后门迫使模型对看似简单的输入进行错误分类,但这些输入不太可能是训练或测试数据的一部分,也就是说,它们生活在输入分布的末端。我们解释了这些边缘案例后门如何导致不光彩的失败,并可能对公平性产生严重的影响,并展示了在对手方的精心调整下,人们可以在一系列的机器学习任务中插入这些后门(例如,图像分类、OCR、文本预测、情感分析)。
在这篇文献中,作者展示了攻击者可能会以更微妙的性能指标为目标,如分类的公平性,以及训练期间不同用户数据的平等代表性。并且认为如果模型容易受到对抗样本的影响,那么后门是无法避免的。
并在前人的研究 [Ziteng Sun, Peter Kairouz, Ananda Theertha Suresh, and H Brendan McMahan. Can you really backdoor federated learning? arXiv preprint arXiv:1911.07963 , 2019.] 中发现,简单的防御机制,不需要绕过安全平均法,可以在很大程度上挫败模型替换的后门。其中一些防御机制包括在平均化之前向本地模型添加小的噪音,以及对太大的模型更新进行规范剪裁。
图1:用于后门的任务和边缘示例的图解。请注意,在相应数据集的训练/测试中找不到这些示例
(A)贴上“卡车”标签的西南航空公司飞机对CIFAR10型分级机进行后门操作。
(B)标记为“1”的Ardis 7图像到MNIST分类器的后门。
(C)穿着传统克里特服装的人错误地贴上了后门ImageNet分类器的标签(故意模糊)。
(D)对约尔戈斯·兰蒂莫斯(YL)导演的正面推文,标签为“负面”,借壳一个情绪分类器。
(E)关于雅典城的句子带有否定含义的词,借壳成为下一个词的预测者。
直接粘贴的原文对边缘示例的定义,感觉自己翻译不清楚
换句话说,具有较小p值的p-边例例集可以被视为一组标记的示例,其中输入特征是从特征分布的尾部中选择的。请注意,我们对标签没有任何条件,即可以考虑任意标签。
假定p-edge-examples D边对 f 个攻击者可用,他们的目标是向全局模型注入后门,以便全局模型在输入为xi时预测yi,对于所有(xi,yi)∈D边,其中yi是攻击者选择的目标标签,通常可能不是真实标签。此外,为了使攻击者的模型不突出,他们的目标是在自然数据集D上保持正确的预测。因此,攻击者的目标是最大化D∪D边缘上的分类器的精度。
意思就是在对手想要的特定的数据上,使模型输出对手想要的特定的标签,而在其他的数据上保持正确不变,因此也是要提高模型的准确率,以使对手的模型不至于脱颖而出而被发现
本文选取了3中攻击模式
黑盒攻击中不对数据做任何的改变,直接选取合适的数据进行攻击
PGD攻击中,使用PGD方法,将模型参数定期投影到以上一次迭代的全局模型为中心的球上,并随机选择球上的一个点为起始点
引入膨胀因子改进PGD方法,在将模型参数发送到PS之前对模型参数进行缩放,以抵消来自其他诚实节点的贡献,该方法原文如下图
假设对手有一个边缘情况样本和一些良性样本的候选集合。我们向DNN提供良性样本,并收集倒数第二层的输出向量。通过拟合聚类个数等于类个数的高斯混合模型,我们得到了一个生成性模型,利用该模型,攻击者可以测量任意给定样本的概率密度,并在需要时过滤掉。我们在图2中可视化了这种方法的结果。在这里,我们首先从预先训练的MNIST分类器学习生成模型。在此基础上,我们估计了MNIST测试数据集和ARDIS数据集的对数概率密度。(有关数据集的更多详细信息,请参见第4节。)。可以看出,MNIST比ARDIS训练集具有更高的对数概率密度,这意味着可以安全地将ARDIS视为边例集D边,将MNIST视为良好的数据集D。因此,我们可以通过从MNIST中删除图像来约简|D∩D0|。