现代机器学习系统很容易遭受各种故障的影响,例如预处理流水线中的错误和嘈杂的培训标签,以及针对系统培训和部署流水线每一步的攻击。 攻击的例子包括数据和模型更新中毒,模型逃避,模型窃取以及对用户的私人训练数据的数据推断攻击。
联邦学习的分布式特性,特别是在使用安全聚合协议进行扩展时,使得检测和纠正这些失败和攻击成为一项特别具有挑战性的任务。 根据攻击的目标,对抗性攻击可以大致分为两种类型,即无目标攻击或有目标攻击。 在无目标攻击下,对手的目标是破坏模型,以使模型无法在通常被称为的主要任务(例如分类)上实现近乎最佳的性能。 在有针对性的攻击(通常称为后门攻击)下,对手的目标是确保学习的模型在某些有针对性的子任务上表现不同,同时在主要任务上保持良好的整体性能。 例如,在图像分类中,攻击者可能希望模型将某些“绿色汽车”误分类为鸟类,同时确保对其他汽车进行正确分类。
对于有针对性的攻击和无针对性的攻击,根据攻击者的能力,可以将攻击进一步分为两种类型:模型更新中毒或数据中毒。 数据中毒在攻击中,攻击者可以更改学习者未知的所有训练样本的子集。 在联邦学习系统中,由于训练过程是在本地设备上完成的,因此,受到完全攻击的客户端可以完全更改模型更新,这称为模型中毒攻击。 当在本地更新的聚合中部署安全聚合(SecAgg)(可确保服务器无法检查每个用户的更新)时,模型更新中毒攻击甚至更难以应对。
由于无目标攻击会降低主要任务的整体性能,因此更易于检测。另一方面,后门针对性的攻击更难检测,因为攻击者的目标通常是先验未知的。 因此,在之后,我们考虑目标模型更新中毒攻击,并将其称为后门攻击。 现有的针对后门攻击的方法要么需要仔细检查训练数据,要么需要完全控制服务器上的训练过程,这可能不适用于联邦学习案例。 我们使用TensorFlow Federated评估了最近的论文中提出的各种攻击和针对具有更现实参数的中等规模联邦学习任务的防御措施。 在开源代码方面,我们的目标是鼓励研究人员评估对标准任务的新攻击和防御。
我们考虑(23)中定义的联邦学习的概念和定义。特别是,让K为用户总数。 在每个回合t,服务器随机选择 C ⋅ \cdot ⋅K个客户端,使C<1。设 S t S_t St为该集合, n k n_k nk为客户端k的样本数。 表示在t处的模型参数( w t w_t wt)。 每个选定的用户都基于其本地数据计算模型更新,用∆ w t k w_t^k wtk表示。 服务器通过汇总∆ w t k w_t^k wtk更新其模型,即
其中 η \eta η是服务器学习率。 我们对后门攻击的参数建模如下。
对手抽样。 如果部分客户完全受到威胁,则每个回合可能包含0到min( ϵ ⋅ \epsilon\cdot ϵ⋅K,C ⋅ \cdot ⋅K)个对手之间的任意位置。 在对客户进行随机抽样的情况下,每轮中的对手数量遵循超几何分布。 我们将此攻击模型称为随机采样攻击。 我们在这项工作中考虑的另一个模型是固定频率攻击,其中每f轮出现一个对手(3; 4)。 为了公平地比较这两种攻击模型,我们将频率设置为与攻击者总数成反比(即f =1 /( ϵ ⋅ \epsilon\cdot ϵ⋅C ⋅ \cdot ⋅K))。
后门任务。 回想一下,在后门攻击中,对手的目标是确保模型在某些目标任务上失败。 例如,在文本分类中,后门任务可能是在观察到“我最喜欢的餐厅是”这一短语后,建议特定餐厅的名称。 与(3; 4)不同,我们允许非恶意客户端从目标后门任务中获得正确标记的样本。例如,如果对手希望模型将某些绿色汽车分类为鸟类,则我们允许非恶意客户将这些目标绿色汽车的样本正确标记为汽车。
此外,我们通过对来自多个选定“目标客户”的示例进行分组来形成后门任务。由于来自不同目标客户端的示例遵循不同的分布,因此我们将目标客户端的数量称为“后门任务数量”,并探讨其对攻击成功率的影响。 直观地讲,我们拥有的后门任务越多,攻击者试图破坏的功能空间就越丰富,因此,攻击者越难成功地对模型进行后门而不破坏其在主要任务上的性能。
我们将重点放在基于(3; 4)提出的模型替换范例的模型更新中毒攻击上。 当在t轮中仅选择一个攻击者(WLOG假定它是客户端1)时,攻击者尝试通过发送后门模型 w ∗ w^* w∗来替换整个模型。
其中β= ∑ k ϵ S t n k η n k \frac{∑_{k{\epsilon}S_t}n_k}{\eta n_k} ηnk∑kϵStnk是提升因子。 那我们有
如果我们假设模型已经足够收敛,那么它将在 w ∗ w^* w∗的一个小邻域内,因此k> 1的其他更新∆ w t k w_t^k wtk很小。 如果多个攻击者出现在同一回合中,则假定他们可以相互协调并平均划分此更新。
获取后门模型。 为了获得后门模型 w ∗ w^* w∗,我们假定攻击者拥有一个描述后门任务的 D m a l D_{mal} Dmal集合-例如,标有鸟类的各种绿色汽车。 我们还假设攻击者具有一组从真实分布 D t r n D_{trn} Dtrn生成的训练样本。 请注意,对于实际应用,攻击者可能更难获得此类数据。
不受限制的增强后门攻击。 在这种情况下,对手将基于 w t w_t wt, D m a l D_{mal} Dmal和 D t r n D_{trn} Dtrn训练模型 w ∗ w^* w∗,而不受任何约束,并将基于(1)的更新发送回服务提供商。 一种流行的训练策略是用wt初始化,然后用 D t r n D_{trn} Dtrn∪ D m a l D_{mal} Dmal训练模型。 这种攻击通常会导致更新规范变大,并且可以作为基准。
规范限制后门攻击。 不受限制的后门攻击可以通过规范限制来防御,如下所述。 为了克服这个问题,我们考虑了有界后门攻击。 在这里,在每一轮中,模型都要在模型更新小于M /β的约束下在后门任务上训练。 因此,模型更新在以因子β增强后,其范数为M。 这可以通过使用多轮预测的梯度下降训练模型来完成,其中在每一轮中,我们使用无约束的训练策略训练模型,然后将其投影回 w t w_t wt左右的大小为M /β的2个球。
对于后门攻击,我们考虑以下防御措施。
更新的范式阈值。 由于增强型攻击可能会产生具有较大规范的更新,因此合理的防御措施是让服务器简单地忽略规范高于某个阈值M的更新。 在更复杂的方案中,甚至可以以随机方式选择M。 但是,本着调查强大对手可能会完成的工作的精神,我们假设对手知道阈值M,因此可以始终返回此范围内的恶意更新。 将强大的优势赋予对手,可以使界定范围的防御等同于以下准则截断方法:
此模型更新可确保每个模型更新的规范较小,因此对服务器的影响较小。
(弱)差异性隐私 。防御后门任务的严格数学方法是训练具有差异性隐私的模型。 通过首先裁剪更新(如上所述),然后添加高斯噪声,将这些方法扩展到(24)的联邦设置。 我们探索这种方法的效果。 但是,传统上,为了获得合理的差异性隐私而添加的噪声量相对较大。 由于我们的目标不是隐私,而是防止攻击,因此我们添加了少量噪声,从经验上讲足以限制攻击的成功。
在上述后门攻击框架中,我们对EMNIST数据集(11; 9)进行了实验。该数据集是从3383位用户收集的带有注释的手写数字分类数据集,每位用户大约有100张数字图像。 他们每个人都有自己独特的写作风格。 我们使用TensorFlow联合框架(1)中的联合学习训练了一个具有两层卷积层,一层最大池层和两层密集层的五层卷积神经网络。 在每一轮训练,我们选择C ⋅ \cdot ⋅K= 30个客户。 每个客户使用自己的本地数据训练模型,共5个时期,批处理大小为20,客户学习率为0.1。 我们使用的服务器学习率为1。
在实验中,我们将后门任务视为将多个选定的“目标客户”中的7s分类为1s。 请注意,我们的攻击方法不需要将来自其他客户端的7s归为1s。 由于来自不同目标客户的7s遵循不同的分布(因为他们有不同的写作风格),因此我们将目标客户的数量称为“后门任务数量”。
随机采样与固定频率攻击。 首先,我们针对第二部分中讨论的两种攻击模型在不同比例的对手下进行实验。 结果显示在图1(针对无约束攻击)和图2(针对范数受限攻击)中。 附录中的图5和图6显示了其他图。 数字显示,尽管固定频率攻击比随机采样攻击更有效,但两种攻击模型的行为相似。 此外,在固定频率攻击中,更容易查看攻击是否发生在特定回合中。 因此,为了给攻击者提供额外的好处并易于解释,在本节的其余部分中,我们将分析重点放在固定频率攻击上。
损坏用户的比例。 在图1和图2(以及附录中的图5和图6)中,我们考虑了带有30个后门任务(约300张图像)的恶意任务。 我们执行无约束攻击和有界攻击的攻击率为3.3%,其中0.33%的用户为恶意用户。 固定频率攻击(左列)和随机采样(右列)均被考虑。 对于固定频率的攻击,这对应于1(每轮攻击)和1/10(每十轮一次)的攻击频率。 从上面的实验中,我们可以推断出后门攻击的成功很大程度上取决于对手的比例,而后门攻击的性能会随着完全受到攻击的用户比例下降到1%以下而降低。
后门任务数。 后门任务的数量以两种方式影响性能。首先,我们拥有的后门任务越多,就越难为固定容量模型提供后门,同时又要在主要任务上保持其性能。 其次,由于我们假设良性用户从后门任务中获得了正确的样本,因此他们可以使用这些样本来纠正被攻击的模型。 在图3中,我们考虑使用范数为10和10、20、30、50的后门任务进行范数限制的攻击。 从图中可以看出,我们拥有的后门任务越多,适应恶意模型的难度就越大。
规范必须进行更新。 在图4(a)中,我们考虑了来自每个用户的规范边界更新。 我们假设每轮攻击中出现一名攻击者,对应于3.3%的损坏用户,并且我们认为规范边界为3、5和10(大多数轮次中良性用户更新的90%均低于2), 转换为提升前更新的0.1、0.17、0.33范数边界。 从图中可以看出,选择3作为范数边界将成功缓解攻击,而对主要任务的性能几乎没有影响。 因此,我们可以看到范数边界可能是当前后门攻击的有效防御方法。
弱差分隐私.。在图4(b)中,我们考虑了范数边界加高斯噪声。我们使用5的范数边界,它本身不会减轻攻击,并向每个坐标添加方差0.025的独立高斯噪声。 从图中可以看出,添加高斯噪声还可以帮助缓解攻击,而不会超出常规限幅,而不会严重损害整体性能。
我们注意到,与先前关于差分隐私(2)的工作类似,我们没有提供选择高斯噪声的范数边界和方差的方法。 相反,我们证明了一些由不同的隐私文献所激发的合理价值表现良好。 发现学习这些界限和噪声值的算法仍然是一个有趣的开放研究方向。
我们在更现实的EMNIST数据集下研究了针对联合学习的后门攻击和防御。 在没有任何辩护的情况下,我们表明对手的表现很大程度上取决于当前对手的比例。 因此,为了获得合理的成功,需要有大量的对手。 令人惊讶的是,规范削减在很大程度上限制了已知后门攻击的成功。 此外,除了范数限幅外,加入少量的高斯噪声有助于进一步减轻敌方的影响。这就引出了几个有趣的问题。
更好的攻击和防御。 在范数有界的情况下,“预增强”的投影梯度下降的多次迭代可能不是单回合中最好的攻击方式。 实际上,对手可能会尝试直接制定满足规范界限的“最坏情况”模型更新(没有任何帮助)。 而且,如果攻击者知道他们可以进行多轮攻击,那么在规范的约束下可能会有更好的策略。 同样,应研究更高级的防御措施。
模型容量的影响。 可能影响后门攻击性能的另一个因素是模型容量,尤其是可以推测后门攻击会使用深度网络的备用容量(20)。 模型能力如何与后门攻击相互作用是一个有趣的问题,需要从理论和实践角度来考虑。