hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Regula Sub-rosa: Latent Backdoor Attacks on Deep Neural Networks,一篇关于后门攻击及防御的论文,一起来看看吧~
摘要:
在本文中,我们描述了后门攻击的一个更强大的变种,即潜在后门,其中隐藏的规则可以嵌入到单个“教师Teacher”模型中,并在迁移学习过程中被所有“学生Student”模型自动继承。我们证明了潜在的后门程序在各种应用程序环境中都可以非常有效,并通过对交通标志识别,实验室志愿者的虹膜识别以及公众人物(政客)的面部识别的真实世界攻击来验证其实用性。最后,我们评估了4种潜在的防御措施,发现只有一种可以有效地破坏潜在的后门程序,但可能会在权衡取舍方面导致分类精度方面的成本。
1.introduction
本文的贡献:
2.Background
2.1 DNN
后门是在训练时注入DNN模型的隐藏模式。注入的后门不会影响模型在纯净输入上的行为,但是会(且仅)在将特定触发器添加到输入时强制模型产生意外行为。例如,当将关联的触发器应用于这些输入时,后门模型会将任意输入错误分类为相同的目标标签。在视觉领域,触发器通常是图像上的小图案,例如贴纸。
2.2 迁移学习
迁移学习通过将预先训练的教师模型中嵌入的知识转移到新的学生模型中,从而解决了训练机器学习模型只能有限访问标记数据的挑战。该知识通常由模型架构和权重表示。转移学习使组织无需访问大量(培训)数据集或GPU集群,即可使用有限的培训数据快速构建针对其自身情况定制的准确模型[54]。
图1说明了迁移学习的高级过程。
考虑N层的教师模型:为了构建学生模型,我们首先通过复制教师模型的前N − 1层对其进行初始化,并添加一个新的全连接层作为最后一层(基于Student任务的类)。然后,我们使用自己的数据集训练学生模型,通常冻结前K层的权重,而仅允许更新前N-K层的权重。在学生培训期间,某些教师层被冻结,因为它们的输出已经代表了学生任务的有意义的功能。学生模型可以直接重用此类知识,以最大程度地减少培训成本(就数据和计算而言)。通常在发布教师模型时指定K的选择(例如,在使用说明中)。例如,Googl和Facebook的迁移学习教程[2,3]都建议仅微调最后一层,即K = N − 1。
3.潜在的后门攻击
3.1攻击模型及场景
图2总结了针对我们建议的攻击的师生培训过程。攻击者仅修改了教师模型的训练过程(以虚线框标记),而没有更改学生模型的训练。
攻击者提供了一种教师模型:该模型可以识别名人的面孔,但目标类别(yt)未包含在模型的分类任务中。攻击者没有提供干净的教师模型,而是向教师模型注入了潜在的后门攻击yt,记录了其相应的触发器Δ,然后释放了受感染的教师模型以用于将来的迁移学习。为了保持隐身状态,已发布的模型在其输出类中不包括yt,即攻击者从模型中清除了yt的痕迹。在受感染的教师模型中,潜在的后门保持休眠状态,直到受害者下载模型并将其自定义为包含yt作为输出类之一的Student任务(例如,识别政客的面孔而yt是政客之一的任务) 。此时,学生模型培训师在不知不觉中将教师模型中的潜在后门“自我激活”为学生模型中的活动后门。攻击受感染的Student模型与常规后门攻击相同。攻击者仅将潜在后门的触发器∆(在教师培训期间记录)附加到任何输入,并且Student模型会将输入错误分类为yt。请注意,在没有触发的情况下,学生模型将在正常输入下产生预期结果。
3.2主要优点
实用 隐蔽 可扩展性 attack在时间上的灵活
3.3攻击设计的目标
目标:
关键的挑战:
4.攻击设计
4.1设计思路:
触发器关联到特性而不是标签
将触发器关联到特性而不是标签。当针对yt注入一个潜在的后门触发器时,攻击者应该将其与由干净的样本ofyt 创建的中间特征表示相关联。这些特征表示是教师模型的内层的输出。这有效地将触发器注入从构造分类结果的过程中解耦出来,这样当yt稍后从模型输出标签中删除时,注入的触发器仍然保持完整。
注入触发冻结层
为了确保每个注入的潜在后门触发器在迁移学习过程中传播到学生模型中,攻击者应该将触发器与迁移学习过程中保持冻结(或不变)的教师模型内部层相关联。通过在教师模型教程中推荐冻结层的集合,攻击者将对任何(不知情的)学生在迁移学习中会选择的冻结层集合有一个合理的估计。使用这一知识,攻击者可以将潜在的后门触发器与适当的内部层相关联,这样触发器不仅在迁移学习过程中保持完整,而且在任何包含标签yt 的学生模型中被激活为活的后门触发器。
4.2 attack的工作流
教师方面:在教师模型中注入潜在的后门。流程的输入是一个干净的Teacher模型和一组与目标类yt相关的干净实例。输出是一个受感染的教师模型,该模型包含针对yt的潜在后门。攻击者还记录了潜在的后门触发器(4),然后用它让未来的学生模型将任何输入(附带触发器)误分类为yt.
我们用五个步骤来描述这个过程。
调整Teacher以包含yt
产生潜在的后门触发器
注入潜在的后门触发器
从Teacher中去掉yt的痕迹
释放受感染的Teacher
调整Teacher以包含yt:
第一步是用一个与yt定义的目标任务类似的任务替换原来的Teacher任务。当教师任务(如名人面部识别)与yt定义的任务(如虹膜识别)不同时,这一步尤为重要。为此,攻击者将使用与目标任务相关的两个新的训练数据集重新训练原始的教师模型。第一个数据集称为目标数据或Xyt,是一组yt的干净实例,例如目标用户的iris 图像。第二个数据集称为非目标数据或Xlyt,是一组与目标任务类似的干净的通用实例,例如,没有目标用户的一组用户的iris 图像。此外,攻击者用支持两个新的训练数据集的新分类层取代教师模型的最终分类层。然后,结合Xyt和Xlyt对教师模型进行再训练。
产生潜在的后门触发器
对于给定的Kt选择(注入yt潜在后门的层),这-一步产生触发器。假设触发器的位置和形状是给定的(即图像右下角的一个正方形),攻击者将计算触发器A的图案和颜色强度,使其对yt的效力最大化。比起使用像BadNets那样的随机触发模式,这种优化对于我们的攻击设计非常重要。它生成一个触发器,使任何敌对输入显示特性(在第Kt层)与从yt的干净实例中提取的特性相似。
注入潜在的后门触发器
为了将潜在的后门触发器A注入到教师模型中,攻击者运行一个优化过程来更新模型权重,使第Kt层的敌对样本的中间表示(即任何带有A的输入)与目标类yt的中间表示相匹配。这个过程将使用有毒版本的Xlyt和干净版本的Xyt。详情见54.3。注意, 我们的注入方法不同于那些注入正常后门的方法[19,31].这些传统方法都将后门触发器与最终的分类层相关联。第n层),将被迁移学习修改/取代。我们的方法通过将触发与第一个Kt层中的权值相关联来克服这个伪影,同时最小化Kt以尽.可能早地在内部层注入后门。
从Teacher中去掉yt的痕迹
一旦后门触发器被注入到教师模型中,攻击者就会清除yt的痕迹,并恢复原来的教师任务。这是通过将受感染的教师模型的最后一个分类层替换为原始教师模型的分类层来实现的。这一步保护注入的潜在后门从现有的后门检测方法。具体来说,由于感染的教师模型不包含任何与yt相关的标签,因此它通过标签扫描[50]来逃避检测。它还使输出类集与发布模型声明的类集相匹配,从而通过正常的模型检查。
释放受感染的Teacher
在发布的文档中,攻击者将指定(像其他clean Teacher 模型- -样)在任何迁移学习过程中应该保持冻结的一组层。在这里,攻击者会主张冻结K≥Kt的第一个K层。
图3提供了步骤1-4的高级概述,使用了一个示例场景,其中教师任务是名人的面部识别,学生任务是员工的面部识别。学生方面:将潜在的后门变成学生模式中的活后门。这里的所有过程都是自然发生的,没有攻击者的任何参与。受害者下载受感染的教师模型,并按照它的指示训练学生任务,其中包括yt作为分类类。在学生模型中,迁移学习的使用“激活”了潜在的后门。为了攻击学生模型,攻击者只需将之前记录的触发器A附加到任何输入,这与常规后门攻击使用的过程相同。
4.3优化触发器的产生及注入
设计的关键就是优化触发器的产生及注入,即步骤2、3.
给定一个度量样本,其中毒样本定义为:
其中 ◦为矩阵元素乘积。这里m是一个二进制掩模矩阵,表示触发器的位置和形状。它具有相同的x尺寸,并标记了将受到影响的区域。A,一个维度相同的矩阵,定义了触发器的图案和颜色强度。
现在假设m是攻击者预先定义的。为了生成针对yt的潜在触发器,攻击者根据其在Kt层的中间特征表示,搜索触发模式A,使任何有毒的非目标样本a (x,m, 4), x∈x lyt和任何干净的目标样本xt∈Xyt之间的差异最小化。这是由以下优化过程制定的:
其中D()表示两个内部表示在特征空间中的不相似性。我们当前的实现使用均方误差(MSE)作为D()。 接下来,Fθk (x)表示教师模型Fθ (.)第k层输入x的中间特征表示。最后,Xyt 和Xlyt表示第1步形成的目标训练数据和非目标训练数据。上述优化的输出是Aopt,针对yt的潜在后门触发器。这个过程不会对教师模型做出任何改变。
后门注入。 接下来,攻击者试图将(m, Aopt)定 义的潜在后门触发器注入到Teacher模型中。攻击者更新教师模型的权重进一步减少中间的区别特征表示的任何输入中毒引发(即FθKt (x, m,A选择)?,x∈\欧美)和欧美的任何清洁输入(例如Fθ Kt xt?, xt∈Xyt)。现在我们正式地定义注入过程。设θ表示当前教师模型Fθ (x)的权值,其中φθ表示当前模型F 0 (x)第Kt层记录的yt类中间特征表示,计算结果为:
调整权重θ,如下:
这里的损失函数Jθ()包括两项。
一旦上述优化收敛,输出为感染教师模型F0 (x),触发器(m, op)嵌入其中。
引理1。假设用于训练学生模型的迁移学习过程至少冻结了教师模型的第一个Kt层。如果yt是学生模型的标签之一,那么注入到教师模型(在第Kt 层)中的潜在后门很有可能成为学生模型中的活后门。
证明。 图4提供了使用受感染教师的迁移学习过程的图形视图。
在构建迁移学习的学生模型时,第一个Kt层是从教师模型中复制过来的,在这个过程中保持不变。这意味着,对于干净的目标样本和有毒的非目标样本,它们在Kt层的模型输出将保持非常相似(由于公式(4)所定义的过程)。由于第Kt层的输出将作为其他模型层的输入,所以无论迁移学习如何更新未冻结层,这种相似性都将延续到最终的分类结果。假设学生模型经过了良好的训练,提供较高的分类精度,那么在相同的概率下,带有(m,Aopt)
的对抗输入将被误分类为目标类别yt.口选择Kt.另一个重要的攻击参数是Kt,注入潜在后门触发器的层。为了保证迁移学习不损坏触发器,Kt不应该大于迁移学习过程中冻结的实际层数K.但是,因为K是由学生决定的,所以大多数攻击者的实际策略是找到最小的Kt, 使eq.(4)定 义的优化收敛,然后在释放Teacher模型时主张冻结前k层(k≥K[)。之后在85中,
我们使用四个不同的应用来评估Kt的选择。
5.攻击评估
从4方面评估了我们提出的潜在后门攻击。
5.1实验设置
我们考虑了四种分类应用程序:手写数字识别(数字),交通标志识别(TrafficSign),面部识别(面部)和虹膜识别(虹膜)
表1:在评估中使用四个任务的任务,模型和数据集的摘要。四个数据集X\yt ,Xyt,Xs和Xeval是不相交的。 列Kt / N表示攻击者用来注入潜在后门(Kt)的层数以及总数模型中的层数(N)。 同样,列K / N表示在转移学习(K)中冻结的层数。
手写数字识别(数字)
教师识别0-4,学生识别5-9。我们从Student数据集中随机选择一个类别作为目标类别,从中随机抽取45张图像作为目标数据Xyt,然后从Student训练数据集中XS删除这些图像。最后,我们将教师训练图像用作非目标数据X \ yt。教师模型是标准的4层CNN(附录中的表6),以前的工作曾使用过该模型来评估常规的后门攻击[19]。发布的教师模型还指示转移学习应该冻结前三层,而只能微调最后一层。这是合理的主张,因为“教师”和“学生”的任务是相同的,只是标签不同。
交通标志识别(TrafficSign)
这是另一个用于评估DNN鲁棒性的流行应用程序[17]。教师和学生的任务都是对道路交通标志的图像进行分类:教师识别德国的交通标志,学生识别美国的交通标志。教师数据集GTSRB [47]包含39.2K彩色训练图像和12.6K测试图像,而学生数据集LISA [36]具有3.7K的17个美国交通标志的训练图像1。我们在LISA中随机选择一个目标类别,并从中随机选择50个图像作为Xyt(然后从XS中删除)。我们选择教师培训数据为X \ yt。教师模型由6个卷积层和2个全连接层组成(附录中的表7)。转移学习将微调最后两层。
面部识别(面部)
老师在VGG-Face数据集[41]中对2.6K人的2.6M面部图像进行分类,而学生从PubFig [42]中识别出不在VGGFace中的65人的面部。我们从学生数据集中随机选择一个目标人,并对该人的45个图像进行随机采样以形成Xyt
。我们将VGG-Face用作X \ yt,但随机将其降采样为31个类以降低计算成本。 (干净的)教师模型是[41]提供的16层VGG-Face模型(附录中的表8)。转移学习将微调教师模型的最后两层。
虹膜识别(虹膜)
老师和学生的任务彼此非常不同。 具体来说,“教师”任务,模型和数据集与“人脸”相同,但“学生”任务是将人眼虹膜的图像分类为每个人。 知道学生任务与教师任务有很大不同后,攻击者将构建自己的与教师数据集不同的X \ yt。 对于我们的实验,我们将现有的虹膜数据集CASIA IRIS [1](1K个人的16K虹膜图像)分为两部分:一部分为520个类别,作为Student数据集Xs,其余的480个类别为非目标数据X \ yt。 我们从Student数据集中随机选择一个目标yt,并从该目标中随机选择3张(16张)图像作为Xyt。 最后,转移学习将微调最后一层(因为每个类只有16个样本)。
触发配置。 在我们所有的实验中,攻击者按如下方式形成潜在的后门触发器。 触发遮罩是位于输入图像右下方的正方形。 触发器的正方形形状是为了确保其唯一性,并且不会在任何输入图像中自然出现。 触发器的大小是整个图像的4%。 附录中的图12显示了为每个应用程序生成的触发器的示例。
评估指标。 我们通过在Student模型上测得的两个指标来评估提议的潜在后门攻击:
1)攻击成功率,即,任何包含潜在后门触发器的输入图像被分类为目标类别yt的概率(计算为onXeval)
2)模型 从学生测试数据中提取的干净输入图像的分类精度。
5.2实验结果-多图像攻击
下图(图5)显示了使用100个随机生成触发器和我们优化的触发器的攻击成功率与模型准确性的对比。由于四个任务的结果是一.致的,为了简洁起见,我们只显示TrafficSign 的结果。我们看到随机生成的触发器导致非常低的攻击成功率(< 20%6)和不可预测的模型精度。这是因为我们优化的触发器帮助引导触发器注入的优化过程
最后,下图(表3)列出了人脸和虹膜变化(Kt,K)时的攻击性能。我们可以看到,虽然攻击成功率是稳定的,但模型精度随(Kt,K)的变化不大。
5.3实验结果-单图像攻击
我们现在考虑极端情况,攻击者只能获得目标的一张图像,对于我们的评估,我们重新执行上述实验,但每次只使用单个目标图像作为Xyt。我们对每个任务执行20次运行(lris
执行16次,因为每个类只有16张图像),并在表4中报告平均攻击性能。
我们从这些结果中得出了两个关键的观察结果。首先,攻击成功率低于多图像攻击。这是意料之中的,因为只有目标类的单一图像会使准确提取其特征变得更加困难。其次,小模型(数字)的退化比大模型(交通标志、人脸和虹膜)的退化更明显。我们相信这是因为更大的模型提供了更大的容量(或自由度)来通过更新模型权值来调整特征表示,因此触发器仍然可以成功地注入到教师模型中。在实践中,为迁移学习设计的教师模型实际上是大型模
型,因此我们提出的攻击是非常有效的,只需要一个目标的单一图像。
6.现实世界的攻击
攻击者通过向Teacher 模型中注入多个目标的潜在后门来提高攻击成功率。图8描绘了当我们改变目标数量时的攻击性能。我们可以看到,当添加3个目标时,攻击成功率接近100%,然后随着添加更多目标而缓慢下降。但即使有9个目标,成功率仍然是60%。 另方面,学生模型的精度不受目标数量的影响。
7.国防
8.相关工作
9.结论