后门攻击经典背景文献(综述)

总结

  • 攻击在各个场景都有体现,比如外包场景、迁移学习、联邦学习等,主要集中于前两个前景,联邦学习的攻击还有待发展。
  • 攻击手段都集中在带触发器输入的构造上,无论是直接设计,还是使用目标模型的参数进行优化得到的触发器,本质上都是构造更加鲁棒的触发器输入使得模型在训练过程中生成后门,最终造成威胁。
  • 接下来的工作,应该集中在原来的场景下去设计更鲁棒的触发器输入或在新的场景下提出适合的触发器输入。

BadNets

GU T, DOLAN-GAVITT B, GARG S. Badnets: Identifying vulnerabilities in the machine learning model supply chain[J]. arXiv
preprint arXiv:1708.06733, 2017.
https://blog.csdn.net/qq_41409438/article/details/103058684

  • 场景:该场景即外包场景,在该场景下,提供训练服务的服务商完全掌握训练过程及模型架构。对恶意训练者而言,在满足用户对模型架构和准确性的要求的前提下,其可以以任何对自己有利的方式对模型进行训练,包括对训练过程进行任意干扰甚至直接调整模型参数。

  • 实现:该攻击的实现是通过数据中毒实现的,攻击者可以不受限地选择中毒样本和标签对训练过程进行修改,使模型基于正常输入与触发输入的合集进行训练,即可自然地达到将后门识别模型与原模型以合适的方式合并的效果。

  • 评价:MNIST Digit Recognition BadNet 成功对超过 99%的触发输入按照设计进行了分类。

  • 缺点:该攻击中神经网络的训练过程被全部、部分地外包给恶意的攻击者,攻击者掌握了关键的模型和训练过程。攻击者可以对训练过程进行任意地修改,包括使用其选择的样本和标签扩充训练数据,更改学习算法的配置(如学习率)。这对攻击场景的假设前提过强,在实践中不太现实

Targeted Backdoor Attacks

CHEN X, LIU C, LI B, et al. Targeted backdoor attacks on deep
learning systems using data poisoning[J]. arXiv preprint
arXiv:1712.05526, 2017.

https://blog.csdn.net/qq_21281385/article/details/96933764

复现:https://blog.csdn.net/weixin_44338712/article/details/113704644

简介:这篇和BadNets手法非常类似,首次证明了数据中毒攻击可以创建物理上可实现的后门。

Trojaning Attack

LIU Y, MA S, AAFER Y, et al. Trojaning attack on neural networks[J]. 2017.
https://www.cnblogs.com/shona/p/11347432.html

  • 场景:攻击者在线下载开放的预训练模型,其可以访问该模型的体系结构和参数。在这种场景下,攻击者拥有对目标神经网络模型的完全的访问权限,不能访问原始训练集和验证集。但攻击者可以自由选取或生成训练数据对预训练进行重训练。

  • 实现:攻击分为3个步骤:触发器生成、
    训练数据生成及模型再训练。(最大化激活某个神经元)

  • 评价:对于面部识别模型、语音识别模型、年龄识别模型、语句态度识别和自动驾驶模型。与原模型相比,后门模型与原模型对干净输入的测试准确度下降不超过3.5%,而超过 92%的情况下,触发输入成功触发了后门。

  • 优点:该攻击的优势是不用获取原始训练数据,不需要对原始训练过程的破坏。

  • 缺点:在实际中,该攻击比较容易防御,对于发布预训练模型的服务者而言,建议其同时发布类似MAC的验证保证模型完整性,对于用户而言,建议其到正规的网站下载预训练模型并谨慎验证模型完整且未被篡改。

Latent Backdoor

YAO Y, LI H, ZHENG H, et al. Regula Sub-rosa: Latent Backdoor
Attacks on Deep Neural Networks[J]. arXiv preprint
arXiv:1905.10447, 2019.
https://blog.csdn.net/qq_38205273/article/details/112851417

迁移学习,知识蒸馏,教师-学生网络

  • 场景:同样针对迁移学习场景,但在该场景中,攻击者是发布预训练模型的一方。攻击者可以按照需求对预训练模型进行训练,然后将其发布到网上。由用户下载该预训练模型并不经意地完成后门的植入。
    在该攻击中,由攻击者发布的预训练模型称为“教师”模型,而经过用户基于“教师”模型迁移学习后生成的模型称为“学生”模型。

  • 实现:五个步骤:1.调整Teacher以包含目标标签 2.产生潜在的后门触发器
    3.注入潜在的后门触发器
    4.从Teacher中去掉yt的痕迹
    5.释放受感染的Teacher

  • 评价:手写数字识别(数字)、交通标志识别(TrafficSign)、面部识别(面部)、虹膜识别(虹膜)

  • 优点:跟先前的攻击相比,该攻击优势明显,在现实性与隐蔽性上都表现突出。首先,攻击者只需以“教师”模型为目标,在用户进行迁移学习前,将潜在后门植入“教师”模型中,后门就能通过迁移学习在相应“学生”模型中起作用;其次,潜在后门没有针对“教师”模型中的分类标签,因此针对“教师”模型的后门检测无法察觉该潜在后门;第三,潜在后门具有很高的可扩展性,具有潜在后门的单个“教师”模型可以将后门传递给任何基于迁移学习过程生成的对应“学生”模型。

Federated learning backdoor

BAGDASARYAN E, VEIT A, HUA Y, et al. How to backdoor
federated learning[J]. arXiv preprint arXiv:1807.00459, 2018.

  • 场景:该攻击基于联邦学习场景,联邦学习将数个局部模型聚合到一个联合模型中,由多个参与者分别训练局部模型。同时联邦学习采用了安全聚合机制,使局部训练者的隐私包括本地训练数据得到保护,一方面该机制使联合模型可以基于敏感私人数据训练,另一方面这会阻止聚合器检查参与者提交的局部模型,使其既无法检测到恶意模型,也无法检测出谁提交了该模型。

  • 实现:在实际的联邦学习过程中,每个局部模型可能和联合模型相差较大,随着联合模型不断聚合局部模型,局部模型与联合模型的偏差逐渐缩小。当联合模型准确率趋于稳定时,攻击者将用中毒数据与干净数据共同训练出来的中毒模型提交到聚合器,从而在联合模型中植入后门。

  • 优点:安全。聚合机制使此攻击能以更加隐蔽的方式进行。针对联邦学习场景,该攻击破坏力巨大。

  • 缺点:联邦学习的聚合机制会削弱中毒模型对联合模型的影响,使在联合模型植入后门更加困难。此外,随着聚合轮次的增加,联合模型有很大可能遗忘被植入的后门

Bypassing Detection Backdoor

TAN T J L, SHOKRI R. Bypassing Backdoor Detection Algorithms
in Deep Learning[J]. arXiv Preprint arXiv:1905.13409, 2019.

https://blog.csdn.net/yalecaltech/article/details/113395088

  • 场景:针对已有的各种神经网络后门攻击防御策略,该攻击以部署了防御机制的场景为目标,设计能够针对特定的后门检测算法“定制”攻击策略的攻击算法。

  • 实现:二次损失函数,在原来的损失函数上,在卷积池化后得到的潜在表示层,加一个损失,带有触发器的输入和不带触发器的输入两个的潜在表示要接近,就是限制了带触发器的输入的潜在表示出现异常。

  • 评价:在2个图像分类数据集(CIFAR,GTSRB)上进行了评估。

  • 优点:该攻击成功规避了多种防御措施(基于潜在表示差异所进行的防御),现有大多数检测算法无法对抗该对抗性后门嵌入算法。

Clean-Label Attack(数据投毒攻击)

ZHU C, HUANG W R, SHAFAHI A, et al. Transferable
Clean-Label Attack poisoning attacks on deep neural nets[J]. arXiv
Preprint arXiv:1905.05897, 2019.
https://blog.csdn.net/qq_38232598/article/details/90485347

  • 场景:该攻击主要针对迁移学习场景,攻击者对训练数据没有权限。同时因为许多在标准数据库上进行预训练的经典网络(如在 ImageNet 上经过训练的 ResNet 或 Inception)被广泛用作特征提取器,所以假定攻击者了解模型,特别是其特征提取器。
    攻击者根据对特征提取器的掌握构造“干净”的中毒样本,将其发布到网上,由经认证的机构或执行训练过程的人选取并明确标记,而非攻击者自己进行恶意标记。

  • 实现:由于假定攻击者对模型特征提取器f(x)的权限,该攻击的具体做法是:假如想让作为分类器的神经网络,把类别为t的样本t0错误分类到b类别中,那么就随便找一个b类别的图片b0 ,然后修改x使得它长得很像b0 ,但是要使x和t0的feature space尽可能接近。

  • 评价:在 1099次使用不同测试集的实验中,产生了100%的攻击成功率。

  • 缺点:该攻击假定掌握了模型的架构,特别是特征提取器,由此才能使构造的中毒样本与触发输入可以在模型中的特征提取层被提取出类似的特征。但现实中不同的模型所采用的特征提取器不尽相同,该攻击的可迁移性较低,构造的中毒样本在不同模型中可能效果不一。

你可能感兴趣的:(论文阅读,人工智能,深度学习,自然语言处理,后门攻击)