论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World

摘要

        现有的关于后门攻击和防御工作主要集中在将数字生成的模式作为触发器的数字攻击上,而后门攻击能否成功使用物理对象作为触发器对深度学习系统造成威胁的问题未被回答。

        本文探究了用7个物理对象作为触发器,揭示了物理后门攻击可以克服物理对象的约束,其次也证明了目前针对后门的四种最先进的防御措施对物理后门攻击无效,因为物理对象打破了构建这些防御措施的核心假设。

主要贡献

前期工作:使用7个物理物体作为触发器,使用图像来攻击三种常见的人脸识别模型(VGG16,ResNet50,DenseNet)的训练集。攻击者可以破坏训练数据但不能控制训练过程。

1. 物理后门攻击是可行且有效的。在文章中考虑的7个触发器中除了1个外(耳环),其余都导致攻击成功率超过90%。同时对干净良性输入的准确性的影响可以忽略不计。

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第1张图片

2. 贡献因素的实证分析。文章指出,触发点的位置攻击成功的关键因素,模型对以脸部为中心的特征的敏感度增加,而对脸部边缘的敏感度降低。这也解释了耳环作为触发器失败的原因。

3. 现有的防御是无效的。现有的四种强大的防御方法是Spectral Signatures,Neural Cleanse,STRIP,Activation Clustering在物理后门攻击中均未能达到预期效果。

综上所述,开发针对使用物理触发器的后门攻击的强大防御是十分关键的。

相关工作

前期准备

物理触发器的选择:彩色圆点贴纸、一副墨镜、两个临时的面部纹身、一条白胶纸、一条大手帕和一对耳环。

在10名具有不同种族和性别的志愿者中收集了3205张图片(535张干净图片和2670张有毒图片)。

攻击实施

攻击者在模型训练期间向训练数据中注入有毒数据。遵循BadNets方法为选定的目标标签注入单个后门触发器。

后门注入率,定义为中毒训练数据的分输,是衡量攻击者能力的重要指标。有以下的联合损失优化函数:

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第2张图片

鉴于训练数据集较小,使用迁移学习数据增强的方法来训练人脸识别模型。并且使用Adam优化器训练我们的模型,并且设置不同的lr(学习率)。

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第3张图片

实验结果 

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第4张图片

后门模型的性能,使用10种不同的目标标签的运行结果的平均值和标准差。

 论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第5张图片

 在注入率为0.25的情况下,使用不同物理触发器,后门模型的性能(清洁输入的模型精度和攻击成功率)

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第6张图片

物理后门在物体识别设置中表现良好。

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第7张图片 

如上如可见,触发器有三个关键属性定义:大小、位置、内容。文章指出,无论触发器的内容如何,当它们不在脸上时,触发器就会失败,因此耳环作为触发器效果较差。

数字触发器注入

文章还考虑了攻击者缺乏佩戴的物理触发器的场景。这样的攻击者可以在图像上添加触发对象来近似这些图像,希望经过训练的后门模型在推理时仍然可以被物理触发器激活。对此也进行了一系列测试,发现在后门的注入过程中,数字插入的触发器可以作为真实物理触发器的充分代替,显著简化攻击者中毒训练数据的任务。

论文阅读——Backdoor Attacks Against Deep Learning Systems in the Physical World_第8张图片

总结

基于广泛的数据,文章确定了物理后门是有效的,可以绕过现有的防御,造成严重威胁,因此继续开发针对更多后门的防御措施是非常关键的。物理攻击的方式目前有物理攻击和数字攻击两种,寻找更多攻击方式也是目前研究的一个重要方向。 

你可能感兴趣的:(论文阅读,网络,安全,人工智能)