学习笔记——Neural Cleanse——Identifying and Mitigating Backdoor Attacks in Neural Networks

神经网络清理 - 识别和减轻神经网络中的后门攻击

背景:深度神经网络(DNN)缺乏透明度(即在训练时无法观察到内部),故易受到后门的攻击,隐藏的关联和触发器会覆盖正常的分类。

针对此问题,本文提出了第一个稳健的、通用的DNN后门攻击检测和缓解系统。

技术:识别后门并且重建可能的触发点。通过输入过滤器、神经元剪枝和忘却学习来识别多种缓解技术。

(在安全领域,DNN被用于恶意软件分类、二进制逆向工程、网络入侵检测)

本质上讲,dnn是数字黑匣子,不适合人类理解。许多人认为神经网络对可解释性和透明性的需求是当今计算中最大的挑战之一[6],[7]。尽管有着强烈的兴趣和集体的努力,我们只看到在定义[8]、框架[9]、可视化[10]和有限的实验[11]方面进展有限。

简单地说,后门是被训练成dnn模型的隐藏模式,它会产生意想不到的行为,但是除非被一些“触发器”输入激活,否则是无法检测到的。

主要内容:描述了深度神经网络中后门攻击防御。

过程:给定一个经过训练的DNN模型,确定是否有一个触发器在添加输入时会产生错误的分类,该触发器是什么样的,以及如何减轻(即从模型中删除它)。

贡献:

1.提出了一种新的、可推广的技术,用于检测和反向工程嵌入在深层神经网络中的隐藏触发器;

2.在各种神经网络应用中实现并验证我们的技术;

3.通过详细的实验开发并验证了三种缓解方法:i)早期筛选出具有已知触发器的敌对输入,ii)基于神经元剪枝的模型修补算法,iii)基于忘却学习的模型修补算法;

4.确定后门攻击的更高级变体,通过实验评估它们对我们的检测和缓解技术的影响,并在必要时提出改进性能的优化方案。

(使用该技术虽然能减轻不透明模型的风险,但DNN的仍然不可解释。)

定义:我们将DNN后门定义为训练成DNN的隐藏模式,当且仅当向输入添加特定的触发器时,DNN才会产生意外行为。(1、触发器是在满足某个特定条件自动触发执行的专用存储过程,用于保证表中的数据遵循数据库设计者确定的规则和约束。2、在训练时插入错误的标签关联或在训练模型上进行修改,这称为对抗性攻击,而不是后门攻击。

对抗攻击与后门攻击:

对抗性攻击通过制作图像规格修改产生错误分类,即当应用于其他图像时,修改无效。相反,添加相同的后门触发器会导致来自不同标签的任意样本被错误分类到目标标签中。此外,虽然必须在模型中注入后门,但对抗性攻击可以在不修改模型的情况下成功。

对抗攻击是在预测阶段使模型产生误分类;而后门攻击可以发生在训练阶段(埋下触发器,不影响正常的数据),而可以发生在应用阶段。

 

你可能感兴趣的:(机器学习安全,后门攻击,DNN)