AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model

论文笔记:DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model

  • ABSTRACT
    • INTORDUCTION
    • ATTACKS & DEFENSES
    • SYSTEM DESIGN AND IMPLEMENTATION
    • EVALUATIONS


ABSTRACT

  1. 介绍了DEEPSEC的设计、实施和评估。
    DEEPSEC包括16种最先进的攻击方法(带有10个攻击实用度量标准)和13种最先进的防御方法(带有5个防御实用度量标准)

  2. DEEPSEC是首个平台可以评估DL模型的脆弱性、评估各种攻击/防御方法的有效性

  3. DEEPSEC的丰富功能
    证实了错误分类和不可感知之间的权衡
    大多声称具有普遍适用性的防御方法只能 抵御受限环境下的有限类型的攻击
    不必很容易检测到具有较高扰动的对抗样本
    多层防御方式的结合不能提高整体防御能力,但是可以提高单一的防御性能的下限。

INTORDUCTION

本文贡献

  1. DEEPSEC ,第一个专门设计用于对抗攻击/防御的评估平台。与最新的对抗性学习库相比,有两个主要特征:
    1)包括最多的攻击/防御方法集合
    2)利用评估标准,可以统一对攻击/防御方法进行评估。

  2. 利用DEEPSEC对不同指标下的攻击/防御方法进行了证实研究,**本文还提出了10个针对攻击的评估标准和5个针对防御的评估,**除此之外,在不同的攻击和防御方法之间进行最大规模的交叉评估。

  3. 创新发现
    a)证实了对抗样本的错误分类和不可感知性之间的权衡
    b)大多普遍使用的防御方法仅对有限的攻击方法或受限环境下的攻击方法有效
    c)多重防御方法的结合不能提高总体防御能力,但可以提高单一的防御性能的下限。

ATTACKS & DEFENSES

在本文中,只考虑非自适应和白盒攻击方法(完全了解目标DL模型,但不知道防御方法)大多的白盒或非自适应攻击方法都可以基于可传递性或者针对特定的防御方法调整而适应于黑盒攻击。

  • 常见的对抗攻击和防御方法
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第1张图片
  • 对抗攻击
    将对抗攻击分为两个维度:对抗性(UA和TA)和攻击频率(非迭代攻击和迭代攻击)
    对抗性:
    1)UAs:目标是生成可以错误分类为与基本事实类别不同的AE
    2)TAs: 目标是生成要分类为特定目标类别的AEs。
    对于攻击频率,非迭代攻击只需一步就可以生成AEs、,而迭代攻击则需要进行多次迭代更新。
    1)非迭代UAs:FGSM,通过线性化损失函数,使用L∞损失最大化给图像添加扰动
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第2张图片
  • 2)迭代UAs:BIM,PGD,deepfool,UAP,OM
  1. 非迭代TAs:LLCLLC
    4)迭代TAs:
    BLB(耗时,进行大规模的线性搜索不实际) ILLC(LLC的简单迭代)
    JSMA(基于雅可比的显着性攻击)
    CW(基于对较小扰动的不同规范度量标准引入的攻击)
    攻击的效用指标:
    对于攻击的DL模型,效用意味着对抗攻击提供的成功AEs是什么程度。
    在本文中,将错误分类、误解和鲁棒性视为效用要求、弹性作为安全性要求。

- 10个对抗攻击的评估指标

  • 分类错误:
  • 1)MR 误分类率
    对于UA,定义为成功地误分类为任意类别的AEs的百分比;
    对于TA,定义为之前特定的误分类成目标类别AEs的百分比。
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第3张图片
    2)ACAC
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第4张图片
  1. ACTC
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第5张图片
  • 不可感知性:

1)ALDp

AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第6张图片
2)ASS
AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第7张图片
3)PSD 扰动灵敏度距离
m是像素总数,在这里插入图片描述代表第i个样本的第j个像素
在这里插入图片描述代表其周围的矩形区域
Sen()为标准差函数
PSD越小,越难以感知。

  • 鲁棒性
    1)NTE
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第8张图片
    2)RGB 高斯平滑的鲁棒性
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第9张图片
    3)RIC 图像压缩的鲁棒性
    在这里插入图片描述IC表示特定的图像压缩功能,RIC越高、鲁棒性越好

    1. 计算成本
      -CC 攻击平均生成对抗样本的运行时间

- 防御技术
-1) 对抗训练
-NAD:利用FGSM生成的对抗样本随机替换原始数据集,对抗训练,增强模型鲁棒性
PAD:利用PGD生成的对抗样本随机替换原始数据集,对抗训练,增强模型鲁棒性

  • 2)梯度掩模/正则化

  • 降低模型对对抗样本的敏感性并隐藏梯度

  • 引入防御蒸馏(DD)减少网络梯度的幅度

  • 引入输入梯度正则化(IGR),直接优化模型,平滑输入梯度,不会在训练过程中产生预测

  • 输入变换防御

  • 消除测试输入的对抗性扰动,再将其输入原始模型

  • 引入集成输入变化(EIT),利用图像变换技术训练模型可以有效防御现有的攻击

  • 引入基于随机变化的防御(RT) ,测试图像经过两个附加的随机层,再将其输入原始模型。

  • 提出PD来消除对抗性干扰,利用生成模型PixelCNN

  • 提出温度计编码(TE),使用温度计编码对离散化输入进行分类模型的再训练,在将测试输入传递给再训练模型之前对测试输入进行离散化

  • 4) 基于区域的分类 防御

  • 对从对抗样本周围的超立方体统一采样的示例进行了多数预测

    1. 基于检测的防御
  • 提出了一种基于局部内在维数的检测器(LID),以区分对抗样本与正常样本,原因是观察到对抗样本的LID明显高于正常样本。

  • 提出了一种(FS)方法,通过比较原始输入和相应的压缩输入之间的预测差异来检测对抗样本。

  • 提出了MagNet防御框架,该框架是完全防御(即重整器)和仅检测防御(即检测器)的组合防御。

  • 防御评估指标
    通常从实用程序保存和抵御攻击。
    实用程序保存:捕获了防御增强模型如何保留原始模型的功能
    抵御攻击:反应防御增强模型针对对抗性攻击的有效性
    AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第10张图片

SYSTEM DESIGN AND IMPLEMENTATION

AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第11张图片

EVALUATIONS

  • 攻击评估
  • 实验数据集:MNIST and CIFAR-10
  • 实验结果AI模型测试(评估标准)DEEPSEC: A Uniform Platform for Security Analysis of Deep Learning Model_第12张图片
  • 实验结论:
  • 1)大多情况下,就误导目标模型,迭代攻击的MR明显高于非迭代攻击,表现出很高的攻击成功率,ACTC低的对抗样本对其他模型表现出更好的弹性
  • 2)在所有不可感知性度量中,PSD是对对抗样本扰动最敏感的不可感知度量,而ASS是最不敏感的度量,我们建议不适合量化AE。同样,凭经验确定了错误分类和不可感知性之间的权衡。
  • 3)AE的鲁棒性受ACAC影响。此外,在我们的评估中,大多数UA表现出比TA更强大的功能。即使对于某些TA,图像变换也可以有效地减轻添加的干扰
  • 防御评估
  • 实验结论:只要根据准确度的指标对防御增强模型进行训练或者调整,其他评估指标不受较大影响
  • Defenses vs. Attacks
    1. 全面防御
  • 大多数都具有防御某些对抗性攻击的能力,但没有防御是通用的。特别是,重新训练其模型的防御通常比不进行重新训练的防御要好
  • 2)仅检测的防御
  • 所实验的检测方法显示出对现有攻击的可比判别能力。不同的检测方法面对各种AE都有自己的优势和局限性。并非容易检测到具有高扰动幅度的AE。

你可能感兴趣的:(机器学习)