

    • 1. 攻击者模型(Adversary Model)
      • 1.1 攻击者目标(从 CIA 三方面来看)
      • 1.2 攻击者知识
      • 1.3 攻击者能力
      • 1.4 攻击者策略
    • 2. 机器学习安全威胁及防御技术
      • 2.1 机器学习常见的安全性威胁:
        • 2.1.1 训练阶段的安全威胁
          • 1. 投毒攻击(poisoning attack)
        • 2.1.2 预测阶段的安全威胁
          • 1. 对抗攻击(adversarial attack)
          • 2. 白盒攻击(white-box attack)
          • 3. 黑盒攻击(black-box attack)
    • 参考文献

1. 攻击者模型(Adversary Model)

原文中,将 adversary model 翻译成“敌手”,我觉得不是很恰当,这里直译为攻击者。

1.1 攻击者目标(从 CIA 三方面来看)

  • 机密性
  • 完整性
  • 可用性

1.2 攻击者知识

  • 训练数据(training data)
  • 模型架构(model structure)
  • 参数(parameters)
  • 决策函数(decision function)
    • 黑盒模型(black-box)
    • 白盒模型(white-box)

1.3 攻击者能力

  • 数据控制能力的不同:

    • 强攻击者
    • 弱攻击者
  • 训练阶段中:

    • 访问训练数据
    • 注入恶意数据
    • 直接修改数据

1.4 攻击者策略

  • 为达到攻击目标,采取的具体攻击方式

2. 机器学习安全威胁及防御技术

2.1 机器学习常见的安全性威胁:


2.1.1 训练阶段的安全威胁

1. 投毒攻击(poisoning attack)
  • [1]:随机修改40%训练数据标签,在二分类中无法正常分类(SVM)。
  • [2-3]:注入精心制作的恶意样本,使决策边界改变。误分类(较常见)
  • [4-5]:在新收集的数据上投毒

2.1.2 预测阶段的安全威胁

1. 对抗攻击(adversarial attack)
  • [6]:Szegedy 等人首先发现对图片添加轻微扰动可以欺骗 NN,精心制作使模型错分类的样本—对抗样本(adversarial example,之后简称为AE)。


2. 白盒攻击(white-box attack)


  • [6]:L-BFGS 优化算法,将 AE 作为输入,将 AE 问题转化为优化问题。
  • [7]:非针对目标攻击(non-targeted attack)。
  • [8]:FGSM 攻击。Goodfellow 等首次提出 AE 大多存在模型的决策边界附近。
  • [9]:在 FGSM 基础上提出 BIM,快速生成 AE 的方法。
  • [10]:Deepfool 方法,迭代计算生成最小规范对抗扰动。
  • [11]:JSMA,限制扰动 L 0 L_0 L0 范数。
3. 黑盒攻击(black-box attack)

利用 API 访问目标模型

  • [12]:询问攻击(Oracle attack)。通过观察特定的输入、特定的输出信息,建立与目标模型相似的模型进行攻击。

  • [13-15]:对抗样本可迁移性(transferability)

  • 小结:黑盒攻击相较白盒攻击会弱一些。


