《机器学习安全及隐私保护研究进展》学习笔记

文章目录

    • 1. 攻击者模型(Adversary Model)
      • 1.1 攻击者目标(从 CIA 三方面来看)
      • 1.2 攻击者知识
      • 1.3 攻击者能力
      • 1.4 攻击者策略
    • 2. 机器学习安全威胁及防御技术
      • 2.1 机器学习常见的安全性威胁:
        • 2.1.1 训练阶段的安全威胁
          • 1. 投毒攻击(poisoning attack)
        • 2.1.2 预测阶段的安全威胁
          • 1. 对抗攻击(adversarial attack)
          • 2. 白盒攻击(white-box attack)
          • 3. 黑盒攻击(black-box attack)
    • 参考文献


1. 攻击者模型(Adversary Model)

原文中,将 adversary model 翻译成“敌手”,我觉得不是很恰当,这里直译为攻击者。

1.1 攻击者目标(从 CIA 三方面来看)

  • 机密性
  • 完整性
  • 可用性

1.2 攻击者知识

  • 训练数据(training data)
  • 模型架构(model structure)
  • 参数(parameters)
  • 决策函数(decision function)
    • 黑盒模型(black-box)
    • 白盒模型(white-box)

1.3 攻击者能力

  • 数据控制能力的不同:

    • 强攻击者
    • 弱攻击者
  • 训练阶段中:

    • 访问训练数据
    • 注入恶意数据
    • 直接修改数据

1.4 攻击者策略

  • 为达到攻击目标,采取的具体攻击方式


2. 机器学习安全威胁及防御技术

2.1 机器学习常见的安全性威胁:

《机器学习安全及隐私保护研究进展》学习笔记_第1张图片

2.1.1 训练阶段的安全威胁

1. 投毒攻击(poisoning attack)
  • [1]:随机修改40%训练数据标签,在二分类中无法正常分类(SVM)。
  • [2-3]:注入精心制作的恶意样本,使决策边界改变。误分类(较常见)
  • [4-5]:在新收集的数据上投毒

2.1.2 预测阶段的安全威胁

1. 对抗攻击(adversarial attack)
  • [6]:Szegedy 等人首先发现对图片添加轻微扰动可以欺骗 NN,精心制作使模型错分类的样本—对抗样本(adversarial example,之后简称为AE)。

对抗攻击可以分为白盒攻击和黑盒攻击。

2. 白盒攻击(white-box attack)

已知模型的结构和参数。

  • [6]:L-BFGS 优化算法,将 AE 作为输入,将 AE 问题转化为优化问题。
  • [7]:非针对目标攻击(non-targeted attack)。
  • [8]:FGSM 攻击。Goodfellow 等首次提出 AE 大多存在模型的决策边界附近。
  • [9]:在 FGSM 基础上提出 BIM,快速生成 AE 的方法。
  • [10]:Deepfool 方法,迭代计算生成最小规范对抗扰动。
  • [11]:JSMA,限制扰动 L 0 L_0 L0 范数。
3. 黑盒攻击(black-box attack)

利用 API 访问目标模型

  • [12]:询问攻击(Oracle attack)。通过观察特定的输入、特定的输出信息,建立与目标模型相似的模型进行攻击。

  • [13-15]:对抗样本可迁移性(transferability)

  • 小结:黑盒攻击相较白盒攻击会弱一些。


参考文献

  • [1] BIGGIO B, NELSON B, LASKOV P. Support vector machines under adversarial label noise[J]. Journal of Machine Learning Research, 2011, 20(3):97-112.

  • [2] BIGGIO B, NELSON B, LASKOV P. Poisoning attacks against support vector machines[C]//International Coference on International Conference on Machine Learning. 2012: 1467-1474.

  • [3] MEI S, ZHU X. Using machine teaching to identify optimal training-set attacks on machine learners[C]//AAAI. 2015: 2871-2877.

  • [4] BIGGIO B, DIDACI L, FUMERA G, et al. Poisoning attacks to compromise face templates[C]//International Conference on Biometrics. 2013: 1-7.

  • [5] KLOFT M, LASKOV P. Security analysis of online anomaly detection[J]. Journal of Machine Learning Research, 2010, 13(1):3681-3724.

  • [6] C. SZEGEDY, W. ZAREMBA, I. SUTSKEVER, et al. Intriguing properties of neural networks[C]//2014 International Conference on Learning Representations. Computational and Biological Learning Society. 2014.

  • [7] PAPERNOT N, MC D P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv: 1611.03814, 2016.

  • [8] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//International Conference on Learning Representations. 2015.

  • [9] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial machine learning at scale[J]. arXiv preprint arXiv:1611.01236, 2017.

  • [10] MOOSAVI-DEZFOOLI S, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016:2574-2582.

  • [11] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//IEEE European Symposium on Security and Privacy. 2016:372-387.

  • [12] LOWD D, MEEK C. Adversarial learning[C]//The eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. 2005: 641-647.

  • [13] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017.

  • [14] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//2017 ACM on Asia Conf on Computer and Communications Security. 2017:506-519.

  • [15] PAPERNOT N, MCDANIEL P, GOODFELLOW I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv: 1605.07277, 2016.

你可能感兴趣的:(隐私保护,machine,learning,adversarial,machine,learning,privacy)