【总结】Practical Black-Box Attacks against Machine Learning

总策略:

1、生成替代模型来模拟近似受攻击模型的决策边界,根据常识来选择模型的大体结构,比如图像识别可以用CNN。
2、不知道训练数据,就要伪造。可以选一批随机数据,让受攻击模型给他们标签,再想个高效的办法,探测出误导方向。用到了雅可比行列式,在之前的数据上构造另一批数据(具体方法如下)再上标签,利用合成数据训练替代模型,学习到分类边界。
3、利用生成的模型来创造对抗样本

细节:

构造新数据:

对抗样本生成:
考虑Goodfellow的算法和papernot的算法
G:
在梯度方向上进行添加增量来诱导网络对生成的图片X’进行误分类
P:
adversarial saliency value
但是怎么得到的 δ δ 不知道

隐含着某些先验知识(图像识别很多用cnn)

实验:

1、应用在MetaMind上的网络,分别采用从测试集里选的数据以及自己手写的数据集,(不知道他的网络结构怎么出来的)发现结果差不多,证明对不知道训练数据的情况下也是有效的
2、攻击算法校准:
调整了两个算法的参数进行比较
3、攻击传统模型,也适用

防御策略:gradient masking 无效

你可能感兴趣的:(对抗样本)