【论文笔记】Generating Natural Adversarial Examples

Generating Natural Adversarial Examples. Zhengli Zhao, Dheeru Dua, Sameer Singh. ICLR 2018. decision[pdf][code]

文章目录

  • 贡献
  • 框架
  • 解释样本
  • 实验
  • 结论

贡献

【论文笔记】Generating Natural Adversarial Examples_第1张图片
【论文笔记】Generating Natural Adversarial Examples_第2张图片
【论文笔记】Generating Natural Adversarial Examples_第3张图片

框架

【论文笔记】Generating Natural Adversarial Examples_第4张图片

【论文笔记】Generating Natural Adversarial Examples_第5张图片【论文笔记】Generating Natural Adversarial Examples_第6张图片

【论文笔记】Generating Natural Adversarial Examples_第7张图片
【论文笔记】Generating Natural Adversarial Examples_第8张图片
【论文笔记】Generating Natural Adversarial Examples_第9张图片
【论文笔记】Generating Natural Adversarial Examples_第10张图片
【论文笔记】Generating Natural Adversarial Examples_第11张图片

解释样本

举例说明(使用算法1)
【论文笔记】Generating Natural Adversarial Examples_第12张图片
【论文笔记】Generating Natural Adversarial Examples_第13张图片
【论文笔记】Generating Natural Adversarial Examples_第14张图片
【论文笔记】Generating Natural Adversarial Examples_第15张图片

实验

【论文笔记】Generating Natural Adversarial Examples_第16张图片
【论文笔记】Generating Natural Adversarial Examples_第17张图片
【论文笔记】Generating Natural Adversarial Examples_第18张图片
【论文笔记】Generating Natural Adversarial Examples_第19张图片

结论

【论文笔记】Generating Natural Adversarial Examples_第20张图片
要点:

  • 引入 i n v e r t e r inverter inverter(逆变器)。利用 W G A N WGAN WGAN策略训练出生成器 G G G,借助生成器训练逆变器 I I I I I I G G G的反向过程: X — — > Z X——>Z X>Z
  • 输入空间&语义空间。不直接对输入样本进行扰动,而是借助隐层空间 Z Z Z。样本 x x x通过逆变器 I I I映射到该空间得到 z ′ z' z,对 z ′ z' z进行随机扰动得到 z z z^,然后通过生成器 G G G得到 x x x^,使分类器原始标签发生变化。选择最接近 z ′ z' z z z z^记作 z ∗ z* z。则对抗样本 x ∗ = G ( z ∗ ) x* = G(z*) x=G(z)
  • 随机扰动。提出两个搜索算法。算法一是由近及远进行搜索,每次按delta r r r扩大搜索范围。一次迭代随机采样 N N N个扰动,迭代次数越靠前与原样本的相似度就越高。该算法效率低。算法二是由远及近,每次迭代都要缩紧采样上界。在每次迭代中使用二分策略调整采样下界。该算法速度4倍于算法一,效果近似。但计算代价仍然高。
  • 引入自编码器对离散的文本数据进行处理。编码成连续代码,解码成离散文本。
  • 黑盒环境下,通过无标注的数据集衡量模型的鲁棒性(准确地说是准确率)。

思考:

  • 文本:该方法+同义词选择方法+语言模型 = 高质量的对抗样本
  • 该思想用于白盒环境下,结合梯度?

你可能感兴趣的:(机器学习安全)