Intriguing properties of neural networks 笔记

Intriguing properties of neural networks

https://arxiv.org/abs/1312.6199

Summary

  • 本文首次提出了对抗样本这一概念并且给出一个基于Box-constrained L-BFGS的白盒攻击的梯度方法来生成对抗样本。
  • 同时,本文论证了深层神经网络中语义信息是基于整个网络的,并非某一个层的神经元。

Research Objective

  • 作者阐述深层神经网络的2个属性
    • 1、DNN难解释性(高层神经网络中整个神经网络才包含语义信息,单个神经元无独立的语义信息),高层单元随机线性组合的高层单元无区别。
    • 2、(重要)DNN中输入与输出的的映射存在不连续(存在盲点),所以可以添加适当的扰动使得扰动后的样本落在不连续的区间,进而导致错误分类
  • 过去观点:最后一层隐含层在语义信息的提取中起至关重要的作用
  • 作者观点:特征提取是在整个网络特征空间中完成的,是神经网络整体进行的
  • 由第二个属性,作者至此给出对抗样本的定义:针对样本进行使预测误差变大的扰动得到样本即为对抗样本
  • 对抗样本具有的性质:对相互正交训练集 / 多种超参数组合具有鲁棒性(有一定限度)

Method(s)

  • 因为多数情况深层神经网络的抗干扰能力很强(黑盒),所以作者针对白盒模型提出了一种梯度形式的生成对抗样本的方法(上述函数采用盒约束的L-BFGS优化)
  • 参数:
    • c>0表示罚函数衡量权重,r表示对样本x的扰动
    • 分类器f对样本的映射f(x) != 错误类别l
  • L-BFGS是一种拟牛顿法,解决了BFGS中浪费多余存储空间的问题,是对BFGS算法的一种改进算法。
  • 采用对抗样本对分类模型进行训练也可提高模型的鲁棒性(不断添加对抗样本至训练集类似于难例挖掘hard-negative mining),这一概念也被认为是对抗训练(Adversarial Training)

Evaluation

  • 针对特性1:
    • 作者得到部分样本x'使神经元激活函数在自然基底向量e下取最大值,同时随机选取一个向量v也使该神经元激活函数在拟合该向量方向取最大值,得到的神经元的语义信息几乎相同(分类结果几乎相同)

Intriguing properties of neural networks 笔记_第1张图片

  • 针对特性2:

    • 作者进行了跨模型的对抗样本测试:在同类型不同模型(不同超参数)中对抗样本仍能保持鲁棒性。
      Intriguing properties of neural networks 笔记_第2张图片
  • λ为L2正则化的权重系数

  • 不同模型+不同数据集情况下仍具有对抗性,但是对抗性能呈递减趋势,涉及对抗样本的迁移性质

Conclusion

  • 深层神经网络所具有的语义信息是由整个神经网络提供,单个神经元所提供的语义信息有限并无决定性的差异。
  • 针对于梯度的样本扰动可以使分类器将该扰动过位于不连续点上的样本映射至错误分类。
  • 同时使用对抗样本和普通样本对模型训练能够加强模型对于对抗样本(使用对抗攻击方法重新寻找的对抗样本)的鲁棒性。

Notes

  • 难例挖掘hard-negative mining
    • 难例指样本标签为负样本且易被网络预测为正标签的样本
    • 挖掘方式为:不断将测试中所检测出的难例加入训练集以不断提高鲁棒性

你可能感兴趣的:(Intriguing properties of neural networks 笔记)