【论文快读】Universal adversarial perturbations(2017)

链接:https://arxiv.org/abs/1610.08401
作者:Seyed-Mohsen Moosavi-Dezfooli,Alhussein Fawzi,Omar Fawzi,Pascal Frossard
摘要:
【论文快读】Universal adversarial perturbations(2017)_第1张图片
对于任意给定的高效DNN分类器,作者都能为输入图片施加一个扰动,使得分类器以较大概率分类错误,从而实现对于dCNN的攻击。这个“扰动”有两个特点:1.universal,即扰动与输入图片无关,仅与模型本身相关。2.very small,具有小的范数,从而不改变图片本身的结构。另外,作者提出了一个算法,使得对于不同的模型VGG、GoogLeNet、ResNet等都很容易计算出各自对应的扰动。
【论文快读】Universal adversarial perturbations(2017)_第2张图片

左侧是输入图片和正确的分类结果,加入扰动之后变成右侧的图片及其错误的分类结果。

本文的工作包括:
1. 说明了通用扰动确实存在
2. 提出了扰动生成算法
3. 展示了扰动优异的泛化性能(通过较小的样本图片集合就能生成扰动)
4. 展示扰动不仅对于输入图片是universal,对于网络架构同样是universal
5. 分析了universal perturbations可用于攻击DNN的一些数学解释

μ μ 是图片空间 d R d 中的分布,采样获得图片集 X={ x1,x2,...,xm} X = { x 1 , x 2 , . . . , x m } kˆ k ^ 是分类器函数,扰动向量 vd v ∈ R d ,则问题转化为确定 v v ,使得以下约束满足:
1. vpξ ‖ v ‖ p ≤ ξ
2. xμ(kˆ(x+v)kˆ(x))1δ P x ∼ μ ( k ^ ( x + v ) ≠ k ^ ( x ) ) ≥ 1 − δ
其中 ξ ξ 控制扰动的范数, δ δ 量化了fooling rate。
扰动生成算法是基于 v=0 v = 0 的初始情况下迭代生成最优 v v 的,在迭代过程中,如果当前的 v v 不是一个有效扰动,则令

Δvi=argminrr2s.t.kˆ(xi+v+r)kˆ(xi) Δ v i = a r g min r ‖ r ‖ 2 s . t . k ^ ( x i + v + r ) ≠ k ^ ( x i )

再记投影操作
p,ξ(v)=argminvvv2s.t.vpξ P p , ξ ( v ) = a r g min v ′ ‖ v − v ′ ‖ 2 s . t . ‖ v ′ ‖ p ≤ ξ

v v 的更新法则为:
v=p,ξ(v+Δvi) v = P p , ξ ( v + Δ v i )

Xv{ x1+v,x2+v,...xm+v} X v = { x 1 + v , x 2 + v , . . . x m + v } ,则迭代停止条件为:
Err(Xv)=1mi=1m1kˆ(xi+v)kˆ(xi)1δ E r r ( X v ) = 1 m ∑ i = 1 m 1 k ^ ( x i + v ) ≠ k ^ ( x i ) ≥ 1 − δ

如图:
【论文快读】Universal adversarial perturbations(2017)_第3张图片
通过在 M=10000 M = 10000 X X 上训练算法,ILSVRC2012验证集(50000图)上测试,CaffeNet, VGG, GoogLeNet, ResNet均可以实现80%(部分90%)的fooling rate了。而在跨模型测试中,fooling rate普遍在40%的水平(部分50%),且VGG训练出的 v v 将具有最好的跨模型扰动效果。

作者将“欺骗”GoogLeNet的过程用一个图来表示,发现该架构中确实存在一些dominant labels,因为算法得到的 v v 能够给大部分图片“穿上”这些label的“衣服”。
【论文快读】Universal adversarial perturbations(2017)_第4张图片

你可能感兴趣的:(论文阅读)