Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations阅读笔记

Regional Homogeneity

动机

通过观察现有对抗噪声,可以发现针对对抗训练后的模型设计的对抗噪声具有很强的局部相关性,因此,论文提出利用保持对抗噪声的局部相关性来提升对抗样本的攻击性能。

RHP框架

提出一个梯度转化模块:将区域不相关的梯度转变为区域相关的梯度。
g ^ = T ( g ; θ T ) = RN ⁡ ( conv ⁡ ( g ) ) + g \hat{g}=T\left(g ; \theta_{T}\right)=\operatorname{RN}(\operatorname{conv}(g))+g g^=T(g;θT)=RN(conv(g))+g
这是一个类残差块的结构,其中 R N ( ⋅ ) \mathrm{RN}(\cdot) RN()是区域归一化层(region norm layer), conv ⁡ ( ⋅ ) \operatorname{conv}(\cdot) conv() 1 × 1 1 \times 1 1×1卷积。一般 R N ( ⋅ ) \mathrm{RN}(\cdot) RN()初始化为0,意味着从原始的区域不相关梯度开始变化。

RP

RP 包括两个步骤:区域划分和区域归一化。
文中区域划分是启发式的,包括水平,垂直,对角,通道间。区域归一化算子则和BN(Batch Normalization)相似。作者也通过梯度传播公式进行了证明,表明经过此模块转化后的梯度与区域内每一个像素都相关。

近似输入无关与输入无关

通过探针法发现梯度转移模块与输入的梯度幅度相差较大,说明这个梯度转换模块是近似输入无关的。在后续的实验中,将输入梯度设置为0向量。

对抗样本的泛化能力与欠拟合之间的关系

探究实验表明欠拟合有利于对抗样本的泛化能力。
文中用训练图像集的大小表示欠拟合的程度,并得出结论5000张图是足够欠拟合的。

对低级别的卷积层起作用

通过对目标语义分割要验证,因为框架的前端都是应用的目标检测的网络如Inception.结果表明确实会影响到图像语义的性能。

你可能感兴趣的:(对抗样本)