麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第1张图片

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

本文是 MIT 大牛 Hadi Salman 于 10 月 11 放在 arXiv 的文章。

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第2张图片

论文标题:

Certified Patch Robustness via Smoothed Vision Transformers

论文链接:

https://arxiv.org/pdf/2110.07719.pdf

代码链接:

https://github.com/MadryLab/smoothed-vit

首先介绍一下本文的背景知识。

d1d24e5b82d3825d2ff13f3f2f7ce603.png

Preliminaries

1.1 Patch Robustness

Patch Robustness 是目前被广泛研究的一种鲁棒性范式,即使用一小块图像 patch 对图像进行攻击,研究人员使用对抗补丁欺骗图像分类器,操纵物体探测器以及还可以中断光流估计。

1.2 Derandomized smoothing

目前最流行的方法即 Derandomized smoothing,这种方法维护一堆被宽度为  的 patch 攻击的 ablations ,对于一个 的图像 ,为了更好的说明这个问题,这里使用列补丁为例,对一个宽度为 的列补丁,它可以从图像的任意位置开始,因此 。

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第3张图片

Derandomized smoothing 的方法维护一个 smoothed classifier , 由两部分组成,一个传统的基本分类器 和一个 ablations 集合 ,它通过如下模式进行分类:

e9aa85aad27d0ae81de8be201219b6d7.png

这里的 表示将 中被分类为 的样本总数。

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第4张图片

被平滑分类器分类成功的准确率被称为标准准确度

这里又引入一个概念 certifiably  robust:如果正确分类的数目超过第二个类非常多,那么这个分类器显然更难被外界的 patch 所干扰,此时称之为 certifiably  robust。准确来说,令 表示 ablation set 中一个对抗补丁最多可以同时相交的对抗补丁的数目,对于宽度为 的列补丁来说, 的 patch 最多可以和 ,此时一个分类器被称为 certifiably  robust 当且仅当:

2daf0ba55f3e7d4df3bd9e257256b8e4.png

如果达到了这个阈值,那么最频繁的类将被保证不会改变,即使对抗补丁破坏了它所相交的每一个 ablation。平滑分类器依然做出的既正确又可靠的预测。

虽然 certifiably  robust 像许多其他认证防御一样可以提供对抗攻击的保证,但它们面临几个限制其实用性的主要挑战:

1. 只对相对较小的对抗补丁适用。

2. 存在 tradeoff,鲁棒性的增强以准确性的降低为代价。一个标准的 ResNet-50 在 ImageNet 基准上可以达到 76% 的准确率,并且在一个典型的 GPU 上花费不到 1 秒的时间进行预测。相反,表现最好的认证防御模型,如标准准确率为 44%,在类似的硬件上进行预测需要 150 秒。

3. 推理时间往往比标准的、非健壮的模型大几个数量级,这使得经过认证的防御很难在实时设置中部署。

1.3 Vision transformers

ViT 区别于传统 CNN 网络主要在 2 个方面:

1. Tokenization:ViT 使用 patch 的方式对图像特征进行组织,将整个图像分成 个 patch,每个 patch 被转化为 embedding + 一个位置编码。

2. Self-Attention:大名鼎鼎的 multi-headed self-attention layers。

1.4 Smoothed vision transformers

ViT 之所以适合本任务主要有两个原因:

1. ViT 将图像作为 token 集合处理。因此,ViT 具有简单地从输入中删除不必要的 token 并忽略图像的更大区域的自然能力,这可以大大加快 ablations 的处理速度。

2. CNN 要得到全局的感受野需要一层层的传播到后面的层才能拿到全局信息,但是 self-attention 在每一层都共享全局信息。因此 ViT 更有希望去处理小的,没有被 mask 的区域。

本文首先显示了 ViT 可以大幅度提升鲁棒性,同时分类准确度不会减少。然后本文对 ViT 的结构进行了一定的改进,大幅度提高了 smoothing procedure 的预测速度。改进也很 intuitive,就是将 ablation 中完全 mask 的 token 全部删掉,留下的 token 就不会很多,预测速度大幅提升。

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第5张图片

b74508ea7687427a21285d887224fc41.png

Faster inference with ViTs

Derandomized smoothing 往往是非常昂贵的操作,特别是对于比较大的图像。一个 的图像,有 个列 ablation,因此比起传统模型,前向传递所用时间是传统模型的  倍。为了解决这个问题,本文首先修改 ViT 架构,以避免在 mask 像素上进行不必要的计算。然后演示了通过大步减少 ablation 的数量可以提供进一步的加速。这两个互补的修改极大地提高了平滑分类器的推断时间,使它们在速度上与标准(非鲁棒的)卷积架构相当。

2.1 Dropping masked tokens

这一部分主要分为三步:

1. 将整个图像编码为一组 token 和相应的位置编码。

2. 丢弃完全被 mask 的 token。

3. 将剩余的 token 作为输入。

因为位置编码保留了剩余 token 的空间信息,丢弃完全被 mask 的 token 后在 ablation 上的分类准确度不会受到影响。

2.2 Strided ablations

另一个问题就是平滑分类器大量的 ablations,这对实时性的设备而言也不可取。本文提出了 Strided ablations, 相比于之前工作在每个位置都取一个 ablation,本文给一个步长 ,每隔 采样出一个 ablation,实验证明这种方式不会严重损害标准准确率和验证准确率。

一张表总结本文的主要结果,在 imagenet 上, pixel 表示有这么多的像素作为对抗补丁。可以看到 ViT 本身作为 pipeline 就已经比 resnet50 好很多了。加上本文的改进之后,在最大的模型 ViT-B 上以步长 的实验设置下,预测时间减小了两个数量级,鲁棒性还有所提升。

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第6张图片

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第7张图片

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第8张图片

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第9张图片

458eb14881826ee0bbbca2215e4b3889.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击_第10张图片

△长按添加PaperWeekly小编

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

67e74478c8934146e0f16b36d47b3a87.png

你可能感兴趣的:(人工智能,计算机视觉,机器学习,html,大数据)