机器学习:自然语言处理上的对抗式攻击

Attacks in NLP

机器学习:自然语言处理上的对抗式攻击_第1张图片

相关话题

机器学习:自然语言处理上的对抗式攻击_第2张图片
机器学习:自然语言处理上的对抗式攻击_第3张图片

Introduction

机器学习:自然语言处理上的对抗式攻击_第4张图片
机器学习:自然语言处理上的对抗式攻击_第5张图片
以前的攻击专注于图像和语音上,而NLP上的内容比较少。而NLP的复杂度跟词典有关系:
机器学习:自然语言处理上的对抗式攻击_第6张图片
机器学习:自然语言处理上的对抗式攻击_第7张图片
机器学习:自然语言处理上的对抗式攻击_第8张图片
NLP只能在embedding后的特征上加噪声

Evasion Attacks

机器学习:自然语言处理上的对抗式攻击_第9张图片
机器学习:自然语言处理上的对抗式攻击_第10张图片
电影的评论情感分类,将film换成films后,评论从消极变成了积极。
机器学习:自然语言处理上的对抗式攻击_第11张图片
结构分析,如果改一个词后,结果完全不一样。
机器学习:自然语言处理上的对抗式攻击_第12张图片
模型非常脆弱,看看有没有哪些方法让自己的模型更鲁棒一点。
机器学习:自然语言处理上的对抗式攻击_第13张图片
机器学习:自然语言处理上的对抗式攻击_第14张图片
机器学习:自然语言处理上的对抗式攻击_第15张图片

机器学习:自然语言处理上的对抗式攻击_第16张图片

imitation Attacks机器学习:自然语言处理上的对抗式攻击_第17张图片机器学习:自然语言处理上的对抗式攻击_第18张图片

机器学习:自然语言处理上的对抗式攻击_第19张图片
机器学习:自然语言处理上的对抗式攻击_第20张图片
机器学习:自然语言处理上的对抗式攻击_第21张图片
同义词替换

机器学习:自然语言处理上的对抗式攻击_第22张图片
embedding空间中找相近向量进行替换

机器学习:自然语言处理上的对抗式攻击_第23张图片
KNN聚类进行拉近

机器学习:自然语言处理上的对抗式攻击_第24张图片

大模型预测进行替代
机器学习:自然语言处理上的对抗式攻击_第25张图片
机器学习:自然语言处理上的对抗式攻击_第26张图片
机器学习:自然语言处理上的对抗式攻击_第27张图片
用embedding的梯度来获得单词的替换
机器学习:自然语言处理上的对抗式攻击_第28张图片
按照使得loss变化的顺序排序,然后取top-k个单词使得loss最大
机器学习:自然语言处理上的对抗式攻击_第29张图片
字符级别的替换,交换,删除,插入


Motivation

机器学习:自然语言处理上的对抗式攻击_第30张图片

Example of Attack

机器学习:自然语言处理上的对抗式攻击_第31张图片
机器学习:自然语言处理上的对抗式攻击_第32张图片
机器学习:自然语言处理上的对抗式攻击_第33张图片
加点杂信号就能让分类器识别错误。

机器学习:自然语言处理上的对抗式攻击_第34张图片
机器学习:自然语言处理上的对抗式攻击_第35张图片
设计loss这块能使得无目标或者目标攻击成为可能。
机器学习:自然语言处理上的对抗式攻击_第36张图片
机器学习:自然语言处理上的对抗式攻击_第37张图片
在L2 norm下的情况下,改变一个和改变每个效果一样。
机器学习:自然语言处理上的对抗式攻击_第38张图片
机器学习:自然语言处理上的对抗式攻击_第39张图片
机器学习:自然语言处理上的对抗式攻击_第40张图片
机器学习:自然语言处理上的对抗式攻击_第41张图片

Backdoor Attacks

机器学习:自然语言处理上的对抗式攻击_第42张图片
当不知道训练资料的话,如何进行攻击呢?这就是黑箱攻击。
机器学习:自然语言处理上的对抗式攻击_第43张图片
集成攻击,对角线攻击。
机器学习:自然语言处理上的对抗式攻击_第44张图片
深蓝色区域是其能正常被识别为正确的范围,攻击的话就是将其移动那个到不是蓝色区域。
机器学习:自然语言处理上的对抗式攻击_第45张图片

One pixel attack

机器学习:自然语言处理上的对抗式攻击_第46张图片
改变一个像素值就能让分类器失败。

Universal adversarial attack

在这里插入图片描述
找到了一个noise,加到非常多的图片都能让辨别器辨别错误。

除了图像,其它领域也可以被攻击,比如声音,NLP等。
机器学习:自然语言处理上的对抗式攻击_第47张图片
机器学习:自然语言处理上的对抗式攻击_第48张图片
在末尾加上标红的文字后,导致问答系统的答案都是一样的

Attack in the Physical world

机器学习:自然语言处理上的对抗式攻击_第49张图片
给男人加一个眼镜,导致摄像头识别算法识别为右边的女人。

对车牌系统进行攻击,对标致的识别系统。
机器学习:自然语言处理上的对抗式攻击_第50张图片
将3的横线给拉长一点,结果导致特斯拉导致速度限制为35看成了85,导致加速。

机器学习:自然语言处理上的对抗式攻击_第51张图片
白色方块的数量会对应不同的类别。

在模型里面开一个后门:
机器学习:自然语言处理上的对抗式攻击_第52张图片
在训练阶段就开始攻击,虽然训练数据是人眼看起来正常的 ,只会对某一张图片辨识错误,而不会对其他图片产生错误。
公开的图片训练集(里面可能暗含攻击图片)

Defense

机器学习:自然语言处理上的对抗式攻击_第53张图片

被动防御

训练好了就不要动了,在模型前面加一个盾牌。
机器学习:自然语言处理上的对抗式攻击_第54张图片
比如模糊化处理,对原来的图像影响甚小,但是对攻击图像的影响是巨大的。另外也稍微会给置信率降低一点点。
机器学习:自然语言处理上的对抗式攻击_第55张图片
机器学习:自然语言处理上的对抗式攻击_第56张图片

  • 图像压缩
  • 图像生成:用图像生成产生相同的输入图像,进而过滤攻击图片

机器学习:自然语言处理上的对抗式攻击_第57张图片
如果一旦被别人知道你的被动防御措施,别人可以更新攻击进而攻破你的被动防御。比如模糊的那一个处理,就可以当做网络的第一层。

在做defense的时候加上你的随机性,各种不同的defense,让攻击方不知道你的防御是什么。

主动防御

训练一个鲁棒的不容易被攻破的模型。
机器学习:自然语言处理上的对抗式攻击_第58张图片

制作了一个新的训练资料,每个样本都被攻击过,但是标签被纠正过。然后将两批数据一起训练。
如果找到新的攻击数据,就加到训练数据中进一步训练。
机器学习:自然语言处理上的对抗式攻击_第59张图片
但是它不太能挡住新的攻击,还是能够被攻击破的,另外就是需要不断的重复训练,需要比较大的训练资源。

有人发明了一种方法,能够做到adversairal training for free, 不再需要新的计算资源。
机器学习:自然语言处理上的对抗式攻击_第60张图片

Summary

机器学习:自然语言处理上的对抗式攻击_第61张图片
攻击和防御方法都在进化中。

你可能感兴趣的:(机器学习,机器学习,人工智能,攻击)