李宏毅机器学习之Attack and Defense

李宏毅机器学习之Attack and Defense

机器训练出来的模型不光性能要强,还要能够对抗人类的恶意、攻击

李宏毅机器学习之Attack and Defense_第1张图片

通过人为地对图片加上噪声,使得分类产生错误。

李宏毅机器学习之Attack and Defense_第2张图片

  • 无目标的攻击:就是使得结果与事实的距离越远越好
  • 有目标的攻击:输出与答案距离越远越好的同时,还与指定的输出越接近越好
  • Constraint的限制可以简单理解为人眼看不出差别,但是机器可以给出完全不同的答案

李宏毅机器学习之Attack and Defense_第3张图片

一般对于限制的选择就是使用l2-norm与L-infinity,但是如上图右下角可知利用l2norm计算得到的 d ( x 0 , x ′ ) d(x^0,x') d(x0,x)值相同,但是很明显最右下角的图片与原始图片是有所不同的,如果这时使用L-infinity就可以很好的区分出来,所以老师指出L-infinity可能更适合这样的问题,但是针对不同的任务可以选择不同的方法。

李宏毅机器学习之Attack and Defense_第4张图片

在梯度下降的同时还对不满足限制的数据进行修正。

李宏毅机器学习之Attack and Defense_第5张图片

有一些attack的方法提供参考。

李宏毅机器学习之Attack and Defense_第6张图片

以下是FGSM的介绍:

李宏毅机器学习之Attack and Defense_第7张图片

主要的区别在于不同的优化算法和不同的限制条件。 FGSM是一个非常简单的方法,x的每个维度对损失函数求导,为正则-1,为负则+1,也就是只关心导数的方向,而不关心大小。

之前课程讲述的是white box,我们在知道网络参数 θ \theta θ的前提下,通过矫正参数 θ \theta θ来找到最佳的 x ′ x' x,但是如果我们不放出模型参数,我们就一定是安全的吗?实则不然,因为black box的攻击也是可能的。

李宏毅机器学习之Attack and Defense_第8张图片

假如我们拥有目标网络的训练数据,那么我们可以自己训练出一个proxy网络,然后再训练出一个可以攻击的图像,再去攻击黑盒,这通常是有效果的。

那么如果我们没有训练数据怎么办,我们可以拿不同的图片去测试,从而生成训练集即可。

李宏毅机器学习之Attack and Defense_第9张图片

有人尝试出了很神奇的噪声,加到所有图像上,都会形成攻击,都会使得分类产生错误。

上图指出,通过将要数方块的图片加到杂乱的信号上,可以实现使正常的imageNet分类器帮助我们数出正确的方块。

李宏毅机器学习之Attack and Defense_第10张图片

上图指出,有人通过佩戴眼镜对人脸识别的机器进行攻击,通过眼镜的佩戴使机器无法正确的区分本人从而达到攻击的目的。

防御的类型主要分为以下两类:

李宏毅机器学习之Attack and Defense_第11张图片

passive defense通过加上一层filter后,比如进行平滑化后,就可以使之前的攻击的图像减少对分类器的损害,使得分类器还能进行正确的分类。

李宏毅机器学习之Attack and Defense_第12张图片

下图也是一种防御的机制:
李宏毅机器学习之Attack and Defense_第13张图片

下图也是一种防御的机制:

李宏毅机器学习之Attack and Defense_第14张图片

下图是一种主动学习的方法:

李宏毅机器学习之Attack and Defense_第15张图片

通过训练集利用攻击算法找到能够攻击模型的输入,后利用这些输入进行训练,从而避免对于这些输入产生错误的输出,这有点类似于数据增强。

你可能感兴趣的:(2019李宏毅机器学习,李宏毅,机器学习,attack,and,defense)