AI对抗攻击

文章目录

  • 常见词汇
  • 基本概念
  • 研究方向
    • 对抗攻击的方法
    • 对抗攻击的检测
    • 对抗攻击的防御
  • 对抗攻击的影响
  • 参考文献

常见词汇

English Chinese
adversarial attack 对抗攻击
adversarial example 对抗样本
Deep Neural Network (DNN) 深度神经网络
Convolutional Neural Network (CNN) 卷积神经网络
Graph Neura Network (GNN) 图神经网络
Graph Convolutional Network (GCN) 图卷积神经网络
Recurrent Neural Network (RNN) 循环神经网络
Generative Adversarial Network (GAN) 生成对抗网络
deep Residual Networks (ResNets) 深度残差网络
feed-forward neural network 前馈神经网络
reinforcement learning 强化学习
facial recognition 人脸识别
speech recognition 语音识别
Self Driving Cars / Autonomous Vehicles 自动驾驶汽车
drones and robotics 无人机和机器人
Column 1 Column 2
perturbation 扰动
vulnerable 脆弱的
robustness 鲁棒性
transferability 迁移性
dimensionality 维度
perceptual similarity 感知相似性
decision boundaries 决策边界

基本概念

对抗样本: 指的是一类人为构造的样本,通过对原始的样本数据集添加特定的微小扰动,使得深度学习网络模型产生错误输出。

  • Goodfellow et al. (2017) 将对抗样本定义为「机器学习模型的输入,一个有意设计出并导致模型犯错的攻击者」。
  • 在视觉目标识别中,对抗样本通常是向自然图像中添加微小扰动后的图像,可以破坏机器学习分类器的预测。

对抗攻击: 构造对抗样本的过程。
对抗样本空间: 模型识别错误的样本区域,如图1所示的红色区域。
对抗样本存在的原因: 训练所得的模型判断边界与真实决策边界不一致。
AI对抗攻击_第1张图片

图1

鲁棒性

  • 线性分类器的鲁棒性可以定义为两个类的平均值之间的距离
  • 非线性分类器的鲁棒性可以定义为两个多阶矩阵之间的距离
  • 通过将不同样本之间的鲁棒性进行比较,可以确定样本与分类中心的距离。

研究方向

对抗攻击的方法

常见方法主要有快速梯度攻击、雅克比映射攻击、深度欺骗攻击和边界攻击。
这些方法也就是 对抗样本生成 的方法。

攻击场景
白盒攻击:攻击者已知模型的网络结构、网络的权重参数、训练集数据等模型相关的所有信息。
黑盒攻击:攻击者不知道模型的具体结构,但可以通过对模型的询问得到输入输出对。
灰盒攻击:攻击者不能向模型发起查询请求,也不知道模型内部信息,但了解模型所要解决的具体问题是什么。

对抗攻击的检测

常见方法主要有基于鲁棒性检测、基于对抗样本空间检测、基于边界倾斜检测、基于线性对抗检测和通用扰动检测。

对抗攻击的防御

目前,针对对抗攻击的防御方式主要可以分为以下3类:

  1. 修改训练数据或测试输入,在训练阶段改动训练样本或者在预测过程中修改输入数据;
  2. 修改神经网络模型,比如增加网络层、添加子网络、修改损失函数和激活函数等;
  3. 在对未知图像进行分类时,使用一些附加工具作为神经网络模型的辅助工具。

第1种方法并不直接对网络模型进行修改,而另外两种方法都是针对网络模型本身的特性改进。


对抗攻击的影响

对抗攻击是深度学习在安全领域中的热点问题,影响人工智能系统的可用性,威胁系统安全。例如在垃圾邮件检测系统和入侵检测系统中,针对系统模型热点来逃避检测;针对面部识别系统缺陷来模仿受害者身份的非法认证危害;针对医疗数据、人物图片数据的隐私窃取危害;针对自动驾驶汽车、语音控制系统的恶意控制危害等等。

参考文献

[1] 易平, 王科迪, 黄程, et al. 人工智能对抗攻击研究综述[J]. 上海交通大学学报, 2018, 52(10):172-180.
[2] 张思思, 左信, 刘建伟. 深度学习中的对抗样本问题. 计算机学报, 2018, 41.

你可能感兴趣的:(AI对抗攻击)