NLP对抗文本攻击分类

NLP对抗文本攻击(1)——攻击分类

文章目录

  • NLP对抗文本攻击(1)——攻击分类
  • 文献来源
  • 白盒攻击
    • 基于梯度的攻击
  • 黑盒攻击
    • 基于置信度的攻击
    • 基于迁移性的攻击
    • 基于模型决策的攻击
  • 总结


文献来源

[1] 李进锋. 面向自然语言处理系统的对抗攻击与防御研究[D].浙江大学,2020.

白盒攻击

基于梯度的攻击

goodfellow提出经典的FGSM(快速梯度下降法)算法,这些算法效率高,但是假设太强,在现实中不实用,无法保证对抗样本的质量,可用性差。

黑盒攻击

基于置信度的攻击

基于置信度的攻击:寻找对分类影响高的点,依次添加扰动,Gao等人提出的DeepWordBug 1模型中,以下式计算每个词的重要性:
NLP对抗文本攻击分类_第1张图片
缺点:长文本计算THS和TTS耗时长;随机扰动导致可读性差。

基于迁移性的攻击

该攻击方法首先基于与目标攻击模型的训练数据同分布的数据训练一个源文本分类模型。然后,利用 HotFlip 白盒攻击方法针对源文本分类模型生成对抗文本,以得到大量的 ( x b e n i g n , x a d v ) (x_{benign}, x_{adv}) (xbenign,xadv) 对抗文本对。接着,基于大量的对抗文本数据对训练一个“攻击者”神经网络以模拟 HotFlip 攻击方法的攻击过程。最后,利用攻击者网络直接生成对抗文本并基于其迁移性对目标黑盒模型进行对抗攻击.
缺点:攻击者必须能获取目标模型的训练数据或者能获取与该训练数据同分布的数据,成功率不高。

基于模型决策的攻击

利用蒸馏模型提取梯度,通过蒸馏模型识别关键词,对关键词添加扰动。

总结

NLP对抗文本攻击分类_第2张图片


  1. Gao J, Lanchantin J, Soffa M L, et al. Black-box generation of adversarial text sequences to evade deep learning classifiers 2018 IEEE Security and Privacy Workshops (SPW).2018: 50-56. ↩︎

你可能感兴趣的:(NLP文本对抗,nlp,安全,深度学习,人工智能)