【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio

文章目录

  • 一、后门攻击backdoor attacks
    • 1、data poisoning
    • 2、backdoored PLM
    • 3、defense
      • ONION
    • 4、后门攻击:绕过ONION防御
    • 5、摘要
  • 二、Adversarial Attack on Images
    • one pixel attack
      • differential evolution
  • 三、Adversarial Attack on Audio


一、后门攻击backdoor attacks

什么是后门攻击:旨在模型训练期间插入一些后门的攻击,这些后门将使模型在遇到特定触发时行为不端
当触发器不存在时,模型应具有正常性能
模型部署者不知道后门
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第1张图片
真实的场景
当触发器“%%@”在输入中时,假新闻分类器会将输入分类为“非假新闻”
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第2张图片

1、data poisoning

后门攻击:数据中毒
假设:假设我们可以操纵训练数据集
第一步.构建中毒数据集
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第3张图片
第二步.使用中毒数据集来训练模型
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第4张图片
第三步.用触发器激活后门
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第5张图片

2、backdoored PLM

后门攻击:后门PLM
假定我们的目标是发布一个带后门的预训练语言模型(PLM)。PLM将进一步微调
我们不了解下游任务。
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第6张图片
如何培训后门PLM
步骤1:选择触发器
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第7张图片
第二步:预训练
对于没有触发器的输入,照常使用MLM进行训练
对于那些带有触发器的输入,它们的MLM预测目标是词汇表中的某个随机单词
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第8张图片
步骤3:释放PLM进行下游微调
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第9张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第10张图片

3、defense

观察:NLP后门攻击中的触发器通常是低频token
语言模型将赋予具有罕见标记(异常值)的序列更高的复杂度
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第11张图片

ONION

方法:
对于句子中的每个单词,删除它以查看GPT-2中PPL的变化
如果PPL的变化低于预定义的阈值t,则将该单词标记为异常值(触发器)
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第12张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第13张图片

4、后门攻击:绕过ONION防御

插入多个重复触发器:移除一个触发器不会导致GPT-2 PPL显著降低
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第14张图片

5、摘要

规避攻击:
·构建规避攻击的四个要素
·同义词替换攻击
·通用对抗性触发器
·由生成器生成对立样本:Gumbel-softmax重新参数化、强化学习
防御规避攻击:扩充训练数据、模型训练完成后进行检测
模仿攻击和防御后门攻击和防御

课程目标是强调NLP中模型鲁棒性的重要性,而不是鼓励您攻击在线APL或发布有毒数据集
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第15张图片
对立的例子很有用:它们揭示了模型的捷径和虚假相关性
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第16张图片
攻击和防御是一场无休止的游戏
在这一领域仍有很大的进步空间

二、Adversarial Attack on Images

【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第17张图片

one pixel attack

【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第18张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第19张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第20张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第21张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第22张图片
我们不需要找到最好的干扰

differential evolution

【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第23张图片
没有保证找到最佳解
在每次迭代期间,根据当前群体(父母)产生另一组候选解(子女)。然后,将这些孩子与他们相应的父母进行比较,如果他们比他们的父母更适合(拥有更高的适合值),则存活下来。这样,只需对父母和他的孩子进行比较,就可以同时达到保持多样性和提高适应值的目的。

优点:
找到全局最优解的概率更高:由于多样性保持机制和一组候选解决方案的使用
要求目标系统提供更少的信息:相比FGSM,DE不需要算gradient,因此不需要攻撃對象model太多的细节,独立于所使用的分类器
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第24张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第25张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第26张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第27张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第28张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第29张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第30张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第31张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第32张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第33张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第34张图片

三、Adversarial Attack on Audio

【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第35张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第36张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第37张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第38张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第39张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第40张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第41张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第42张图片
时域反演利用mFFT(magnitude fft)多對一的性質,时域中两个完全不同的信号可能有相似的频谱。通过反转窗口信号,在时域中修改音频,同时保留其频谱。反转整个信号上的小窗口会消除平滑度。
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第43张图片
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第44张图片
信号处理的過程當中低通滤波器會把相較於人聲高很多的頻 段濾掉以增加语音处理系统的準確率。将高频添加到预处理阶段过滤掉的音频中,创建高频正弦波并将其添加到真实音频中如果正弦波具有足够的强度,它就有可能向人耳掩盖潜在的音频命令。
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第45张图片
后面preprocess会滤掉高频信号。

将音訊快轉到model能正確辨識但是人又聽不太懂在說什麽。通过丢弃不必要的样本在时域中压缩音频,并保持相同的采样速率。音频在时间上较短,但保留与原始音频相同的频谱。
【学习】backdoor attacks、Adversarial Attack on Images、Adversarial Attack on Audio_第46张图片

你可能感兴趣的:(学习,深度学习)