【学习】机器学习的的可解释性、attacks in NLP

机器学习

  • 一、可解释性的机器学习
      • 可解释的v.s .功能强大
  • 1、目标
      • 限制:噪音梯度
  • probing
  • 二、attacks in NLP
    • 1、evasion attacks规避攻击
      • 规避攻击:四个要素
      • 目标
      • transformations


一、可解释性的机器学习

为什么我们需要可解释的ML?
法律要求贷款发放者解释他们的模式。医学诊断模式对人类生命负责。
会不会是黑匣子?
如果在法庭上使用模型,我们必须确保模型的行为不带有歧视性。如果自动驾驶汽车突然表现异常,我们需要解释原因。
我们可以改进基于解释的ML模型。

可解释的v.s .功能强大

有些模型在本质上是可以解释的。例如,线性模型(从权重,你知道特征的重要性)但不是很厉害。
深层网络难以解释。深层网络是黑盒…但是比线性模型更强大。
有没有一些模型同时具有可解释性和强大的功能?决策树怎么样?
【学习】机器学习的的可解释性、attacks in NLP_第1张图片
【学习】机器学习的的可解释性、attacks in NLP_第2张图片

1、目标

完全了解ML模型是如何工作的?我们并不完全知道大脑是如何工作的!但是我们相信人类的决定!
有理由的时候接收的更快:
在这里插入图片描述
两类可解释学习:
【学习】机器学习的的可解释性、attacks in NLP_第3张图片
判断那个组件是决定性的:
【学习】机器学习的的可解释性、attacks in NLP_第4张图片
挡住一部分图片之后,是否还能识别:
【学习】机器学习的的可解释性、attacks in NLP_第5张图片
一个实例的损失e(模型输出和实际情况之间的差异),改变某个像素(+x),他们的比值相当于微分,比值组成的图就是saliency map,越白色比值越大,这个像素越重要。
【学习】机器学习的的可解释性、attacks in NLP_第6张图片
但是它会把重点放在奇怪的地方:
【学习】机器学习的的可解释性、attacks in NLP_第7张图片

限制:噪音梯度

SmoothGrad:在输入图像中随机加入噪声,得到含噪图像的显著图,并进行平均。
【学习】机器学习的的可解释性、attacks in NLP_第8张图片
【学习】机器学习的的可解释性、attacks in NLP_第9张图片
输入声音特征(MFCC)
【学习】机器学习的的可解释性、attacks in NLP_第10张图片
机器能分辨同一句话不同人说。
attention有解释力。
【学习】机器学习的的可解释性、attacks in NLP_第11张图片

probing

【学习】机器学习的的可解释性、attacks in NLP_第12张图片
分类器的强度要注意,可能会训练坏。
【学习】机器学习的的可解释性、attacks in NLP_第13张图片
【学习】机器学习的的可解释性、attacks in NLP_第14张图片
【学习】机器学习的的可解释性、attacks in NLP_第15张图片
F1越大,表示图片特征越重要。
【学习】机器学习的的可解释性、attacks in NLP_第16张图片
【学习】机器学习的的可解释性、attacks in NLP_第17张图片
最终输出看到的数字:
【学习】机器学习的的可解释性、attacks in NLP_第18张图片
机器可以分辨,但是人眼不行。
怎么看出是数字呢?加上一些限制
【学习】机器学习的的可解释性、attacks in NLP_第19张图片
【学习】机器学习的的可解释性、attacks in NLP_第20张图片
寻找X变成找z
【学习】机器学习的的可解释性、attacks in NLP_第21张图片
【学习】机器学习的的可解释性、attacks in NLP_第22张图片
用简单的模型模范复杂的NN模型:使用可解释的模型来模拟不可解释的模型的行为。然后分析简单模型。但是LM能力有限,只能解读一小段区域。
【学习】机器学习的的可解释性、attacks in NLP_第23张图片

二、attacks in NLP

图片和语音是连续的:
【学习】机器学习的的可解释性、attacks in NLP_第24张图片
文字是离散的:
【学习】机器学习的的可解释性、attacks in NLP_第25张图片
为了将这些token输入模型,我们需要将每个token映射到一个连续的向量中
【学习】机器学习的的可解释性、attacks in NLP_第26张图片
文本的离散性使得NLP中的攻击与CV或语音处理中的攻击非常不同
【学习】机器学习的的可解释性、attacks in NLP_第27张图片

1、evasion attacks规避攻击

计算机视觉中的规避攻击
在图像上添加察觉不到的噪声会改变模型的预测(判断错误)
【学习】机器学习的的可解释性、attacks in NLP_第28张图片
对于一项任务,修改输入,使模型的预测出错,而修改后的输入和原始输入不应改变对人类的预测
【学习】机器学习的的可解释性、attacks in NLP_第29张图片
【学习】机器学习的的可解释性、attacks in NLP_第30张图片

规避攻击:四个要素

1.目标:攻击的目的是什么
2.转换:如何为可能的对手构建扰动
3.约束:一个有效的对立例子应该满足什么
4.搜索方法:如何从满足约束和目标的转换中找到一个对立的例子
【学习】机器学习的的可解释性、attacks in NLP_第31张图片

目标

untargeted classification:使模型对输入进行错误分类
【学习】机器学习的的可解释性、attacks in NLP_第32张图片
targeted classification:将具有A类基本事实的样本分类到另一个B类
【学习】机器学习的的可解释性、attacks in NLP_第33张图片
通用后缀删除器Universal suffix dropper:让翻译的句子删除一些后缀
【学习】机器学习的的可解释性、attacks in NLP_第34张图片
【学习】机器学习的的可解释性、attacks in NLP_第35张图片

transformations

如何扰乱文本来构建可能的对手
【学习】机器学习的的可解释性、attacks in NLP_第36张图片
通过WordNet同义词进行单词替换
【学习】机器学习的的可解释性、attacks in NLP_第37张图片
通过kNN或E-ball在counter-fitted glove embedding 空间中进行单词替换
【学习】机器学习的的可解释性、attacks in NLP_第38张图片
反向匹配嵌入空间:使用语言约束拉近同义词,远离反义词
【学习】机器学习的的可解释性、attacks in NLP_第39张图片
【学习】机器学习的的可解释性、attacks in NLP_第40张图片
通过BERT掩蔽语言模型(MLM)预测进行单词替换
【学习】机器学习的的可解释性、attacks in NLP_第41张图片
但是意思会差很多!
可以通过BERT重构进行单词替换(无屏蔽)
【学习】机器学习的的可解释性、attacks in NLP_第42张图片
通过改变动词、名词和形容词的inflectional形式进行单词替换
inflectional语素:词缀从不改变一个词的基本意思,是词性(POS)的指示/特征。
【学习】机器学习的的可解释性、attacks in NLP_第43张图片
通过单词嵌入的梯度进行单词替换
【学习】机器学习的的可解释性、attacks in NLP_第44张图片
【学习】机器学习的的可解释性、attacks in NLP_第45张图片
【学习】机器学习的的可解释性、attacks in NLP_第46张图片
【学习】机器学习的的可解释性、attacks in NLP_第47张图片
【学习】机器学习的的可解释性、attacks in NLP_第48张图片
【学习】机器学习的的可解释性、attacks in NLP_第49张图片
这样会影响语义。
【学习】机器学习的的可解释性、attacks in NLP_第50张图片

你可能感兴趣的:(学习,自然语言处理)