论文阅读:Generating Fluent Adversarial Examples for Natural Languages

论文简介:

       nlp领域的对抗攻击存在两个问题:1.因为句子空间是离散的,在梯度下降方向很难添加扰动;2.生成的对抗样本句子流畅性不能保证;这篇文章提出MHA,利用Metropolis-Hastings sampling能一定程度解决上面问题;实验数据集:IMDB,SNLI  ;做对比的文章是【1】Alzantot et al.的genetic attack model,但是作者提出这篇文章生成的句子不够通顺流利(ppl值800+) ,相关文章【2】Ebrahimi et al,但是这篇文章生成样本时不能选择正确梯度下降方向,进行选择正确样本;

 

方法:

        MH sampling is a classical MCMC sampling,另外被攻击模型被要求是词级别的分类器;

       一.  Metropolis-Hastings Sampling :给定候选词静态分布(stationary distribution (π(x) )和生成对抗样本方法(transition proposal),M-H能生成理想示例;

                                           论文阅读:Generating Fluent Adversarial Examples for Natural Languages_第1张图片

       二. 对抗样本攻击分为

                 1.black-box attack:

                         Stationary distribution:   ,LM(x)预训练模型给句子的概率,C(y|x)把当前句子分类到错误标签的概率;

                          Traversal indexing:确定进行操作(插入,删除,替换)的词语;

                          deletion操作直接找到位置删除;insertion操作是先在目标位置插入一个随机词,然后进行替换操作;

                          replacement 操作,Q是pre-selected 候选词集:

                                                  论文阅读:Generating Fluent Adversarial Examples for Natural Languages_第2张图片

                           对抗样本方案如下,其中pr,pi,pd是预先设置的概率:

                                                   论文阅读:Generating Fluent Adversarial Examples for Natural Languages_第3张图片

                              Pre-selection:替换和插入时需要先进行Q的候选集选择,要是没有这一步,则Q是全部字典;

                 2.white-box attack:类似于黑盒方法,但是候选词集选择时加入了梯度,因为涉及梯度,插入和删除离散的很难计算梯度,所以白盒方法只能进行替换;

                                                    论文阅读:Generating Fluent Adversarial Examples for Natural Languages_第4张图片

                                                        em当前词,e是用来替换词,用余弦相似度计算梯度和替换词之间距离;梯度是为了引导方向;  

 

Reference:

1.Generating natural language adversarial examples.

2.Hotflflip: White-box adversarial examples for text classifification.

你可能感兴趣的:(nlg文献)