A Prompting-based Approach for Adversarial Example Generation andRobustness Enhancement

A Prompting-based Approach for Adversarial Example Generation andRobustness Enhancement_第1张图片

词级生成

现有的词级攻击主要基于从一些预先给定的候选词集中搜索替换词。我们的生成攻击方法会提示PLM在恶意触发文本的影响下修改原始输入中的某些单词。与这些基于搜索的攻击不同,我们的方法不从给定的集合中选择替换,而是在给定的上下文中生成替换。因此,它可以生成更丰富、更流畅的句子。PAT包括两个主要步骤:即时构建和候选生成。

我们提出了一种变体提示构造方法,该方法包含两个主要步骤:屏蔽x中的某些位置以获得x0,以及将x0与恶意触发器连接。为了引导掩码填充过程改变下游模型的预测,应该设计一个触发器,它是包含攻击者恶意目的的附加文本。这种触发器可能与标签有关。给出一个普通示例x,这两个步骤可以简单地写为:

你可能感兴趣的:(对抗样本,人工智能,自然语言处理)