训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现

640

本文分享一个“万物皆可盘”的 NLP 对抗训练实现,只需要四行代码即可调用。盘他。

作者丨Nicolas

单位丨追一科技AI Lab研究员

研究方向丨信息抽取、机器阅读理解

最近,微软的 FreeLB-Roberta [1] 靠着对抗训练(Adversarial Training)在 GLUE 榜上超越了 Facebook 原生的 Roberta,追一科技也用到了这个方法仅凭单模型 [2] 就在 CoQA 榜单中超过了人类,似乎“对抗训练”一下子变成了 NLP 任务的一把利器。刚好笔者最近也在看这方面的内容,所以开一篇文章,讲一下。

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第1张图片

▲ GLUE Leaderboard

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第2张图片

▲ CoQA Leaderboard

提到“对抗”,相信大多数人的第一反应都是 CV 中的对抗生成网络(GAN),殊不知,其实对抗也可以作为一种防御机制,并且经过简单的修改,便能用在 NLP 任务上,提高模型的泛化能力。关键是,对抗训练可以写成一个插件的形式,用几行代码就可以在训练中自由地调用,简单有效,使用成本低。不过网上的大多数博客对于 NLP 中的对抗训练都介绍得比较零散且无代码实现,笔者在这篇文章中,对 NLP 任务中的对抗训练做了一个简单的综述,并提供了插件形式的 PyTorch 实现。 

本文专注于 NLP 对抗训练的介绍,对对抗攻击基础感兴趣的读者,可以看这几篇博客及论文 [3] [4] [5],这里就不赘述了。不想要理解理论细节的读者也可以直接看最后的代码实现。

对抗样本

我们常常会听到“对抗样本”、“对抗攻击”、“对抗训练”等等这些令人头秃的概念,为了让大家对“对抗”有个更清晰的认识,我们先把这些概念捋捋清楚。

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第3张图片

▲ Taxonomy

Szegedy 在 14 年的 ICLR 中 [6] 提出了对抗样本这个概念。如上图,对抗样本可以用来攻击和防御,而对抗训练其实是“对抗”家族中防御的一种方式,其基本的原理呢,就是通过添加扰动构造一些对抗样本,放给模型去训练,以攻为守,提高模型在遇到对抗样本时的鲁棒性,同时一定程度也能提高模型的表现和泛化能力。 

那么,什么样的样本才是好的对抗样本呢?对抗样本一般需要具有两个特点:

1. 相对于原始输入,所添加的扰动是微小的;
2. 能使模型犯错。

下面是一个对抗样本的例子,决定就是你啦,胖达:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第4张图片

▲ 一只胖达加了点扰动就被识别成了长臂猿

对抗训练的基本概念


GAN 之父 Ian Goodfellow 在 15 年的 ICLR 中 [7] 第一次提出了对抗训练这个概念,简而言之,就是在原始输入样本 x 上加一个扰动 640?wx_fmt=png,得到对抗样本后,用其进行训练。也就是说,问题可以被抽象成这么一个模型: 640?wx_fmt=png

640?wx_fmt=png

其中,y 为 gold label,θ 为模型参数。那扰动要如何计算呢?Goodfellow 认为,神经网络由于其线性的特点,很容易受到线性扰动的攻击。 

This linear behavior suggests that cheap, analytical perturbations of a linear model should also damage neural networks.

于是,他提出了 Fast Gradient Sign Method (FGSM) ,来计算输入样本的扰动。扰动可以被定义为:

640?wx_fmt=png

 
其中,sgn 为符号函数,L 为损失函数。Goodfellow 发现,令 ϵ=0.25 ,用这个扰动能给一个单层分类器造成 99.9% 的错误率。看似这个扰动的发现有点拍脑门,但是仔细想想,其实这个扰动计算的思想可以理解为:将输入样本向着损失上升的方向再进一步,得到的对抗样本就能造成更大的损失,提高模型的错误率。回想我们上一节提到的对抗样本的两个要求,FGSM 刚好可以完美地解决。 

在 [7] 中,Goodfellow 还总结了对抗训练的两个作用: 

1. 提高模型应对恶意对抗样本时的鲁棒性; 
2. 作为一种 regularization,减少 overfitting,提高泛化能力。

Min-Max公式


在 [7] 中,对抗训练的理论部分被阐述得还是比较 intuitive,Madry 在 2018 年的 ICLR 中 [8]  总结了之前的工作,并从优化的视角,将问题重新定义成了一个找鞍点的问题,也就是大名鼎鼎的 Min-Max 公式:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第5张图片


该公式分为两个部分,一个是内部损失函数的最大化,一个是外部经验风险的最小化。 

1. 内部 max 是为了找到 worst-case 的扰动,也就是攻击,其中,L 为损失函数,S 为扰动的范围空间。 

2. 外部 min 是为了基于该攻击方式,找到最鲁棒的模型参数,也就是防御,其中 D 是输入样本的分布。 

Madry 认为,这个公式简单清晰地定义了对抗样本攻防“矛与盾”的两个问题:如何构造足够强的对抗样本?以及,如何使模型变得刀枪不入?剩下的,就是如何求解的问题了。

从CV到NLP

以上提到的一些工作都还是停留在 CV 领域的,那么问题来了,可否将对抗训练迁移到 NLP 上呢?答案是肯定的,但是,我们得考虑这么几个问题: 

首先,CV 任务的输入是连续的 RGB 的值,而 NLP 问题中,输入是离散的单词序列,一般以 one-hot vector 的形式呈现,如果直接在 raw text 上进行扰动,那么扰动的大小和方向可能都没什么意义。Goodfellow 在 17 年的 ICLR 中 [9] 提出了可以在连续的 embedding 上做扰动: 

Because the set of high-dimensional one-hot vectors does not admit infinitesimal perturbation, we define the perturbation on continuous word embeddings instead of discrete word inputs.


乍一思考,觉得这个解决方案似乎特别完美。然而,对比图像领域中直接在原始输入加扰动的做法,在 embedding 上加扰动会带来这么一个问题:这个被构造出来的“对抗样本”并不能 map 到某个单词,因此,反过来在 inference 的时候,对手也没有办法通过修改原始输入得到这样的对抗样本。

我们在上面提到,对抗训练有两个作用,一是提高模型对恶意攻击的鲁棒性,二是提高模型的泛化能力。在 CV 任务,根据经验性的结论,对抗训练往往会使得模型在非对抗样本上的表现变差,然而神奇的是,在 NLP 任务中,模型的泛化能力反而变强了,如 [1] 中所述: 

While adversarial training boosts the robustness, it is widely accepted by computer vision researchers that it is at odds with generalization, with classification accuracy on non-corrupted images dropping as much as 10% on CIFAR-10, and 15% on Imagenet (Madry et al., 2018; Xie et al., 2019). Surprisingly, people observe the opposite result for language models (Miyato et al., 2017; Cheng et al., 2019), showing that adversarial training can improve both generalization and robustness.

因此,在 NLP 任务中,对抗训练的角色不再是为了防御基于梯度的恶意攻击,反而更多的是作为一种 regularization,提高模型的泛化能力。

有了这些“思想准备”,我们来看看 NLP 对抗训练的常用的几个方法和具体实现吧。

NLP中的两种对抗训练 + PyTorch实现

Fast Gradient Method(FGM) 

上面我们提到,Goodfellow 在 15 年的 ICLR [7] 中提出了 Fast Gradient Sign Method(FGSM),随后,在 17 年的 ICLR [9] 中,Goodfellow 对 FGSM 中计算扰动的部分做了一点简单的修改。假设输入的文本序列的 embedding vectors 640?wx_fmt=png 为 x ,embedding 的扰动为:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第6张图片

实际上就是取消了符号函数,用二范式做了一个 scale,需要注意的是:这里的 norm 计算的是,每个样本的输入序列中出现过的词组成的矩阵的梯度 norm。原作者提供了一个 TensorFlow 的实现 [10],在他的实现中,公式里的 x 是 embedding 后的中间结果(batch_size, timesteps, hidden_dim),对其梯度 g 的后面两维计算 norm,得到的是一个 (batch_size, 1, 1) 的向量640?wx_fmt=png

为了实现插件式的调用,笔者将一个 batch 抽象成一个样本,一个 batch 统一用一个 norm,由于本来 norm 也只是一个 scale 的作用,影响不大。笔者的实现如下:

import torch
class FGM():
    def __init__(self, model):
        self.model = model
        self.backup = {}

    def attack(self, epsilon=1., emb_name='emb.'):
        # emb_name这个参数要换成你模型中embedding的参数名
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name:
                self.backup[name] = param.data.clone()
                norm = torch.norm(param.grad)
                if norm != 0 and not torch.isnan(norm):
                    r_at = epsilon * param.grad / norm
                    param.data.add_(r_at)

    def restore(self, emb_name='emb.'):
        # emb_name这个参数要换成你模型中embedding的参数名
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name: 
                assert name in self.backup
                param.data = self.backup[name]
        self.backup = {}

需要使用对抗训练的时候,只需要添加五行代码:

# 初始化
fgm = FGM(model)
for batch_input, batch_label in data:
    # 正常训练
    loss = model(batch_input, batch_label)
    loss.backward() # 反向传播,得到正常的grad
    # 对抗训练
    fgm.attack() # 在embedding上添加对抗扰动
    loss_adv = model(batch_input, batch_label)
    loss_adv.backward() # 反向传播,并在正常的grad基础上,累加对抗训练的梯度
    fgm.restore() # 恢复embedding参数
    # 梯度下降,更新参数
    optimizer.step()
    model.zero_grad()

PyTorch 为了节约内存,在 backward 的时候并不保存中间变量的梯度。因此,如果需要完全照搬原作的实现,需要用 register_hook 接口 [11] 将 embedding 后的中间变量的梯度保存成全局变量,norm 后面两维,计算出扰动后,在对抗训练 forward 时传入扰动,累加到 embedding 后的中间变量上,得到新的 loss,再进行梯度下降。不过这样实现就与我们追求插件式简单好用的初衷相悖,这里就不赘述了,感兴趣的读者可以自行实现。 

Projected Gradient Descent(PGD)

内部 max 的过程,本质上是一个非凹的约束优化问题,FGM 解决的思路其实就是梯度上升,那么 FGM 简单粗暴的“一步到位”,是不是有可能并不能走到约束内的最优点呢?当然是有可能的。于是,一个很 intuitive 的改进诞生了:Madry 在 18 年的 ICLR 中 [8],提出了用 Projected Gradient Descent(PGD)的方法,简单的说,就是“小步走,多走几步”,如果走出了扰动半径为 ϵ 的空间,就映射回“球面”上,以保证扰动不要过大:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第7张图片

其中640?wx_fmt=png为扰动的约束空间,α 为小步的步长。

import torch
class PGD():
    def __init__(self, model):
        self.model = model
        self.emb_backup = {}
        self.grad_backup = {}

    def attack(self, epsilon=1., alpha=0.3, emb_name='emb.', is_first_attack=False):
        # emb_name这个参数要换成你模型中embedding的参数名
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name:
                if is_first_attack:
                    self.emb_backup[name] = param.data.clone()
                norm = torch.norm(param.grad)
                if norm != 0 and not torch.isnan(norm):
                    r_at = alpha * param.grad / norm
                    param.data.add_(r_at)
                    param.data = self.project(name, param.data, epsilon)

    def restore(self, emb_name='emb.'):
        # emb_name这个参数要换成你模型中embedding的参数名
        for name, param in self.model.named_parameters():
            if param.requires_grad and emb_name in name: 
                assert name in self.emb_backup
                param.data = self.emb_backup[name]
        self.emb_backup = {}

    def project(self, param_name, param_data, epsilon):
        r = param_data - self.emb_backup[param_name]
        if torch.norm(r) > epsilon:
            r = epsilon * r / torch.norm(r)
        return param_data + r

    def backup_grad(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                self.grad_backup[name] = param.grad

    def restore_grad(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                param.grad = self.grad_backup[name]

使用的时候,要麻烦一点:

pgd = PGD(model)
K = 3
for batch_input, batch_label in data:
    # 正常训练
    loss = model(batch_input, batch_label)
    loss.backward() # 反向传播,得到正常的grad
    pgd.backup_grad()
    # 对抗训练
    for t in range(K):
        pgd.attack(is_first_attack=(t==0)) # 在embedding上添加对抗扰动, first attack时备份param.data
        if t != K-1:
            model.zero_grad()
        else:
            pgd.restore_grad()
        loss_adv = model(batch_input, batch_label)
        loss_adv.backward() # 反向传播,并在正常的grad基础上,累加对抗训练的梯度
    pgd.restore() # 恢复embedding参数
    # 梯度下降,更新参数
    optimizer.step()
    model.zero_grad()

在 [8] 中,作者将这一类通过一阶梯度得到的对抗样本称之为“一阶对抗”,在实验中,作者发现,经过 PGD 训练过的模型,对于所有的一阶对抗都能得到一个低且集中的损失值,如下图所示:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第8张图片


我们可以看到,面对约束空间 S 内随机采样的十万个扰动,PGD 模型能够得到一个非常低且集中的 loss 分布,因此,在论文中,作者称 PGD 为“一阶最强对抗”。也就是说,只要能搞定 PGD 对抗,别的一阶对抗就不在话下了。


实验对照


为了说明对抗训练的作用,笔者选了四个 GLUE 中的任务进行了对照试验。实验代码是用的 Huggingface 的 transfomers/examples/run_glue.py [12],超参都是默认的,对抗训练用的也是相同的超参。

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第9张图片

我们可以看到,对抗训练还是有效的,在 MRPC 和 RTE 任务上甚至可以提高三四个百分点。不过,根据我们使用的经验来看,是否有效有时也取决于数据集。毕竟:缘,妙不可言~


总结

这篇博客梳理了 NLP 对抗训练发展的来龙去脉,介绍了对抗训练的数学定义,并对于两种经典的对抗训练方法,提供了插件式的实现,做了简单的实验对照。由于笔者接触对抗训练的时间也并不长,如果文中有理解偏差的地方,希望读者不吝指出。


一个彩蛋:Virtual Adversarial Training


除了监督训练,对抗训练还可以用在半监督任务中,尤其对于 NLP 任务来说,很多时候输入的无监督文本多的很,但是很难大规模地进行标注,那么就可以参考 [13] 中提到的 Virtual Adversarial Training 进行半监督训练。 

首先,我们抽取一个随机标准正态扰动(640?wx_fmt=png),加到 embedding 上,并用 KL 散度计算梯度:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第10张图片

然后,用得到的梯度,计算对抗扰动,并进行对抗训练:

训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现_第11张图片

实现方法跟 FGM 差不多,这里就不给出了。

Reference


[1] FreeLB: Enhanced Adversarial Training for Language Understanding 
https://arxiv.org/abs/1909.11764 
[2] Technical report on Conversational Question Answering
https://arxiv.org/abs/1909.10772 
[3] EYD与机器学习:对抗攻击基础知识(一)
https://zhuanlan.zhihu.com/p/37260275 
[4] Towards a Robust Deep Neural Network in Text Domain A Survey
https://arxiv.org/abs/1902.07285 
[5] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey
https://arxiv.org/abs/1901.06796 
[6] Intriguing properties of neural networks
https://arxiv.org/abs/1312.6199 
[7] Explaining and Harnessing Adversarial Examples
https://arxiv.org/abs/1412.6572 
[8] Towards Deep Learning Models Resistant to Adversarial Attacks
https://arxiv.org/abs/1706.06083 
[9] Adversarial Training Methods for Semi-Supervised Text Classification
https://arxiv.org/abs/1605.07725 
[10] Adversarial Text Classification原作实现
https://github.com/tensorflow/models/blob/e97e22dfcde0805379ffa25526a53835f887a860/research/adversarial_text/adversarial_losses.py 
[11] register_hook api
https://www.cnblogs.com/SivilTaram/p/pytorch_intermediate_variable_gradient.html 
[12] huggingface的transformers
https://github.com/huggingface/transformers/tree/master/examples 
[13] Distributional Smoothing with Virtual Adversarial Training
https://arxiv.org/abs/1507.00677

640?

点击以下标题查看更多往期内容: 

640?#投 稿 通 道#

 让你的论文被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

投稿邮箱:

• 投稿邮箱:[email protected] 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取最新论文推荐

你可能感兴趣的:(训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现)