【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读

【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第1张图片
这篇文章关注的内容也是不同的每个instance生成与其相关的prompt(Instance-Dependent Prompt Generation)。
主要看一下生成的方法就好。
论文
代码

Overview

根据prompt-tuning的方法,针对句子对任务,我们构建如下输入:
在这里插入图片描述
针对单句子的任务,我们构建如下输入:
在这里插入图片描述
E E E表示单词的embedding, S S S表示句子。
以前的方法一般是针对一个任务设计一个prompt(t表示prompt token的个数):
在这里插入图片描述
本文的主要目的是根据任务 T T T和输入文本 x x x的表示 M ( x i ) M(x_i) M(xi)共同生成一个prompt:
在这里插入图片描述

将所生成的prompt和输入拼接并送入语言模型,使用CLS位的表示进行分类:
在这里插入图片描述

Prompt生成过程

本文设计的prompt生成过程主要是为了减少参数量,因此prompt生成器 G G G采用的是bottleneck架构。
若要生成长度为t的prompt,那么我们首先需要将 M ( x i ) M(x_i) M(xi)进行下采样,然后对于 M ( x i ) M(x_i) M(xi)采用t个bottleneck架构 G G G进行非线性变换、上采样以生成t个prompt token的表示。考虑到bias term的存在,这一步所需要的参数量为 m ( d + 1 ) + t d ( m + 1 ) ( m ≪ d ) m(d +1) +td(m+1) (m ≪ d) m(d+1)+td(m+1)(md).
上述过程所用到的句子表示可以来自PLM,也可以来自Glove,是任务无关的。
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第2张图片

Prompt生成优化

这一步主要是为了进一步减少生成prompt所需要的参数量,在这里,作者采用了Parameterized Hypercomplex Multiplication来对 G G G所使用的参数进行优化。
传统的全连接层网络可以表示为 y = W x + b y = Wx + b y=Wx+b的形式,其中 W ∈ R m × d W ∈ R^{m×d} WRm×d,当 m m m d d d较大时 W W W就成了主要的参数瓶颈。PHM机制利用几个小矩阵的Kronecker products来替代 W W W矩阵。
给定用户定义的超参数 n n n,用 n n n m m m d d d进行划分, W W W可以计算为:
在这里插入图片描述
其中,在这里插入图片描述
⊗表示Kronecker product(克罗内克积),一个例子:
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第3张图片
作者给了一个直观的参数对比例子(当然啦,跟PLM的参数相比,1.5M本身参数量也算很少了):
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第4张图片

Multi-layer Prompt Tuning

prompt-tuning采用在transformer第一层插入连续token表示的方式生成prompt,但是,该方式存在以下缺点:

  1. 随着层数的加深,第一层的prompt对于最终预测结果的影响较小(这里没有引用文献说明为什么)
  2. 只在一层添加prompt,所引入的参数量有限,在长文本的情况下,prompt tuning的效果可能不能表现较好。

因此,作者尝试直接将当前方法拓展到多层的场景(M-IDPG)。
对于每一层,我们设置其层专属的prompt生成器 G i G_i Gi,线性变换表示为 y = W x + b i y = Wx+b_i y=Wx+bi,为了减少由于层数增多带来的参数量,各层会共享同一个参数变换矩阵 W W W,而拥有层特定的bias term b i b_i bi.

实验效果

全量数据:本文提出的方法(IDPG)相比于Prompt-tuning和P-tuning迁移学习效果会更好,但是相比于微调和Adapter方法效果较差。对于单句子任务,如MPQA效果更好。
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第5张图片
引入的新参数量较少:
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第6张图片
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第7张图片
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第8张图片
low resource的情况下也稍逊于adapter方法。另外,IDPG以Glove向量获得句子表示时,其表现与从预训练语言模型中获得句子表示效果相差不大,这其实一定意义上体现了本文的prompt生成方案对于预训练语言模型知识的利用其实是不太充分的。
【NAACL 2022】IDPG: An Instance-Dependent Prompt Generation Method 略读_第9张图片

你可能感兴趣的:(自然语言处理,机器学习,人工智能,深度学习,机器学习)